chromedp(项目地址 https://github.com/chromedp/chromedp)用于解决反爬虫JS问题,之前笔者就有写了个爬虫工具用到chromedp,踩了些坑,在此记录一下。
使用chromedp爬虫时,如果点击属性为target="_blank"的a标签,上下文仍然停留在当前网页,需要使用其它的容器打开新页面。
package main
import (
"context"
"fmt"
"github.com/chromedp/cdproto/target"
"github.com/chromedp/chromedp"
"log"
"net/http"
"net/http/httptest"
)
func main() {
ctx, cancel := chromedp.NewContext(context.Background())
defer cancel()
ch := addNewTabListener(ctx)
err := chromedp.Run(ctx,
chromedp.Navigate("https://music.migu.cn/v3/music/player/audio"),
chromedp.SetValue("#search_ipt", "输入要搜索的歌曲名", chromedp.ByID),
chromedp.Click(`i[class="iconfont cf-nav-sousuo"]`, chromedp.BySearch),
)
if err != nil {
log.Fatal(err)
}
newCtx, cancel := chromedp.NewContext(ctx, chromedp.WithTargetID(<-ch))
defer cancel()
var res string
err = chromedp.Run(newCtx,
chromedp.OuterHTML(`div[class="songlist-body"]`, &res, chromedp.BySearch),
)
if err != nil {
log.Fatal(err)
}
// 输出了新打开标签页的html
fmt.Println(res)
}
/**
* 注册新tab标签的监听服务
*/
func addNewTabListener(ctx context.Context) <-chan target.ID {
mux := http.NewServeMux()
ts := httptest.NewServer(mux)
defer ts.Close()
return chromedp.WaitNewTarget(ctx, func(info *target.Info) bool {
return info.URL != ""
})
}
相关项目地址 https://github.com/itchin/sq-music-download
有疑问加站长微信联系(非本文作者)