golang chromedp爬虫打开新标签页

itchin · · 135 次点击 · · 开始浏览    

chromedp(项目地址 https://github.com/chromedp/chromedp)用于解决反爬虫JS问题,之前笔者就有写了个爬虫工具用到chromedp,踩了些坑,在此记录一下。

使用chromedp爬虫时,如果点击属性为target="_blank"的a标签,上下文仍然停留在当前网页,需要使用其它的容器打开新页面。

package main

import (
    "context"
    "fmt"
    "github.com/chromedp/cdproto/target"
    "github.com/chromedp/chromedp"
    "log"
    "net/http"
    "net/http/httptest"
)

func main() {
    ctx, cancel := chromedp.NewContext(context.Background())
    defer cancel()
    ch := addNewTabListener(ctx)

    err := chromedp.Run(ctx,
        chromedp.Navigate("https://music.migu.cn/v3/music/player/audio"),
        chromedp.SetValue("#search_ipt", "输入要搜索的歌曲名", chromedp.ByID),
        chromedp.Click(`i[class="iconfont cf-nav-sousuo"]`, chromedp.BySearch),
    )
    if err != nil {
        log.Fatal(err)
    }

    newCtx, cancel := chromedp.NewContext(ctx, chromedp.WithTargetID(<-ch))
    defer cancel()

    var res string
    err = chromedp.Run(newCtx,
        chromedp.OuterHTML(`div[class="songlist-body"]`, &res, chromedp.BySearch),
    )
    if err != nil {
        log.Fatal(err)
    }

    // 输出了新打开标签页的html
    fmt.Println(res)
}

/**
 * 注册新tab标签的监听服务
 */
func addNewTabListener(ctx context.Context) <-chan target.ID {
    mux := http.NewServeMux()
    ts := httptest.NewServer(mux)
    defer ts.Close()

    return chromedp.WaitNewTarget(ctx, func(info *target.Info) bool {
        return info.URL != ""
    })
}

相关项目地址 https://github.com/itchin/sq-music-download


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:itchin

查看原文:golang chromedp爬虫打开新标签页

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:1006366459

135 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传