有没有懂爬虫的大神

zhengkeyu · 2020-06-04 08:58:29 · 1157 次点击 · 大约8小时之前 开始浏览    置顶
这是一个创建于 2020-06-04 08:58:29 的主题,其中的信息可能已经有所发展或是发生改变。

代码爬取boss直聘得到的数据却和浏览器请求的不一样,一直解决不了,求解是什么原因啊

链接:"https://www.zhipin.com/c100010000-p100123/?page=1&ka=page-1"


有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1157 次点击  ∙  1 赞  
加入收藏 微博
9 回复  |  直到 2020-06-05 08:48:02
polaris
polaris · #1 · 5年之前

里面有数据通过 js 渲染的吧

zhengkeyu
zhengkeyu · #2 · 5年之前
polarispolaris #1 回复

里面有数据通过 js 渲染的吧

好像是 我不知道怎么解决啊

jarlyyn
jarlyyn · #3 · 5年之前
zhengkeyu
zhengkeyu · #4 · 5年之前
jarlyynjarlyyn #3 回复

了解一下无头浏览器 headless browser https://developers.google.com/web/updates/2017/04/headless-chrome https://github.com/chromedp/chromedp

好的 下午看 多谢了😊

zhengkeyu
zhengkeyu · #5 · 5年之前
jarlyynjarlyyn #3 回复

了解一下无头浏览器 headless browser https://developers.google.com/web/updates/2017/04/headless-chrome https://github.com/chromedp/chromedp

能否简单演示下 我看了半天没理解😓

LucusXu
LucusXu · #6 · 5年之前

抓包啊,不是返回了很多json吗,应该有你想要的东西

zhengkeyu
zhengkeyu · #7 · 5年之前
LucusXuLucusXu #6 回复

抓包啊,不是返回了很多json吗,应该有你想要的东西

要获取完整的页面 要抓包 怎么操作啊 求教

LucusXu
LucusXu · #8 · 5年之前

pc网页用浏览器的调试功能,看network下面的请求,有些url就是获取的结构化数据。还有可以用charles抓app的对应页面的接口。

zhengkeyu
zhengkeyu · #9 · 5年之前

谢谢各位的回复 我用chromedp解决了

parent, cancel := chromedp.NewExecAllocator(context.Background(), chromedp.ExecPath(C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe)) defer cancel()

ctx, cancel := chromedp.NewContext(parent)
defer cancel()

html := ""
err := chromedp.Run(ctx,
    chromedp.Navigate("https://www.zhipin.com/c100010000-p100123/?page=1&ka=page-1"),
    chromedp.WaitVisible("body", chromedp.ByQuery),
    chromedp.OuterHTML("body", &html, chromedp.ByQuery),
)
if err != nil{
    panic(err)
}
fmt.Println(html)
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传