请问下，scrapy 如果要爬取整个站的内容，是要把所有页面的URL都获取到队列后才开始提取内容吗

laical · 2020-04-29 17:58:33 · 966 次点击 · 大约8小时之前开始浏览置顶

这是一个创建于 2020-04-29 17:58:33 的主题，其中的信息可能已经有所发展或是发生改变。

有疑问加站长微信联系（非本文作者）

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

966 次点击

加入收藏微博

页面

队列

请问

提取

3 回复 | 直到 2020-05-13 10:19:01

blov · #1 · 5年之前

scrapy 是 Go 的框架？

pardon110 · #2 · 5年之前

边拉url边下载，scrapy是异步抓取，会维护至少一个请求队列池，还若干下载线程。相当于水池，一边进水（入被抓取页url），一边排出（出页面下载）。想想下载时因网络延迟需要等待很常见，CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。

jarlyyn · #3 · 5年之前

不取内容怎么取出所有url...

添加一条新回复（您需要登录后才能回复没有账号？）

登录和大家一起探讨吧