请问下，scrapy 如果要爬取整个站的内容，是要把所有页面的URL都获取到队列后才开始提取内容吗

laical · · 828 次点击

请问下，scrapy 如果要爬取整个站的内容，是要把所有页面的URL都获取到队列后才开始提取内容吗

阅读全文

查看全部 3 个评论

pardon110

边拉url边下载，scrapy是异步抓取，会维护至少一个请求队列池，还若干下载线程。相当于水池，一边进水（入被抓取页url），一边排出（出页面下载）。想想下载时因网络延迟需要等待很常见，CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。

评论于 2020-05-02 08:33:38

#2

更多评论

blov

scrapy 是 Go 的框架？

评论于 2020-04-30 15:37:30

#1

jarlyyn

不取内容怎么取出所有url...

评论于 2020-05-13 10:19:01

#3

X

登录和大家一起探讨吧