请问下,scrapy 如果要爬取整个站的内容,是要把所有页面的URL都获取到队列后才开始提取内容吗

laical · · 815 次点击
边拉url边下载,scrapy是异步抓取,会维护至少一个请求队列池,还若干下载线程。相当于水池,一边进水(入被抓取页url),一边排出(出页面下载)。想想下载时因网络延迟需要等待很常见,CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。
#2
更多评论
scrapy 是 Go 的框架?
#1
不取内容怎么取出所有url...
#3