请问下,scrapy 如果要爬取整个站的内容,是要把所有页面的URL都获取到队列后才开始提取内容吗
有疑问加站长微信联系(非本文作者)
入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889
scrapy 是 Go 的框架?
边拉url边下载,scrapy是异步抓取,会维护至少一个请求队列池,还若干下载线程。相当于水池,一边进水(入被抓取页url),一边排出(出页面下载)。想想下载时因网络延迟需要等待很常见,CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。
不取内容怎么取出所有url...
`单行代码`
scrapy 是 Go 的框架?
边拉url边下载,scrapy是异步抓取,会维护至少一个请求队列池,还若干下载线程。相当于水池,一边进水(入被抓取页url),一边排出(出页面下载)。想想下载时因网络延迟需要等待很常见,CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。
不取内容怎么取出所有url...