主题
文章
项目
资源
图书
Go网址导航
下载
官方文档
英文文档
中文文档
标准库中文版
Go指南
注册
登录
首页
主题
Go问与答
请问下,scrapy 如果要爬取整个站的内容,是要把所有页面的URL都获取到队列后才开始提取内容吗
laical
·
· 828 次点击
请问下,scrapy 如果要爬取整个站的内容,是要把所有页面的URL都获取到队列后才开始提取内容吗
阅读全文
查看全部 3 个评论
blov
scrapy 是 Go 的框架?
评论于 2020-04-30 15:37:30
#1
更多评论
pardon110
边拉url边下载,scrapy是异步抓取,会维护至少一个请求队列池,还若干下载线程。相当于水池,一边进水(入被抓取页url),一边排出(出页面下载)。想想下载时因网络延迟需要等待很常见,CPU会让出这段时间让其它协程去拉取新请求或去开启另一个下载任务。
评论于 2020-05-02 08:33:38
#2
jarlyyn
不取内容怎么取出所有url...
评论于 2020-05-13 10:19:01
#3
我要评论
用户登录
记住登录状态
没有账号?
注册
忘记密码?
或
GitHub 登录
Gitea 登录
Go今日面试题
今日阅读排行
一周阅读排行
X
登录和大家一起探讨吧
用户名
密码
记住登录状态
登录
GitHub 登录
忘记密码?
还不是会员
现在注册