Go语言中文网 为您找到相关结果 3

爬虫框架go_spider

##简介## 本项目基于golang开发,是一个开放的垂直领域的爬虫引擎,主要希望能将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),Downloader模块(下载器),PageProcesser模块(页面分析),Scheduler模块(任务队列),Pipeline模块(结果输出); ##执行过程简述:## 1. Spider从Scheduler中获取包含待抓取url的Request对象,启动一个协程,一个协程执行一次爬取过程,此处我们把协程也看成Spider,Spider把Request对象传入Downloader,Downloader下载该Request对象中url所对应的页面...阅读全文

图片爬虫/下载器laosj

基于goquery的轻量级爬虫, 图片下载器支持分布式, 可以自定义下载并发量。' Releases mzitu 爬取mzitu.com/taiwan (图片下载依赖redis作为url队列) mzituzp 爬取mzitu.com/share (图片下载依赖redis作为url队列) aiss-darwin 根据接口下载爱丝图片(依赖redis作为url队列) jav 获取番号列表及根据番号获取种子文件 (无依赖) douban-group 抓取并下载豆瓣小组图片(依赖redis作为url队列...阅读全文

开源项目 2017-04-16 11:08:03 songtianyi

网络爬虫框架Antch

Antch, 是快速的,强大的,可扩展的爬虫框架,类似于[Scrapy](https://github.com/scrapy/scrapy)。 * 支持robots.txt * 支持自定义模块 * 支持Item管道处理 * 支持多种代理协议(socks5,http,https) * 支持XPath查询HTML/XML数据 * 做为框架,易于上手 阅读全文

开源项目 2017-12-13 03:39:37