Go语言中文网 为您找到相关结果 4

纯golang开发的强大灵活的爬虫系统digger

[Digger](https://github/hetianyi/digger)是用纯[Golang](https://golang.org)开发的配置式分布式跨平台爬虫系统,支持使用Javascript编写插件来实现各种你想要达到的目标。Digger及相关组件能够以极低的资源开销运行在各种廉价服务器和开发板上,如树莓派。 Digger没有复杂的依赖,部署十分简单,支持Linux和Windows平台,目前支持的CPU架构有:```amd64```, ```arm```, ```arm64``` 您可以在 [Demo演示环境](https://demo.diggerit.me/) https://demo.diggerit.me 快速体验功能。 > 由于资源有限,请合理使用演示环境,...阅读全文

开源项目 2020-09-09 13:41:04

图片爬虫/下载器laosj

基于goquery的轻量级爬虫, 图片下载器支持分布式, 可以自定义下载并发量。' Releases mzitu 爬取mzitu.com/taiwan (图片下载依赖redis作为url队列) mzituzp 爬取mzitu.com/share (图片下载依赖redis作为url队列) aiss-darwin 根据接口下载爱丝图片(依赖redis作为url队列) jav 获取番号列表及根据番号获取种子文件 (无依赖) douban-group 抓取并下载豆瓣小组图片(依赖redis作为url队列...阅读全文

开源项目 2017-04-16 11:08:03 songtianyi

爬虫框架go_spider

##简介## 本项目基于golang开发,是一个开放的垂直领域的爬虫引擎,主要希望能将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),Downloader模块(下载器),PageProcesser模块(页面分析),Scheduler模块(任务队列),Pipeline模块(结果输出); ##执行过程简述:## 1. Spider从Scheduler中获取包含待抓取url的Request对象,启动一个协程,一个协程执行一次爬取过程,此处我们把协程也看成Spider,Spider把Request对象传入Downloader,Downloader下载该Request对象中url所对应的页面...阅读全文

网络爬虫框架Antch

Antch, 是快速的,强大的,可扩展的爬虫框架,类似于[Scrapy](https://github.com/scrapy/scrapy)。 * 支持robots.txt * 支持自定义模块 * 支持Item管道处理 * 支持多种代理协议(socks5,http,https) * 支持XPath查询HTML/XML数据 * 做为框架,易于上手 阅读全文

开源项目 2017-12-13 03:39:37