Go 语言开发的爬虫框架 Grabant

xuanbao • 2017-10-13 11:00:03 • 3048 次点击

这是一个分享于 2017-10-13 11:00:03 的项目，其中的信息可能已经有所发展或是发生改变。

Grabant是一个用go语言开发，用javascript语法书写规则的爬虫框架规则开发和神箭手的爬虫规则类似，开发的目的是兼容大部分神箭手已有的规则

一些相关解释及说明如下：

扫描页是直接配置的一级页面，这个页面扫描的结果是抓取列表页;

列表页是扫描后的二级页面，这个页面是为了抓取内容页;

内容页才是真正匹配我们需要内容的规则的页面，内容页会匹配我们需要的内容并输出;

每次扫描页面，会抽取页面的链接放入队列进行规则匹配，列表页规则如果为空则列表页抽取链接全放入列表队列，同理内容页，从内容页中抽取的数据是以xpath或者正则匹配的规则

举个栗子：如下是一个简易的爬豆瓣电影评分的规则

configs是一个json配置对应的字段意义如下：

domains

定义应用爬取哪些域名下的网页

interval

爬取页面需要的延时，毫秒

scanUrls

定义入口页url, 从入口页url开始爬取数据

contenturlregexes

设置内容页url的正则表达式

helperurlregexes

设置列表页url的正则表达式

field

定义一个从内容页中抽取数据的抽取项,包括以下内容

name

抽取项的名称

selector

抽取项的匹配规则，可以是正则表达式或者Xpath

selectortype

定义抽取区的类型,正则为SelectorType.Regex, XPath为SelectorType.XPath,如果不设置默认为XPath

required

bool类型，如果为true，则此项必须存在才爬取此数据

grabant -rule /路径/规则文件

此版本是一个原型版本，目前还有很多判断不严密的可能引起crash的问题;

和神箭手不同之出目前有两个，一是configs项区分大小写，需要全为小写，二fields中selector只支持字符正则;

现在此版本还未实现多个对象及回调方法，只支持最简单的json规则.

授权协议：: GPL
开发语言：: Google Go 查看源码»
操作系统：: 跨平台

3048 次点击

加入收藏微博

框架

神箭手

爬虫

字段

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

Go 语言开发的爬虫框架 Grabant

oserz/grabant

用户登录

今日阅读排行

一周阅读排行