golang实现抓取图片 Meizar

polaris • 2016-06-07 07:00:05 • 3245 次点击

这是一个分享于 2016-06-07 07:00:05 的项目，其中的信息可能已经有所发展或是发生改变。

golang实现抓取妹子图

默认图片来源网站：http://jandan.net

依赖项目：https://github.com/PuerkitoBio/goquery

编译源码前，请准备好以上项目，方法：

go get github.com/PuerkitoBio/goquery

如何使用

window用户可以直接下载win_exe目录下在的zip文件，解压出一个main.exe文件。

其他平台用户，可以自行下载源码编译。

使用步骤(以windows为例)：

1. 打开命令行定位到编译文件所在目录

2. 输入命令：

main.exe -dir D:\jandan -start 2009

参数说明

1. -dir 可选，制定图片保存路径，默认保存当前目录/images/下

2. -start 可选，从多少页开始，默认从第2009页开始抓取(注意程序是按照页码倒序抓取的)

3. -cookie 可选，用户使用的cookie， chrome下可以打开http://jandan.net，按F12键，选择network项查看，这个参数主要在抓取时发生503错误使用的，默认不用指定

效果

图片就不展示了，大家可以自己运行看。

扩展

默认图片来源是煎蛋上的，但是作为一个___，难道一个煎蛋就满足了吗？不可能！！！！所以，我们还可以自定义抓取规则，来抓取不同网站的内容。

怎么定制？

只需要实现Rule接口的3个方法就可以了。例如煎蛋的抓取规则是：

// /rule/jandanRule.go type JandanRule struct{} func (p *JandanRule) UrlRule() (url string) { return "http://jandan.net/ooxx/" } func (p *JandanRule) PageRule(currentPage int) (page string) { return "page-" + strconv.Itoa(currentPage)
} func (p *JandanRule) ImageRule(doc *goquery.Document, f func(image string)) {
    doc.Find("a.view_img_link").Each(func(i int, s *goquery.Selection) { if img, exist := s.Attr("href"); exist { f(img)
        }
    })
}

1. 第一个方法返回我们要抓取的url

2. 第二个方法根据当前页返回url后面的页面信息

3. 第三个方法是内容匹配规则，将匹配到的内容利用f函数返回

授权协议：: Apache
开发语言：: Google Go 查看源码»
操作系统：: 跨平台

3245 次点击

加入收藏微博

github

net

煎蛋

抓取

8 回复 | 直到

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

golang实现抓取图片 Meizar

如何使用

参数说明

效果

扩展

qibin0506/Meizar

用户登录

今日阅读排行

一周阅读排行