golang 爬虫（二）

kelindame · · 5976 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

通用的爬虫原理示意图：

具体实现过程：

1、开一个协程从待抓取url中获取url，进行网页获取，网页解析，然后入库；

2、开另一个协程从已抓取url中获取url，进行获取其他url并且放入待抓取url队列中；

网页解析

在golang中，解析网页有几个比较好用的第三方库。比如：github.com/opesun/goquery,github.com/PuerkitoBio/goquery等等。

github.com/PuerkitoBio/goquery功能强大，但在使用的时候，编译不过，当时比较懒就不用了。而使用github.com/opesun/goquery，该插件是在解析html节点时，使用jq类似的语法。下面介绍几个列子：

content,err:=goquery.ParseUrl(url)
if err != nil{
     panic(error)
}

1、打印整个html：fmt.Println(content.Html())

2、获取class的内容：content.Find(".name").Text();

3、获取id的内容：content.Find("#name").Text();

4、当获取的内容中超过一条内容时：

sex:=content.Find("input[name='gender']:checked")
		for i:=0;i<sex.Length();i++{
			if sex.Eq(i).Attr("checked") != "checked"{
				continue;
			}
			if sex.Eq(i).Attr("value")=="0"{
				info.sex = "女"
			}
			if sex.Eq(i).Attr("value")=="1"{
				info.sex = "男"
			}
		}

获取其他待抓取网页

本次测试是爬知乎网的用户信息。

1、获取问题网址url；

2、获取对应问题网址的回答用户url;

需改进的地方

1、爬其他用户url的算法；

2、只有两个线程，分别为生产者和消费者。使用线程池。

3、控制生产者的速度与消费者的速度的算法。

有疑问加站长微信联系（非本文作者）

本文来自：CSDN博客

感谢作者：kelindame

查看原文：golang 爬虫（二）

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

5976 次点击

加入收藏微博

收入我的专栏

上一篇：go文件操作

下一篇：Go语言并发的设计模式和应用场景

github

线程

信息

抓取

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

golang 爬虫（二）

用户登录

今日阅读排行

一周阅读排行

关注我

golang 爬虫（二）

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏