golang 用/x/net/html写的小爬虫，爬小说

neo_5687 · · 6201 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

平时除了写代码，唯一的娱乐就是看看小说，放松一下大脑了。但在这个网站广告铺天盖地的环境下，想单纯的看会小说也成了一个问题了。最近在学习golang,于是就想写一个小爬虫，把小说爬下来看而不用看到讨厌的广告了。

网上大多数教程都是用第三方库，很多都是用github.com/PuerkitoBio/goquery这个库，但因为从来没写过web，对jquery的语法完全是空白，而go语言圣经上的示例用到x/net/html这个google自己维护的库来爬网站的链接，于是研究了一下这个库，写了一个小爬虫，事实证明这个库写爬虫完全没问题，只不过比goquery麻烦一点，毕竟goquery是在这个库的基础上封装的，这个库更底层一点。

特写下这往篇日记，记心太烂，怕过一段时间又忘了。

经过这几天恶补了一下html方面的知识，对爬虫的编写有所了解：

一：先把网站源码get到手，

二：用html.Parse解析得到html文件的结点树

三：用chrome或firefox查看网页的结构，找到想要的内容的结点

最后就是递归找到想要的结点，然后把结点下的内容写到本地文件内就ok了

要注意网页的编码，golang只能用utf8,国内很多网站用的是gbk编码，需要转码，转码可以用

github.com/mahonia库。

分析网页结构：

找了三个网站做实验，起点(utf8)，笔趣阁(gbk编码)和新笔趣阁(utf8)，起点的结构和另外两个不一样。

起点的：

utf8编码

找到这个结点

笔趣阁的：

gbk编码

&nbsp转码后变成乱码了，需要单独处理,不知道是库的原因还是我不会用，我觉得&nbsp不应该被转码才对，转了之后就无法正常解析了

新笔趣阁：

也是utf8,不用转码

因为不用转码，所以&nbsp能得到正确解析

代码很少，就放在一个文件里了

笔趣阁

新笔趣阁

起点

本来想直接贴代码的，但贴上来之后格式全乱了，只好截图了,代码那几张图是连在一起的。

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：neo_5687

查看原文：golang 用/x/net/html写的小爬虫，爬小说

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

6201 次点击

加入收藏微博

收入我的专栏

上一篇：golang 邮件发送代码片段

下一篇：Golang hashmap 的使用及实现

net

转码

代码

小爬虫

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

golang 用/x/net/html写的小爬虫，爬小说

用户登录

今日阅读排行

一周阅读排行

关注我

golang 用/x/net/html写的小爬虫，爬小说

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏