爬虫教程

Chiwency · · 1723 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

Golang爬虫简明教程

爬虫大体上分为两种类型，一种是爬取网页源码(一般是HTML)，另一种就是模拟请求API获取数据。这里我们只讨论第一种形式。

假设你们了解HTTP相关知识(看完一半的图解HTTP)

爬取HTML源码

以廖雪峰的官网为例(因为它网页内容基本不会变)

https://www.liaoxuefeng.com/

这条链接就是我们要爬的目标链接了，或者说是目标网页。

首先我们可以先尝试直接爬取网页HTML源码

我们爬虫就是要模拟浏览器网络请求,用到"net/http"库

http 是Go语言提供的标准库之一，可以发起和接受 http 网络请求

net/http官方文档

要学会看官方文档，学会怎么调用标准库的函数

代码实现

requestUrl := "https://www.liaoxuefeng.com/"   
// 发送Get请求
rsp, err := http.Get(requestUrl)    
if err != nil {
    log.Println(err.Error())
    return
}

然后用"io/ioutil"解析成我们能够阅读的源码。

io/ioutil 官方文档

body, err := ioutil.ReadAll(rsp.Body)
if err != nil {
    log.Println(err.Error())
    return
}
content := string(body)
defer rsp.Body.Close()

可以尝试着输出着看一下内容：

fmt.Println(content)

解析HTML

上面爬取的是HTML的源码，标签和内容混杂在一起，很杂乱。接下来我们就要分析HTML网页，找到我们想要获取的信息是在哪个标签中

按下 F12（Fn+F12），进入开发者模式（下面是Chrome的界面），在第一栏的元素（Elements）中，可以看到一堆 HTML 代码，鼠标移动到代码上发现页面有部分会高亮，那么这就是高亮的那部分页面内容的代码。挨个尝试，找到标题，该 HTML 标签就是我们要爬取的东西。

parse_html.jpg

然后要从这个网页代码中提取我们所需要的东西，这里用到了 soup库，soup库将 HTML 文档解析成一个 DOM树，可以较为方便地获取 HTML 标签中的内容。具体怎么使用就需要自己去看文档了，这是一个主动学习和探(zhe)索(teng)的过程。

soup库比较简单，没有很成熟的文档，自己可以去看它github下面的函数使用介绍以及Examples，学会怎么调用它的函数

它的Examples很重要很重要很重要，我也是看Example写的，，

下面我要爬取所有文章的标题

导入包：

import (
    // ...
   "github.com/anaskhan96/soup"
)

代码：

    requestUrl := "https://www.liaoxuefeng.com/"   
    // 发送Get请求
    rsp, err := http.Get(requestUrl)    
    if err != nil {
        log.Println(err.Error())
        return
    }
    body, err := ioutil.ReadAll(rsp.Body)
    if err != nil {
        log.Println(err.Error())
        return
    }
    content := string(body)
    defer rsp.Body.Close()
    
// 下面主要是解析标签
    doc:=soup.HTMLParse(content)
    subDocs:=doc.FindAll("div","class","uk-margin")
    for _,subDoc:=range subDocs{
        link:=subDoc.Find("a")
        fmt.Println(link.Text())
    }

相信你在获取标签内容的过程中，肯定会遇到很多困难，出现的许多情况都非如人意的，这十分正常，多多尝试，相信你会取得你想要的东西。遇到问题要多尝试，多试几种方法，多用Println找错误

上面代码解析出来的标题其实是有一些问题的，有一些意料之外的空行（标题的标签匹配的范围太广导致）

我也是当天接触这个包，当天给你们写教程，对这个包研究不深入，通过解析标签，阅读文档和里面的Examples, 你可以自己琢磨出一些匹(sao)配(cao)方(zuo)法，来改进我的代码，去掉那些多余的空行

相信这是你们第一次看github上开源库的文档并学习如何使用它们，好好锻炼好好折腾吧

这个包连自己文档都写的不咋地，也别指望找中文教程了。 [doge]

进阶

当你在第一步爬取到源码之后，如果觉得有些信息无法通过解析标签获取，那个soup包用的也不是那么随心所欲，有空的话可以看看正则表达式，用官方的regexp库，来自己手动写匹配模式，匹配到你想要的信息。

要用的话建议还是看标准库。实在看不懂就去中文社区找几个例子照着写。

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：Chiwency

查看原文：爬虫教程

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

1723 次点击

加入收藏微博

收入我的专栏

上一篇：GopherChina2020 个人总结

下一篇：Centos7源码安装Golang

代码

标准库

信息

github

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

爬虫教程

Golang爬虫简明教程

爬取HTML源码

代码实现

解析HTML

进阶

用户登录

今日阅读排行

一周阅读排行

关注我

Golang爬虫简明教程

爬取HTML源码

代码实现

解析HTML

进阶

爬虫教程

Golang爬虫简明教程

爬取HTML源码

代码实现

解析HTML

进阶

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

Golang爬虫简明教程

爬取HTML源码

代码实现

解析HTML

进阶

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏