Go 语言自我提升 (爬虫 - 正则)

张家驹 · 2019-04-17 12:34:41 · 2853 次点击 · 预计阅读时间 4 分钟 · 大约8小时之前开始浏览

这是一个创建于 2019-04-17 12:34:41 的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

Go语言爬虫只是一种开拓思路和代码上手的练习 , 爬虫浪费了go语言的性能 , 且爬虫的效率和代码实现远没有 Python舒服 , 所以 , 学习思路 , 思路远比代码重要 ! ! !

初级练习 -- 爬取百度贴吧

package main

import (

"fmt"

"strconv"

"net/http"

"io"

"os"

)

// 根据url获取一个网页数据

func HttpGet(url string) string {

// 定义变量，保存一个整个网页数据

var result string

// 发送请求，获取服务器回发应答包

resp, err := http.Get(url)

if err != nil {

panic(err)

}

defer resp.Body.Close()

// 创建缓冲区，保存网页数据

buf := make([]byte,4096)

// 循环读取数据内容

for {

n, err := resp.Body.Read(buf)

if n ==0 {

break

}

if err !=nil && err != io.EOF {

panic(err)

}

result += string(buf[:n])

}

return result

}

func Save2File(idx int, result string) {

fileName :="第" + strconv.Itoa(idx) +"页.html"

// 创建文件

f, err := os.Create(fileName)

if err != nil {

panic(err)

}

defer f.Close()

// 将一整页数据，写入到文件中。

_, err = f.WriteString(result)

if err != nil {

panic(err)

}

func working(start, end int) {

// 按照用户指定的起始、终止页面爬取

for i:=start; i<=end; i++ {

// 获取每一页的url

url :="https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

fmt.Printf("正在爬取第%d个页面， url：%s\n", i, url)

// 封装函数，根据url获取一个网页数据

result := HttpGet(url)

// 封装函数，将读到的网页数据保存成文件

Save2File(i, result)

fmt.Printf("爬取%d个页面完毕...\n", i)

}

func main() {

// 提示用户指定爬取的起始、终止页面

var start, end int

fmt.Print("请输入爬取的起始页面（>=1）:")

fmt.Scan(&start)

fmt.Print("请输入爬取的终止页面（>=start）:")

fmt.Scan(&end)

// 找寻分页器规律，爬取内容。

working(start, end)

}

爬取百度贴吧 -- 2.0 (并发)

package main

import (

"fmt"

"strconv"

"net/http"

"io"

"os"

)

// 根据url获取一个网页数据

func HttpGet(url string) string {

// 定义变量，保存一个整个网页数据

var result string

// 发送请求，获取服务器回发应答包

resp, err := http.Get(url)

if err != nil {

panic(err)

}

defer resp.Body.Close()

// 创建缓冲区，保存网页数据

buf := make([]byte,4096)

// 循环读取数据内容

for {

n, err := resp.Body.Read(buf)

if n ==0 {

break

}

if err !=nil && err != io.EOF {

panic(err)

}

result += string(buf[:n])

}

return result

}

func Save2File(idx int, result string) {

fileName :="第" + strconv.Itoa(idx) +"页.html"

// 创建文件

f, err := os.Create(fileName)

if err != nil {

panic(err)

}

defer f.Close()

// 将一整页数据，写入到文件中。

_, err = f.WriteString(result)

if err != nil {

panic(err)

}

// 爬取一个页面，保存成一个文件。

func SpiderPage(i int, quitchan<- int) {

// 获取每一页的url

url :="https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

//fmt.Printf("正在爬取第%d个页面， url：%s\n", i, url)

// 封装函数，根据url获取一个网页数据

result := HttpGet(url)

// 封装函数，将读到的网页数据保存成文件

Save2File(i, result)

quit <- i

}

func working(start, end int) {

// 创建channel ，协调各个go程退出顺序

quit := make(chan int)

// 按照用户指定的起始、终止页面爬取

for i:=start; i<=end; i++ {

go SpiderPage(i, quit)// 并发处理

}

for i:=start; i<=end; i++ {

fmt.Printf("爬取%d个页面完毕...\n", <-quit)

}

func main() {

// 提示用户指定爬取的起始、终止页面

var start, end int

fmt.Print("请输入爬取的起始页面（>=1）:")

fmt.Scan(&start)

fmt.Print("请输入爬取的终止页面（>=start）:")

fmt.Scan(&end)

// 找寻分页器规律，爬取内容。

working(start, end)

}

正则表达式 , 具体应用 --- 正则很重要,要多看哦

package main

import (

"regexp"

"fmt"

)

func main0401() {

str :="abc a7c mfc cat 8ca azc cba"

// 1. 编译正则表达式 —— 得到 go 编译器识别的正则表达式（结构体类型）。

//ret := regexp.MustCompile(`a.c`)

//ret := regexp.MustCompile(`a[0-9]c`)

ret := regexp.MustCompile(`a\dc`)

// 2. 从原始数据中筛选有用信息

alls := ret.FindAllStringSubmatch(str, -1)

fmt.Println(alls)

}

func main0402() {

str :="3.14 123.123 .68 haha 1.0 abc 7. ab.3 66.6 123. 1.77"

// 编译正则表达式

ret := regexp.MustCompile(`\d+\.\d+`)

// 使用正则筛选数据

alls := ret.FindAllStringSubmatch(str, -1)

fmt.Println(alls)

}

func main() {

str :=`

<title>Go语言标准库文档中文版 | Go语言中文网 | Golang中文社区 | Golang中国

">

hel@lo2

hello%3

hello4

hello5

<div>2块钱啥时候还？

过了年再说吧！

刚买了车，没钱。。。

`

// 编译正则表达式

//ret := regexp.MustCompile(`

(.*)

`)

ret := regexp.MustCompile(`<div>(?s:(.*?))</div>`)

// 使用正则筛选数据

alls := ret.FindAllStringSubmatch(str, -1)

len := len(alls)

for i:=0; i

fmt.Printf("alls[%d][0]=%s\n", i, alls[i][0])

fmt.Printf("alls[%d][1]=%s\n", i, alls[i][1])

}

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：张家驹

查看原文：Go 语言自我提升 (爬虫 - 正则)

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

2853 次点击

加入收藏微博

收入我的专栏

上一篇：如何学习go语言

下一篇：熟读这5个开源项目就是合格的GO语言工程师！

函数

io

代码

变量

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

Go 语言自我提升 (爬虫 - 正则)

初级练习 -- 爬取百度贴吧

爬取百度贴吧 -- 2.0 (并发)

正则表达式 , 具体应用 --- 正则很重要,要多看哦

用户登录

今日阅读排行

一周阅读排行

关注我

初级练习 -- 爬取百度贴吧

爬取百度贴吧 -- 2.0 (并发)

正则表达式 , 具体应用 --- 正则很重要,要多看哦

Go 语言自我提升 (爬虫 - 正则)

初级 练习 -- 爬取百度贴吧

爬取百度贴吧 -- 2.0 (并发)

正则表达式 , 具体应用 --- 正则很重要,要多看哦

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

初级 练习 -- 爬取百度贴吧

爬取百度贴吧 -- 2.0 (并发)

正则表达式 , 具体应用 --- 正则很重要,要多看哦

初级练习 -- 爬取百度贴吧

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏

初级练习 -- 爬取百度贴吧