Golang 通道，同步等待组并发爬虫

鬼子口音 · 2020-01-14 03:32:41 · 867 次点击 · 预计阅读时间 9 分钟 · 大约8小时之前开始浏览

这是一个创建于 2020-01-14 03:32:41 的文章，其中的信息可能已经有所发展或是发生改变。

Golang：通道，同步等待组并发爬虫

在Go的并发编程中有一句很经典的话：不要以共享内存的方式去通信，而要以通信的方式去共享内存。

在Go语言中并不鼓励用锁保护共享状态的方式在不同的Goroutine中分享信息(以共享内存的方式去通信)。而是鼓励通过channel将共享状态或共享状态的变化在各个Goroutine之间传递（以通信的方式去共享内存），这样同样能像用锁一样保证在同一的时间只有一个Goroutine访问共享状态。

当然，在主流的编程语言中为了保证多线程之间共享数据安全性和一致性，都会提供一套基本的同步工具集，如锁，条件变量，原子操作等等。Go语言标准库也毫不意外的提供了这些同步机制，使用方式也和其他语言也差不多。

image

WaitGroup

WaitGroup，同步等待组。

在类型上，它是一个结构体。一个WaitGroup的用途是等待一个goroutine的集合执行完成。主goroutine调用了Add()方法来设置要等待的goroutine的数量。然后，每个goroutine都会执行并且执行完成后调用Done()这个方法。与此同时，可以使用Wait()方法来阻塞，直到所有的goroutine都执行完成。

Add()方法

Add这个方法，用来设置到WaitGroup的计数器的值。我们可以理解为每个waitgroup中都有一个计数器用来表示这个同步等待组中要执行的goroutin的数量。

如果计数器的数值变为0，那么就表示等待时被阻塞的goroutine都被释放，如果计数器的数值为负数，那么就会引发恐慌，程序就报错了。

Done()方法

Done()方法，就是当WaitGroup同步等待组中的某个goroutine执行完毕后，设置这个WaitGroup的counter数值减1。

Wait()方法

Wait()方法，表示让当前的goroutine等待，进入阻塞状态。一直到WaitGroup的计数器为零。才能解除阻塞，这个goroutine才能继续执行。

示例代码


package main

import (
    "fmt"
    "sync"
)
var wg sync.WaitGroup // 创建同步等待组对象
func main()  {
    /*
    WaitGroup：同步等待组
        可以使用Add(),设置等待组中要 执行的子goroutine的数量，
        
        在main 函数中，使用wait(),让主程序处于等待状态。直到等待组中子程序执行完毕。解除阻塞

        子gorotuine对应的函数中。wg.Done()，用于让等待组中的子程序的数量减1
     */
    //设置等待组中，要执行的goroutine的数量
    wg.Add(2)
    go fun1()
    go fun2()
    fmt.Println("main进入阻塞状态。。。等待wg中的子goroutine结束。。")
    wg.Wait() //表示main goroutine进入等待，意味着阻塞
    fmt.Println("main，解除阻塞。。")

}
func fun1()  {
    for i:=1;i<=10;i++{
        fmt.Println("fun1.。。i:",i)
    }
    wg.Done() //给wg等待中的执行的goroutine数量减1.同Add(-1)
}
func fun2()  {
    defer wg.Done()
    for j:=1;j<=10;j++{
        fmt.Println("\tfun2..j,",j)
    }
}

channel通道

通道可以被认为是Goroutines通信的管道。类似于管道中的水从一端到另一端的流动，数据可以从一端发送到另一端，通过通道接收。

在前面讲Go语言的并发时候，我们就说过，当多个Goroutine想实现共享数据的时候，虽然也提供了传统的同步机制，但是Go语言强烈建议的是使用Channel通道来实现Goroutines之间的通信。

“不要通过共享内存来通信，而应该通过通信来共享内存” 这是一句风靡golang社区的经典语

接收和发送

一个通道发送和接收数据，默认是阻塞的。当一个数据被发送到通道时，在发送语句中被阻塞，直到另一个Goroutine从该通道读取数据。相对地，当从通道读取数据时，读取被阻塞，直到一个Goroutine将数据写入该通道。

示例代码：以下代码加入了睡眠，可以更好的理解channel的阻塞

package main

import (
    "fmt"
    "time"
)

func main() {
    ch1 := make(chan int)
    done := make(chan bool) // 通道
    go func() {
        fmt.Println("子goroutine执行。。。")
        time.Sleep(3 * time.Second)
        data := <-ch1 // 从通道中读取数据
        fmt.Println("data：", data)
        done <- true
    }()
    // 向通道中写数据。。
    time.Sleep(5 * time.Second)
    ch1 <- 100

    <-done
    fmt.Println("main。。over")

}

在上面的程序中，我们先创建了一个chan bool通道。然后启动了一条子Goroutine，并循环打印10个数字。然后我们向通道ch1中写入输入true。
然后在主goroutine中，我们从ch1中读取数据。这一行代码是阻塞的，这意味着在子Goroutine将数据写入到该通道之前，主goroutine将不会执行到下一行代码。

因此，我们可以通过channel实现子goroutine和主goroutine之间的通信。当子goroutine执行完毕前，主goroutine会因为读取ch1中的数据而阻塞。从而保证了子goroutine会先执行完毕。这就消除了对时间的需求。

在之前的程序中，我们要么让主goroutine进入睡眠，以防止主要的Goroutine退出。要么通过WaitGroup来保证子goroutine先执行完毕，主goroutine才结束。

死锁

使用通道时要考虑的一个重要因素是死锁。如果Goroutine在一个通道上发送数据，那么预计其他的Goroutine应该接收数据。如果这种情况不发生，那么程序将在运行时出现死锁。

类似地，如果Goroutine正在等待从通道接收数据，那么另一些Goroutine将会在该通道上写入数据，否则程序将会死锁。

示例代码

package main

func main() {  
    ch := make(chan int)
    ch <- 5
}

报错：


fatal error: all goroutines are asleep - deadlock!

goroutine 1 [chan send]:
main.main()
    /Users/ruby/go/src/l_goroutine/demo08_chan.go:5 +0x50

Goroutine

Goroutine 是实际并发执行的实体，它底层是使用协程(coroutine)实现并发，coroutine是一种运行在用户态的用户线程，类似于 greenthread，go底层选择使用coroutine的出发点是因为，它具有以下特点：

用户空间避免了内核态和用户态的切换导致的成本
可以由语言和框架层进行调度
更小的栈空间允许创建大量的实例

Goroutine 调度器

Go并发调度: G-P-M模型

在操作系统提供的内核线程之上，Go搭建了一个特有的两级线程模型。goroutine机制实现了M : N的线程模型，goroutine机制是协程（coroutine）的一种实现，golang内置的调度器，可以让多核CPU中每个CPU执行一个协程。

以上内容来自 https://github.com/rubyhan1314/Golang-100-Days
主要说明一下同步等待组和通道的基本使用，以及 go 是如何处理并发的，更多可以继续参考以上，来自千峰的 go 教程。

实战爬虫

前面说了这么多只不过是为这个脚本做铺垫，要不然则来的太唐突。
我这里写了一个爬虫脚本，用到了通道来做并发，并有同步等待组做 awit() 操作

直接来看代码

获取html

func HttpGet(url string) (result string, err error) {
    resp, err1 := http.Get(url)
    if err != nil {
        err = err1
        return
    }
    defer resp.Body.Close()
    //读取网页的body内容
    buf := make([]byte, 4*1024)
    for true {
        n, err := resp.Body.Read(buf)
        if err != nil {
            if err == io.EOF{
                break
            }else {
                fmt.Println("resp.Body.Read err = ", err)
                break
            }
        }
        result += string(buf[:n])
    }
    return
}

爬取网页存为 .html 文件

func spiderPage(url string) string {

    fmt.Println("正在爬取", url)
    //爬,将所有的网页内容爬取下来
    result, err := HttpGet(url)
    if err != nil {
        fmt.Println(err)
    }
    //把内容写入到文件
    filename := strconv.Itoa(rand.Int()) + ".html"
    f, err1 := os.Create(filename)
    if err1 != nil{
        fmt.Println(err1)
    }
    //写内容
    f.WriteString(result)
    //关闭文件
    f.Close()
    return url + " 抓取成功"

}

爬取方法方面就写完了，接下来就到了重要的部分了

定义一个工作者函数

func doWork(start, end int,wg *sync.WaitGroup) {
    fmt.Printf("正在爬取第%d页到%d页\n", start, end)
    //因为很有可能爬虫还没有结束下面的循环就已经结束了，所以这里就需要且到通道
    page := make(chan string,100)
    results := make(chan string,100)


    go sendResult(results,start,end)

    go func() {

        for i := 0; i <= 20; i++ {
            wg.Add(1)
            go asyn_worker(page, results, wg)
        }
    }()

    for i := start; i <= end; i++ {
            url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
            page <- url
            println("加入" + url + "到page")
        }
        println("关闭通道")
        close(page)

    wg.Wait()
    //time.Sleep(time.Second * 5)
    println(" Main 退出 。。。。。")
}

从通道取出数据

func asyn_worker(page chan string, results chan string,wg *sync.WaitGroup){

    defer wg.Done()  //defer wg.Done()必须放在go并发函数内

    for{
        v, ok := <- page //显示的调用close方法关闭通道。
        if !ok{
            fmt.Println("已经读取了所有的数据，", ok)
            break
        }
        //fmt.Println("取出数据：",v, ok)
        results <- spiderPage(v)
    }


    //for n := range page {
    //  results <- spiderPage(n)
    //}
}

发送抓取结果

func sendResult(results chan string,start,end int)  {

    //for i := start; i <= end; i++ {
    //  fmt.Println(<-results)
    //}

    // 发送抓取结果
    for{
        v, ok := <- results
        if !ok{
            fmt.Println("已经读取了所有的数据，", ok)
            break
        }
        fmt.Println(v)

    }
}

大体思路是这样的：

可以看到我定义了两个通道，一个是用来存入 url 的，另一个是用来存入爬取结果的，缓冲空间是 100
在方法 doWork 中， sendResult 会阻塞等待 results 通道的输出，匿名函数则是等待 page 通道的输出

紧接着下面就是把 200 个 url 写入 page 通道，匿名函数得到 page 的输出就会执行 asyn_worker 函数，也就是爬取 html 的函数了(将其存入results 通道)

然后 sendResult 函数得到 results 通道的输出，将结果打印出来

可以看到我在匿名函数中并发了 20 个 goroution，并且启用了同步等待组作为参数传入，理论上可以根据机器的性能来定义并发数

main函数

func main() {
    start_time := time.Now().UnixNano()

    var wg sync.WaitGroup

    doWork(1,200, &wg)
    //输出执行时间，单位为毫秒。
    fmt.Printf("执行时间: %ds",(time.Now().UnixNano() - start_time) / 1000)

}

运行爬虫并计算运行时间，这个时间因机器而异，但应该不会相差太多

完整代码

package main

import (
    "fmt"
    "io"
    "sync"
    "math/rand"
    "net/http"
    "os"
    "strconv"
    "time"
)



func HttpGet(url string) (result string, err error) {
    resp, err1 := http.Get(url)
    if err != nil {
        err = err1
        return
    }
    defer resp.Body.Close()
    //读取网页的body内容
    buf := make([]byte, 4*1024)
    for true {
        n, err := resp.Body.Read(buf)
        if err != nil {
            if err == io.EOF{
                break
            }else {
                fmt.Println("resp.Body.Read err = ", err)
                break
            }
        }
        result += string(buf[:n])
    }
    return
}


//爬取网页
func spiderPage(url string) string {

    fmt.Println("正在爬取", url)
    //爬,将所有的网页内容爬取下来
    result, err := HttpGet(url)
    if err != nil {
        fmt.Println(err)
    }
    //把内容写入到文件
    filename := strconv.Itoa(rand.Int()) + ".html"
    f, err1 := os.Create(filename)
    if err1 != nil{
        fmt.Println(err1)
    }
    //写内容
    f.WriteString(result)
    //关闭文件
    f.Close()
    return url + " 抓取成功"

}

func asyn_worker(page chan string, results chan string,wg *sync.WaitGroup){

    defer wg.Done()  //defer wg.Done()必须放在go并发函数内

    for{
        v, ok := <- page //显示的调用close方法关闭通道。
        if !ok{
            fmt.Println("已经读取了所有的数据，", ok)
            break
        }
        //fmt.Println("取出数据：",v, ok)
        results <- spiderPage(v)
    }

    //for n := range page {
    //  results <- spiderPage(n)
    //}
}

func doWork(start, end int,wg *sync.WaitGroup) {
    fmt.Printf("正在爬取第%d页到%d页\n", start, end)
    //因为很有可能爬虫还没有结束下面的循环就已经结束了，所以这里就需要且到通道
    page := make(chan string,100)
    results := make(chan string,100)


    go sendResult(results,start,end)

    go func() {

        for i := 0; i <= 20; i++ {
            wg.Add(1)
            go asyn_worker(page, results, wg)
        }
    }()


    for i := start; i <= end; i++ {
            url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
            page <- url
            println("加入" + url + "到page")
        }
        println("关闭通道")
        close(page)

    wg.Wait()
    //time.Sleep(time.Second * 5)
    println(" Main 退出 。。。。。")
}


func sendResult(results chan string,start,end int)  {

    //for i := start; i <= end; i++ {
    //  fmt.Println(<-results)
    //}

    // 发送抓取结果
    for{
        v, ok := <- results
        if !ok{
            fmt.Println("已经读取了所有的数据，", ok)
            break
        }
        fmt.Println(v)

    }
}

func main() {
    start_time := time.Now().UnixNano()

    var wg sync.WaitGroup

    doWork(1,200, &wg)
    //输出执行时间，单位为毫秒。
    fmt.Printf("执行时间: %ds",(time.Now().UnixNano() - start_time) / 1000)

}

总体来说，这个脚本就是为了弄清楚 Go 语言的并发原理以及通道，同步等待组的基本使用，或者只用 go 语言的锁，目的都是为了防止临界资源的安全问题。

有了 channel 和 goroutine 之后，Go 的并发编程变得异常容易和安全，得以让程序员把注意力留到业务上去，实现开发效率的提升。

欢迎转载，但要声明出处，不然我顺着网线过去就是一拳。
个人技术博客：http://www.gzky.live

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：鬼子口音

查看原文：Golang 通道，同步等待组并发爬虫

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

867 次点击

加入收藏微博

收入我的专栏

上一篇：OK

下一篇：【环境篇】搭建golang开发环境

goroutine

函数

共享内存

代码

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

Golang 通道，同步等待组 并发爬虫

WaitGroup

Add()方法

Done()方法

Wait()方法

示例代码

channel通道

接收和发送

示例代码：以下代码加入了睡眠，可以更好的理解channel的阻塞

死锁

示例代码

报错：

Goroutine

Goroutine 调度器

实战爬虫

直接来看代码

获取html

爬取网页存为 .html 文件

定义一个工作者函数

从通道取出数据

发送抓取结果

main函数

完整代码

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

WaitGroup

Add()方法

Done()方法

Wait()方法

示例代码

channel通道

接收和发送

示例代码：以下代码加入了睡眠，可以更好的理解channel的阻塞

死锁

示例代码

报错：

Goroutine

Goroutine 调度器

实战爬虫

直接来看代码

获取html

爬取网页存为 .html 文件

定义一个工作者函数

从通道取出数据

发送抓取结果

main函数

完整代码

Golang 通道，同步等待组并发爬虫

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏