Golang实现简单爬虫框架（3）——简单并发版

jsfantasy · · 832 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

在上篇文章Golang实现简单爬虫框架（2）——单任务版爬虫中我们实现了一个简单的单任务版爬虫，对于单任务版爬虫，每次都要请求页面，然后解析数据，然后才能请求下一个页面。整个过程中，获取网页数据速度比较慢，那么我们就把获取数据模块做成并发执行。在项目的基础上，实现多任务并发版爬虫。

项目github地址：https://github.com/NovemberCh...，回滚到相应记录食用，效果更佳。

1、项目架构

首先我们把但任务版爬虫架构中的Fetcher模块和Parser模块合并成一个Worker模块，然后并发执行Worker模块

图片描述

然后得到并发版的架构图：

图片描述

在并发版爬虫中，会同时执行多个Worker，每个Worker任务接受一个Request请求，然后请求页面解析数据，输出解析出的Requests和Item
因为又很多Request和Worker，所以还需要Scheduler模块，负责对请求任务的调度处理
Engine模块接受Worker发送的Requests和Items，当前我们先把Items打印出，把解析出的Request发送给调度器
其中Engine和Scheduler是一个goroutine，Worker包含多个goroutine，各个模块之间都是用channel进行连接
先放上重构后的项目文件结构：

图片描述

2、Worker实现

我们从engine.go中提取下面功能作为Worker模块，同时把engine.go 更名为simple.go。修改后的simple.go文件请自行调整，或者去github项目源代码回滚查看。

engine/worker.go

package engine

import (
    "crawler/fetcher"
    "log"
)

// 输入 Request， 返回 ParseResult
func worker(request Request) (ParseResult, error) {
    log.Printf("Fetching %s\n", request.Url)
    content, err := fetcher.Fetch(request.Url)
    if err != nil {
        log.Printf("Fetch error, Url: %s %v\n", request.Url, err)
        return ParseResult{}, err
    }
    return request.ParseFunc(content), nil
}

对于每一个Worker接受一个请求，然后返回解析出的内容

3、并发引擎Concurrent实现

请大家根据架构图来看，效果会更好。

package engine

import "log"

// 并发引擎
type ConcurrendEngine struct {
   Scheduler   Scheduler    // 任务调度器
   WorkerCount int            // 任务并发数量
}

// 任务调度器
type Scheduler interface {
   Submit(request Request) // 提交任务
   ConfigMasterWorkerChan(chan Request)    // 配置初始请求任务
}

func (e *ConcurrendEngine) Run(seeds ...Request) {

   in := make(chan Request)            // scheduler的输入
   out := make(chan ParseResult)    // worker的输出
   e.Scheduler.ConfigMasterWorkerChan(in)    // 把初始请求提交给scheduler

   // 创建 goruntine
   for i := 0; i < e.WorkerCount; i++ {
      createWorker(in, out)
   }

   // engine把请求任务提交给 Scheduler
   for _, request := range seeds {
      e.Scheduler.Submit(request)
   }

   itemCount := 0
   for {
      // 接受 Worker 的解析结果
      result := <-out
      for _, item := range result.Items {
         log.Printf("Got item: #%d: %v\n", itemCount, item)
         itemCount++
      }

      // 然后把 Worker 解析出的 Request 送给 Scheduler
      for _, request := range result.Requests {
         e.Scheduler.Submit(request)
      }
   }
}

// 创建任务，调用worker，分发goroutine
func createWorker(in chan Request, out chan ParseResult) {
   go func() {
      for {
         request := <-in
         result, err := worker(request)
         if err != nil {
            continue
         }
         out <- result
      }
   }()
}

4、任务调度器Scheduler实现

图片描述

scheduler/scheduler.go

package scheduler

import "crawler/engine"

type SimpleScheduler struct {
    workerChan chan engine.Request
}

func (s *SimpleScheduler) Submit(request engine.Request) {
    // 为每一个Request创建goroutine
    go func() {
        s.workerChan <- request
    }()
}

// 把初始请求发送给 Scheduler
func (s *SimpleScheduler) ConfigMasterWorkerChan(in chan engine.Request) {
    s.workerChan = in
}

5、main函数

package main

import (
    "crawler/engine"
    "crawler/scheduler"
    "crawler/zhenai/parser"
)

func main() {
    e := engine.ConcurrendEngine{    // 配置爬虫引擎
        Scheduler:   &scheduler.SimpleScheduler{},
        WorkerCount: 50,
    }
    e.Run(engine.Request{        // 配置爬虫目标信息
        Url:       "http://www.zhenai.com/zhenghun",
        ParseFunc: parser.ParseCityList,
    })
}

6、小结

本次博客我们实现一个最简单的并发版爬虫，调度器源源不断的接受任务，一旦有一个worker空闲，就给其分配任务。这样子有一个缺点，就是我们不知道我们分发出那么多worker的工作情况，对worker的控制力比较弱，所以在下次博客中会用队列来实现任务调度。

如果想获取Google工程师深度讲解go语言视频资源的，可以在评论区留言。

项目的源代码已经托管到Github上，对于各个版本都有记录，欢迎大家查看，记得给个star，在此先谢谢大家了

有疑问加站长微信联系（非本文作者）

本文来自：Segmentfault

感谢作者：jsfantasy

查看原文：Golang实现简单爬虫框架（3）——简单并发版

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

832 次点击

加入收藏微博

收入我的专栏

上一篇：深度解密Go语言之map

下一篇：个人小程序接入支付解决方案 XorPay

任务调度

框架

github

单任务

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

Golang实现简单爬虫框架（3）——简单并发版

1、项目架构

2、Worker实现

3、并发引擎Concurrent实现

4、任务调度器Scheduler实现

5、main函数

6、小结

用户登录

今日阅读排行

一周阅读排行

关注我

1、项目架构

2、Worker实现

3、并发引擎Concurrent实现

4、任务调度器Scheduler实现

5、main函数

6、小结

Golang实现简单爬虫框架（3）——简单并发版

1、项目架构

2、Worker实现

3、并发引擎Concurrent实现

4、任务调度器Scheduler实现

5、main函数

6、小结

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

1、项目架构

2、Worker实现

3、并发引擎Concurrent实现

4、任务调度器Scheduler实现

5、main函数

6、小结

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏