一步一步教你的机器人寻找资源链接

evolsnow · · 1898 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

1. 前言

从之前的文章从零到一：用Golang编写机器人，我们已经可以编写一个属于自己的小机器人了。

而本文将讲解自己的机器人Samaritan找电影技能的实现，算是抛砖引玉吧。

本文技术仅供交流学习，请尊重影视版权。

2. 明确需求与前期准备

当我们想下载电影时：

输入电影名称
找到相关页面
找到下载资源超链接
复制链接地址用于最终的下载

而交给机器人做的话：

识别用户的输入
找到资源链接并格式化
输出格式化之后的结果

其中第1步和第3步是不是似曾相识？其实这正是之前文章实现的一个对话过程，只不过我们不再是让机器人“自由发挥”，而是告诉机器人该回复什么内容。

所以我们还需要做的，仅是教会机器人怎么从网络中搜索信息，以及哪些是我们所需要的信息。最好的办法便是“身教”，让机器人学习并模仿我们完成整个过程的所有动作。

3. 获取并解析资源

此处以电影“星球大战7”为例，资源站点选择龙部落，目标是找到可用下载链接。

以下操作，实为我们用浏览器找到最终链接的操作记录

3.1 搜索“星球大战7”

搜索页面显示截图

而对于机器人，便是请求http://www.lbldy.com/search/星球大战7，获取页面返回：

    movie:= "星球大战7"
    resp, _ := http.Get("http://www.lbldy.com/search/" + movie)
    defer resp.Body.Close()
    body, _ := ioutil.ReadAll(resp.Body)

这里暂时忽略错误处理，此时 body的值便是我们刚才在浏览器内看到的页面的源码了，通过浏览器审查元素同样可以看到：

3.2 找到第一个结果链接

右键复制链接地址可知为：http://www.lbldy.com/movie/64115.html
唯一的变量便是64115这个数字，这正是网页源码中出现的数字

    <div> class="postlist" id="post-64115"

大胆猜测，只需要提取出id="post-64115"中的数字即可，此时比较简单的做法便是利用正则：

    re, _ := regexp.Compile("<div class=\"postlist\" id=\"post-(.*?)\">")
    firstId := re.FindSubmatch(body) //find first match case

3.3 进入资源下载页

此时浏览器部分显示内容为：

下载页截图

审查元素：

可以看到下载地址已经看到了，接下来要做的就是让机器人从中提取所有相关链接了。
上一步我们已经找到电影id，让机器人同样访问此页面：

    resp, _ = http.Get("http://www.lbldy.com/movie/" + id + ".html")
    defer resp.Body.Close()
    doc, err := goquery.NewDocumentFromReader(io.Reader(resp.Body))
    if err != nil {
        return
    }

虽然依旧可以用正则来搜索下载链接，但此时可用goquery库来处理较为复杂的html页面。

    doc.Find("p").Each(func(i int, selection *goquery.Selection) {
        name := selection.Find("a").Text()
        link, _ := selection.Find("a").Attr("href")
        if strings.HasPrefix(link, "ed2k") || strings.HasPrefix(link, "magnet") || strings.HasPrefix(link, "thunder") {
            m := Media{
                Name: name,
                Link: link,
            }
            ms = append(ms, m)
        }
    })

goquery通过对html标签的解析，为我们找到了所有的下载结果列表。

3.4 复制下载链接

机器人将找到的结果通过channel返回给用户：

    if len(ms) == 0 {
        results <- fmt.Sprintf("No results for *%s* from LBL", movie)
        return
    } else {
        ret := "Results from LBL:\n\n"
        for i, m := range ms {
            ret += fmt.Sprintf("*%s*\n```%s```\n\n", m.Name, m.Link)
            //when results are too large, we split it.
            if i%4 == 0 && i < len(ms)-1 && i > 0 {
                results <- ret
                ret = fmt.Sprintf("*LBL Part %d*\n\n", i/4+1)
            }
        }
        results <- ret
    }

此时我们可以从机器人处获得回复：

LBL部分结果截图

4. 从更多资源站点获取

通常我们会通过多个的资源站点搜索同一资源，Samaritan在搜索电影时，除了龙部落，还会从字幕组获取。

字幕组的资源搜索流程和龙部落差不多，只不过涉及到登录，所以在获取资源前需让机器人先登录，并携带cookie访问：

//zmz.tv needs to login before downloading
var zmzClient http.Client

func loginZMZ() {
    gCookieJar, _ := cookiejar.New(nil)
    zmzURL := "http://www.zimuzu.tv/User/Login/ajaxLogin"
    zmzClient = http.Client{
        Jar: gCookieJar,
    }
    zmzClient.PostForm(zmzURL, url.Values{"account": {"username"}, "password": {"password"}, "remember": {"0"}})
}

通过cookiejar登录，zmzClient在后续访问时便可携带用户cookie，得以访问需登录的页面。
同样的电影，从字幕组获取的资源：

ZMZ部分结果截图

5. 更快地返回结果

当我们有A, B, C..若干个资源站点时，写出的代码很可能是这样

func DownloadMovie(){
      retA := getResourceFromA()
      retB := getResourceFromB()
      retC := getResourceFromC()
      ...
      return retA + retB + retC
}

而理想情况下，我们希望并发地进行资源获取，只要一有结果，立马返回给用户。
利用Golang的CSP并发模型，用goroutine不难写出并发的版本：

func DownloadMovie(results chan<- string){
        var wg sync.WaitGroup
        wg.Add(3)
        go func() {
            defer wg.Done()
            results <- getResourceFromA()
        }()
        go func() {
            defer wg.Done()
            results <- getResourceFromB()
        }()
        go func() {
            defer wg.Done()
            results <- getResourceFromC()
        }()
        wg.Wait()
        close(results)
}

而调用者只需不断从channel获取：

func(){
        results:= make(chan string)
        go DownloadMovie(results)

        for {
            msg, ok := <-results //retrive result from channel
            if !ok {
                return
            }
            reply(msg)
        }
}

这样，用户就可以第一时间收到回复了。这便是goroutine与channel配合的精妙之处了。

6. 总结

通过上一篇文章，我们搭建了一个可以对话的小机器人，而本文讲解了机器人常见的一个技能：爬取资源(爬虫)。
经过已有的知识储备，然后通过分析，明确了我们的目标。无非是接受用户输入->找到资源->输出给用户。
然后以找电影资源为例，让机器人一步步地模拟用户操作，最终找到了资源链接。
可我们并未满足于此，提出了两个优化点，功能性需求上，我们从更多的站点获取到了资源; 非功能需求上，我们通过Golang的并发特性使得结果返回更快。

源码参考
Have Fun!

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：evolsnow

查看原文：一步一步教你的机器人寻找资源链接

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

1898 次点击

加入收藏微博

收入我的专栏

上一篇：从零到一：用Golang编写机器人

下一篇：更优雅的 Golang 错误处理

channel

字幕组

下载页

goroutine

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

一步一步教你的机器人寻找资源链接

1. 前言

2. 明确需求与前期准备

3. 获取并解析资源

3.1 搜索“星球大战7”

3.2 找到第一个结果链接

3.3 进入资源下载页

3.4 复制下载链接

4. 从更多资源站点获取

5. 更快地返回结果

6. 总结

用户登录

今日阅读排行

一周阅读排行

关注我

1. 前言

2. 明确需求与前期准备

3. 获取并解析资源

3.1 搜索“星球大战7”

3.2 找到第一个结果链接

3.3 进入资源下载页

3.4 复制下载链接

4. 从更多资源站点获取

5. 更快地返回结果

6. 总结

一步一步教你的机器人寻找资源链接

1. 前言

2. 明确需求与前期准备

3. 获取并解析资源

3.1 搜索“星球大战7”

3.2 找到第一个结果链接

3.3 进入资源下载页

3.4 复制下载链接

4. 从更多资源站点获取

5. 更快地返回结果

6. 总结

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

1. 前言

2. 明确需求与前期准备

3. 获取并解析资源

3.1 搜索“星球大战7”

3.2 找到第一个结果链接

3.3 进入资源下载页

3.4 复制下载链接

4. 从更多资源站点获取

5. 更快地返回结果

6. 总结

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏