1. 前言
从之前的文章 从零到一:用Golang编写机器人 ,我们已经可以编写一个属于自己的小机器人了。
而本文将讲解自己的机器人Samaritan找电影技能的实现,算是抛砖引玉吧。
本文技术仅供交流学习,请尊重影视版权。
2. 明确需求与前期准备
当我们想下载电影时:
- 输入电影名称
- 找到相关页面
- 找到下载资源超链接
- 复制链接地址用于最终的下载
而交给机器人做的话:
- 识别用户的输入
- 找到资源链接并格式化
- 输出格式化之后的结果
其中第1步和第3步是不是似曾相识?其实这正是之前文章实现的一个对话过程,只不过我们不再是让机器人“自由发挥”,而是告诉机器人该回复什么内容。
所以我们还需要做的,仅是教会机器人怎么从网络中搜索信息,以及哪些是我们所需要的信息。最好的办法便是“身教”,让机器人学习并模仿我们完成整个过程的所有动作。
3. 获取并解析资源
此处以电影“星球大战7”为例,资源站点选择龙部落,目标是找到可用下载链接。
以下操作,实为我们用浏览器找到最终链接的操作记录
3.1 搜索“星球大战7”
而对于机器人,便是请求http://www.lbldy.com/search/星球大战7
,获取页面返回:
movie:= "星球大战7"
resp, _ := http.Get("http://www.lbldy.com/search/" + movie)
defer resp.Body.Close()
body, _ := ioutil.ReadAll(resp.Body)
这里暂时忽略错误处理,此时 body
的值便是我们刚才在浏览器内看到的页面的源码了,通过浏览器审查元素同样可以看到:
3.2 找到第一个结果链接
右键复制链接地址可知为:http://www.lbldy.com/movie/64115.html
唯一的变量便是64115
这个数字,这正是网页源码中出现的数字
<div> class="postlist" id="post-64115"
大胆猜测,只需要提取出id="post-64115"
中的数字即可,此时比较简单的做法便是利用正则:
re, _ := regexp.Compile("<div class=\"postlist\" id=\"post-(.*?)\">")
firstId := re.FindSubmatch(body) //find first match case
3.3 进入资源下载页
此时浏览器部分显示内容为:
审查元素:
可以看到下载地址已经看到了,接下来要做的就是让机器人从中提取所有相关链接了。
上一步我们已经找到电影id,让机器人同样访问此页面:
resp, _ = http.Get("http://www.lbldy.com/movie/" + id + ".html")
defer resp.Body.Close()
doc, err := goquery.NewDocumentFromReader(io.Reader(resp.Body))
if err != nil {
return
}
虽然依旧可以用正则来搜索下载链接,但此时可用goquery库来处理较为复杂的html页面。
doc.Find("p").Each(func(i int, selection *goquery.Selection) {
name := selection.Find("a").Text()
link, _ := selection.Find("a").Attr("href")
if strings.HasPrefix(link, "ed2k") || strings.HasPrefix(link, "magnet") || strings.HasPrefix(link, "thunder") {
m := Media{
Name: name,
Link: link,
}
ms = append(ms, m)
}
})
goquery通过对html标签的解析,为我们找到了所有的下载结果列表。
3.4 复制下载链接
机器人将找到的结果通过channel
返回给用户:
if len(ms) == 0 {
results <- fmt.Sprintf("No results for *%s* from LBL", movie)
return
} else {
ret := "Results from LBL:\n\n"
for i, m := range ms {
ret += fmt.Sprintf("*%s*\n```%s```\n\n", m.Name, m.Link)
//when results are too large, we split it.
if i%4 == 0 && i < len(ms)-1 && i > 0 {
results <- ret
ret = fmt.Sprintf("*LBL Part %d*\n\n", i/4+1)
}
}
results <- ret
}
此时我们可以从机器人处获得回复:
4. 从更多资源站点获取
通常我们会通过多个的资源站点搜索同一资源,Samaritan在搜索电影时,除了龙部落,还会从字幕组获取。
字幕组的资源搜索流程和龙部落差不多,只不过涉及到登录,所以在获取资源前需让机器人先登录,并携带cookie访问:
//zmz.tv needs to login before downloading
var zmzClient http.Client
func loginZMZ() {
gCookieJar, _ := cookiejar.New(nil)
zmzURL := "http://www.zimuzu.tv/User/Login/ajaxLogin"
zmzClient = http.Client{
Jar: gCookieJar,
}
zmzClient.PostForm(zmzURL, url.Values{"account": {"username"}, "password": {"password"}, "remember": {"0"}})
}
通过cookiejar
登录,zmzClient
在后续访问时便可携带用户cookie,得以访问需登录的页面。
同样的电影,从字幕组获取的资源:
5. 更快地返回结果
当我们有A, B, C..若干个资源站点时,写出的代码很可能是这样
func DownloadMovie(){
retA := getResourceFromA()
retB := getResourceFromB()
retC := getResourceFromC()
...
return retA + retB + retC
}
而理想情况下,我们希望并发地进行资源获取,只要一有结果,立马返回给用户。
利用Golang的CSP并发模型,用goroutine
不难写出并发的版本:
func DownloadMovie(results chan<- string){
var wg sync.WaitGroup
wg.Add(3)
go func() {
defer wg.Done()
results <- getResourceFromA()
}()
go func() {
defer wg.Done()
results <- getResourceFromB()
}()
go func() {
defer wg.Done()
results <- getResourceFromC()
}()
wg.Wait()
close(results)
}
而调用者只需不断从channel
获取:
func(){
results:= make(chan string)
go DownloadMovie(results)
for {
msg, ok := <-results //retrive result from channel
if !ok {
return
}
reply(msg)
}
}
这样,用户就可以第一时间收到回复了。这便是goroutine
与channel
配合的精妙之处了。
6. 总结
通过上一篇文章,我们搭建了一个可以对话的小机器人,而本文讲解了机器人常见的一个技能:爬取资源(爬虫)。
经过已有的知识储备,然后通过分析,明确了我们的目标。无非是接受用户输入->找到资源->输出给用户。
然后以找电影资源为例,让机器人一步步地模拟用户操作,最终找到了资源链接。
可我们并未满足于此,提出了两个优化点,功能性需求上,我们从更多的站点获取到了资源; 非功能需求上,我们通过Golang的并发特性使得结果返回更快。
源码参考
Have Fun!
有疑问加站长微信联系(非本文作者)