golang爬取豆瓣电影TOP250(下载图片)

冻龄大叔 · 2019-03-07 19:34:41 · 2601 次点击 · 预计阅读时间 2 分钟 · 大约8小时之前开始浏览

这是一个创建于 2019-03-07 19:34:41 的文章，其中的信息可能已经有所发展或是发生改变。

打开豆瓣电影TOP250，打算爬取电影的四个信息，豆瓣排名，图片，评分，电影名。

所以先定义个结构体

type Movie struct {
    Num     string
    Url      string
    Star     string
    Name     string

}

注意豆瓣电影的网址，是有规律的：

每一页start分别为0,25,50.....
所以在主函数里面加个循环：

func main(){
    t1 := time.Now()
    for i := 0; i < 11; i++ {
        url := fmt.Sprintf("https://movie.douban.com/top250?start=%v&filter=", i*25)
        fmt.Printf("整在爬取第%v页",i+1)
        res := getResponse(url)//定义的获取html的函数
        DownloadImg(res)// 下载图片的函数
    }
    elapsed := time.Since(t1)
    fmt.Println("总共用时: ", elapsed)
}

爬虫第一步，获取html网页进行解析,安装goquery

gopm -g -v github.com/PuerkitoBio/goquery

func getResponse(url string)  []Movie{ 
    content,err:= goquery.NewDocument(url)
    if err != nil{
        panic(err)
    }
    return ParseResponse(content)//
}

func ParseResponse(doc *goquery.Document) (pages []Movie) {
    doc.Find("div.item").Each(func(i int, s *goquery.Selection) {
        img,_ :=s.Find("img").Attr("src")
        num:=s.Find("em").Text()
        star:=s.Find("span.rating_num").Text()
        name,_:=s.Find("img").Attr("alt")
        pages = append(pages, Movie{
            Num: num,
            Url:  img,
            Star: star,
            Name: name,
        })
    })
    return pages
}

这里把ParseResponse函数作为返回值，把处理后的Movie切片返回。处理网页用到goquery的Find匹配网页元素。

查看网页的元素代码，看到这几个需要获取的信息都在<div class="item>中，所以先循环获取item:

doc.Find("div.item").Each(func(i int, s *goquery.Selection)

打印出来大概就是这样的：

[.....{26 https://img3.doubanio.com/vie... 9.2 乱世佳人} {27 https://img3.doubanio.com/vie... 9.1 蝙蝠侠：黑暗骑士}....]

最后一步下载图片，把图片url和图片名称传给GetImg方法。

func GetImg(url string , name string) {
    res, _ := http.Get(url)
    file_name := imgpath + "\\" + name + ".jpg" //拼接图片路径
    file, _ := os.Create(file_name)
    io.Copy(file, res.Body)
}

网速比较慢，测了几次都是10s多一点。

完整代码点这里

参考文档：
golang goquery selector(选择器) 示例大全
 Golang爬虫爬取豆瓣电影Top250

有疑问加站长微信联系（非本文作者）

本文来自：Segmentfault

感谢作者：冻龄大叔

查看原文：golang爬取豆瓣电影TOP250(下载图片)

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

2601 次点击

加入收藏微博

收入我的专栏

上一篇：用consul做grpc的服务发现

下一篇：2019-03-07

函数

代码

信息

豆瓣

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

golang爬取豆瓣电影TOP250(下载图片)

用户登录

今日阅读排行

一周阅读排行

关注我

golang爬取豆瓣电影TOP250(下载图片)

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏