golang实现简单爬虫---豆瓣电影前250

七八个星天 · · 668 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

package main

import (
    "fmt"
    "io"
    "net/http"
    "os"
    "regexp"
    "strconv"
)

func main() {
    //起始页,页结束
    var startPage, endPage int
    fmt.Println("请输入起始页>=1")
    fmt.Scan(&startPage)
    fmt.Println("请输入结束页>=起始页")
    fmt.Scan(&endPage)
    startWorking(startPage, endPage)
}
func startWorking(startPage, endPage int) {
    //同步每个go程,每个go程结束,往此通道写入数据,所有go程结束退出程序
    quit := make(chan int)
    for i := startPage; i <= endPage; i++ {
        go getPages(i, quit)
    }
    //从通道中释放数据,次数等于抓取的页数,若循环结束,表示所有页面抓取完成,主程序退出
    for i := startPage; i <= endPage; i++ {
        <-quit
    }
}

/**
爬取单个链接对应的页面
*/
func getPages(i int, quit chan int) {
    //完整的url,因为每页25条数据,所以一次增加25条
    url := "https://movie.douban.com/top250?start=" + strconv.Itoa((i-1)*25) + "&filter="
    //获取指定页面信息
    res, err := http.Get(url)
    if err != nil {
        fmt.Println("http.Get err: ", err)
        return
    }
    //以字符串的形式保存页面响应的body里面的内容
    var str string
    body := res.Body
    buf := make([]byte, 4096)
    //读取页面内容
    for {
        n, err := body.Read(buf)
        if n == 0 {
            break
        }
        if err != nil && err != io.EOF {
            fmt.Println("body.Read err: ", err)
            return
        }
        str += string(buf[:n])
    }
    //提取相关信息
    //提取电影名称的正则表达式
    titleReg := regexp.MustCompile(`<img width="100" alt="(?s:(.*?))"`)
    titles := titleReg.FindAllStringSubmatch(str, -1) //-1表示返回所有匹配的值
    //提取分数
    scoreReg := regexp.MustCompile(`<span class="rating_num" property="v:average">(?s:(.*?))</span>`)
    scores := scoreReg.FindAllStringSubmatch(str, -1)
    //提取评价人数
    peopleNumReg := regexp.MustCompile(`<span>(\d*?)人评价</span>`)
    peopleNums := peopleNumReg.FindAllStringSubmatch(str, -1)
    //创建txt文件,保存提取出来的信息
    createFile(i, titles, scores, peopleNums)
    res.Body.Close()
    //通道写入数据,表示本go程操作完成
    quit <- i
}

/**
创建文件
*/
func createFile(idx int, titles, scores, peopleNums [][]string) {
    //创建文件
    file, err := os.Create("C:/GoProject/file/douban/" + strconv.Itoa(idx) + ".txt")
    if err != nil {
        fmt.Println("os.Create err: ", err)
        return
    }
    //写入项目行
    file.WriteString("电影名称\t\t\t评分\t\t\t评分人数\r\n")
    for i := 0; i < len(titles); i++ {
        title := titles[i][1]
        score := scores[i][1]
        num := peopleNums[i][1]
        //写入标题,形如:1.肖申克的救赎,“\t”表示制表符,“\r\n”表示回车+换行
        file.WriteString(strconv.Itoa((idx-1)*25+i+1) + "." + title + "\t\t\t")
        file.WriteString(score + "\t\t\t")
        file.WriteString(num + "\r\n")
    }
    file.Close()
}


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:七八个星天

查看原文:golang实现简单爬虫---豆瓣电影前250

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

668 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传