各语言简单爬虫

林万程 · 2019-08-05 02:32:38 · 664 次点击 · 预计阅读时间 1 分钟 · 大约8小时之前 开始浏览    
这是一个创建于 2019-08-05 02:32:38 的文章,其中的信息可能已经有所发展或是发生改变。

各语言简单爬虫

Python 简单爬虫

import requests, re

if __name__ == "__main__":
    r = requests.get('http://docs.python-requests.org/zh_CN/latest/user/quickstart.html')
    r.encoding = "UTF-8"
    print(r.text)  # 用于打印页面内容

    # 正则搜索 .表示任意字符*表示任意个数,group(第一个括号)
    search = re.search('href="#">(.*)</a><ul>', r.text)
    print(search.group(1))

golang简单爬虫

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
)

func main() {
    resp, _ := http.Get("https://studygolang.com/static/pkgdoc/pkg/net_http.htm")
    defer resp.Body.Close()
    bytes, _ := ioutil.ReadAll(resp.Body)

    re := regexp.MustCompile(`<meta name="private:description" content="(.*)">`)
    b := re.FindSubmatch(bytes)[1]
    fmt.Println(string(b))
}

有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:林万程

查看原文:各语言简单爬虫

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

664 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传