各语言简单爬虫

林万程 · 2019-08-05 02:32:38 · 798 次点击 · 预计阅读时间 1 分钟 · 大约8小时之前开始浏览

这是一个创建于 2019-08-05 02:32:38 的文章，其中的信息可能已经有所发展或是发生改变。

各语言简单爬虫

Python 简单爬虫

import requests, re

if __name__ == "__main__":
    r = requests.get('http://docs.python-requests.org/zh_CN/latest/user/quickstart.html')
    r.encoding = "UTF-8"
    print(r.text)  # 用于打印页面内容

    # 正则搜索 .表示任意字符*表示任意个数，group(第一个括号)
    search = re.search('href="#">(.*)</a><ul>', r.text)
    print(search.group(1))

golang简单爬虫

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
)

func main() {
    resp, _ := http.Get("https://studygolang.com/static/pkgdoc/pkg/net_http.htm")
    defer resp.Body.Close()
    bytes, _ := ioutil.ReadAll(resp.Body)

    re := regexp.MustCompile(`<meta name="private:description" content="(.*)">`)
    b := re.FindSubmatch(bytes)[1]
    fmt.Println(string(b))
}

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：林万程

查看原文：各语言简单爬虫

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

798 次点击

加入收藏微博

收入我的专栏

上一篇：云服务器使用教程-在Centos系统上搭建WordPress个人博客

下一篇：正则表达式高级

net

python

爬虫

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

各语言简单爬虫

Python 简单爬虫

golang简单爬虫

用户登录

今日阅读排行

一周阅读排行

关注我

Python 简单爬虫

golang简单爬虫

各语言简单爬虫

Python 简单爬虫

golang简单爬虫

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

Python 简单爬虫

golang简单爬虫

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏