搜索 - Go语言中文网 - Golang中文社区

微信朋友圈转疯了（golang写小爬虫抓取朋友圈文章）

很多人在朋友圈里转发一些文章，标题都是什么转疯啦之类，虽然大多都也是广告啦，我觉得还蛮无聊的，但是的确是有一些文章是非常值得收藏的，比如老婆经常就会收藏一些养生和美容的文章在微信里看。今天就突发奇想，不如利用搜索引擎把朋友圈的文章分门别类的（当然是老婆感兴趣的类型了）抓取出来，然后把图片也Down下来，生成一个网站给朋友们看岂不是不错? 说做就做，于是就有了这个网站：朋友圈转疯了 (http://www.meijia0.com) 域名不太好，凑合着用呗。（之前其实是准备用来做美甲图片站的，后来搁置了。因为老婆在家真的是没有时间去经营这种东西）。既然说做就做，先利其器嘛，把落灰的GO再捡起来，顺便学习了一下七牛云存储的API（不得不说真的是很受用），写了一个spider（gocrawl/...阅读全文

博文 2014-10-04 19:26:07 forbe

阅读:46528次评论:8条 1人喜欢

微信公众号文章采集mlog-wxbot

mlog-wxbot，微信公众号文章采集。 **功能简介** * 机器人关注技术相关的公众号，当这些公众号推送文章的时候，机器人就能够收到消息，然后将消息对应的文章内容抓取下来，通过该方式能第一时间获取到自己关注的公众号中的新文章。 * 在抓取到微信的文章之后，会利用百度 ai 自动为文章分组打标签。 * 然后根据配置会将文章推送到指定的接口，以实现文章发表功能。 **存在的问题** * 因为微信机器人使用的是网页版微信 api，所以要求你的微信号码能够登录网页版微信，并不是所有的微信号码都支持登录网页版本微信，使用请用你的微信号码到这里（ [https://wx.qq.com/](https://mlog.club/redirect?url=https%3A%2F%...阅读全文

开源项目 2019-07-05 12:30:01 mlogclub

阅读:17657次评论:0条 0人喜欢

golang 爬虫（二）

通用的爬虫原理示意图：具体实现过程： 1、开一个协程从待抓取url中获取url，进行网页获取，网页解析，然后入库； 2、开另一个协程从已抓取url中获取url，进行获取其他url并且放入待抓取url队列中；网页解析在golang中，解析网页有几个比较好用的第三方库。比如：github.com/opesun/goquery,github.com/PuerkitoBio/goquery等等。 github.com/PuerkitoBio/goquery功能强大，但在使用的时候，编译不过，当时比较懒就不用了。而使用github.com/opesun/goquery，该插件是在解析html节点时，使用jq类似的语法。下面介绍几个列子： content,err:=goquery.ParseUrl...阅读全文

博文 2016-05-27 16:00:02 kelindame

阅读:5443次评论:0条 0人喜欢

微信朋友圈转疯了（golang写小爬虫抓取朋友圈文章）

很多人在朋友圈里转发一些文章，标题都是什么转疯啦之类，虽然大多都也是广告啦，我觉得还蛮无聊的，但是的确是有一些文章是非常值得收藏的，比如老婆经常就会收藏一些养生和美容的文章在微信里看。今天就突发奇想，不如利用搜索引擎把朋友圈的文章分门别类的（当然是老婆感兴趣的类型了）抓取出来，然后把图片也Down下来，生成一个网站给朋友们看岂不是不错? 说做就做，于是就有了这个网站：朋友圈转疯了 (http://www.meijia0.com) 域名不太好，凑合着用呗。（之前其实是准备用来做美甲图片站的，后来搁置了。因为老婆在家真的是没有时间去经营这种东西）。既然说做就做，先利其器嘛，把落灰的GO再捡起来，顺便学习了一下七牛云存储的API（不得不说真的是很受用），写了一个spider（gocrawl/...阅读全文

博文 2015-06-17 20:01:43 forbe

阅读:4394次评论:0条 0人喜欢

无需代理即可访问谷歌，需要的朋友进。

每次访问谷歌都需要开个vpn,但同时访问国内网站速度就慢了，非常不方便，所以就想到了做个代理网站www.wesou.org，实时抓取谷歌的搜索结果来展示，这样再用谷歌搜索时就方便多了,分享出来，有同样需求的朋友使用下。 ![](http://77fkk5.com1.z0.glb.clouddn.com/upload/image/13e97d9f448a11e59bb5525400020562.png) ![](http://77fkk5.com1.z0.glb.clouddn.com/upload/image/1d2ea216448a11e59bb5525400020562.png...阅读全文

主题 2015-08-17 02:51:27 wesou

阅读:4103次评论:4条 1人喜欢

写了一个抓取网页数据,存入csv文件的小例子,拿来share一下[搬运]

本人小白,刚学了一个月的Golang,以前用python写过抓取网页的脚本.现在用Go实现一下. 注意:有一些package需要自己下载. https://github.com/zykzhang/grapData 加一句:我用来练手的网址也挺不错的,也是介绍抓数据的.其实我基本就是在这个网站上学的:http://1.guotie.sinaapp.com/?p=50...阅读全文

主题 2015-03-17 03:54:25 zykzhang

阅读:4069次评论:0条 0人喜欢

写了一个用来抓取指定URL内部资源的方法

// 目前只是实现了对url下所有子url的抓取。 //todo html package main import ( "fmt" "io/ioutil" // "html/template" "bytes" "net/http" "strings" ) var subSlice []byte var arrIndex int //func analysisHtmlSlice(slice []byte, []string) { //} func exist(url string, arrurl []string) bool { for i := 0; i < len(arrurl...阅读全文

主题 2013-05-15 06:03:52 whispermemory

阅读:3900次评论:3条 0人喜欢

使用golang抓取京东全部商品分类信息

package main import ( // "errors" "fmt" "io/ioutil" "net/http" "os" "regexp" "strings" ) type Mall struct { name string cat []*Catagory } type Catagory struct { id int64 name string link string subCat []*SubCatagory } type SubCatagory struct { id int64 name string link string ...阅读全文

主题 2016-05-26 04:08:33 pssmart

阅读:3661次评论:0条 0人喜欢

golang 全能的模拟请求方法(含代理IP功能)

前言我们在做一些自动化业务或者爬虫业务的时候常常要用到模拟请求，例如模拟登录，模拟购买，抓取页面内容等。如果抓取的页面是一个毫无权限校验的普通页面，那只用Get方法即可，但现实往往比较残酷，不是都那么轻易的被你采集。在一个有登录判断的页面，你可能要伪造cookie，header等；如果IP被限制了访问次数，你还需要使用到代理IP。一个常规的请求如下图：代码方法代码： package utils import ( "bytes" "encoding/json" "fmt" "io/ioutil" "net/http" "net/url" ) //模拟请求方法 func HttpPost(postUrl string, headers map[string]string, jsonMap...阅读全文

博文 2020-02-05 17:32:40 叶子

阅读:3628次评论:0条 0人喜欢

【Go语言实战】字符编码GBK、UTF8转换

近期计划开发一个小说阅读APP，本意是学习golang开发，以及爬虫设计。一般规范些的站点，会采用utf-8编码开发运行在浏览器上。然而，在我抓取的某些网站，却是采用的GBK编码，因此，在解析dom后，获取中文内容的时候，总是会出现一些编码问题，导致我并不能确认，解析到的内容，是不是就是我想要的，我期望的。为了解决这个问题，我面向百度，面向goole编程，最终找到了一个可靠的解决办法，即goole的text库(golang.org/x/text)，并把对应的方法做了简单的封装。 // transform GBK bytes to UTF-8 bytes func GbkToUtf8(str []byte) (b []byte, err error) { r := transform.Ne...阅读全文

博文 2019-05-20 18:34:41 故不忧_y

阅读:3342次评论:0条 0人喜欢

golang proxy 高性能、自带API的高匿代理抓取工具

golang-proxy v2.0 Golang-Proxy -- 简单高效的免费代理抓取工具通过抓取网络上公开的免费代理，来维护一个属于自己的高匿代理池，用于网络爬虫、资源下载等用途。你还在用Python写的代理抓取工具吗？试试golang！提供开箱即用版本，不需要任何编程基础即可使用 What's new in V2.0? 不再依赖 MySQL 和 NSQ！之前需要分别启动publisher、consumer和assessor，现在只需要启动主程序即可！提供了高度灵活的 API 接口，在启动主程序后，即可通过在浏览器访问localhost:9999/all 与 localhost:9999/random 直接获取抓到的代理！甚至可以使用 localhost:9999/sql?qu...阅读全文

博文 2018-07-27 14:30:02 storyicon

阅读:3268次评论:0条 0人喜欢

Golang 爬虫 Colly 入门

1. 概述 gocolly是用go实现的网络爬虫框架gocolly快速优雅，在单核上每秒可以发起1K以上请求；以回调函数的形式提供了一组接口，可以实现任意类型的爬虫；依赖goquery库可以像jquery一样选择web元素。 gocolly的官方网站是http://go-colly.org/，提供了详细的文档和示例代码。 2. 安装配置安装 go get -u github.com/gocolly/colly/... 引入包 import "github.com/gocolly/colly" 3. 流程说明 3.1. 使用流程使用流程主要是说明使用colly抓取数据前的准备工作初始化Collector对象， Collector对象是colly的全局句柄设置全局设置，全局设置主要是设置...阅读全文

博文 2018-08-01 16:34:56 物干焯

阅读:3246次评论:0条 0人喜欢

请问怎么能抓取"登录"后的网页内空?

我想抓取一个网页的内容..但那个网页是需要登录才能访问..页面也不是登录后自动跳转的..请问应该怎么做?...阅读全文

主题 2013-06-20 16:32:40 youseeli

阅读:3070次评论:1条 0人喜欢

go实现一个简单的http代理

当请求http://localhost:8080/html/home.html 自动转发请求到 http://192.168.0.1/html/home.html，带cookie请求，不过cookie要每次都手工抓取 package main import ( "io/ioutil" "log" "net/http" // "strings" ) func statistic(w http.ResponseWriter, r *http.Request) { //r.URL.RequestURI() client := &http.Client{} req, err := http.NewRequest("GET", "http://192.168.0.1"+r.URL.Path, nil)...阅读全文

博文 2017-09-09 12:55:26 YiYou.Org

阅读:3054次评论:0条 0人喜欢

go抓取页面

package main import ( "fmt" "io/ioutil" "net/http" ) func main() { resp, err := http.Get("http://www.baidu.com") if err != nil { fmt.Println("http get error.") } defer resp.Body.Close() body, err := ioutil.ReadAll(resp.Body) if err != nil { fmt.Println("http read error.") } src := string(body) fmt.Println(src) } 抓取并进行简单的匹配过滤 package main import ( "...阅读全文

博文 2016-01-16 05:00:00 u010816280

阅读:2941次评论:0条 0人喜欢

分享一门非常好的爬虫课程《Python爬虫工程师必学——App数据抓取实战》——推荐分享

课程简介：爬虫分为几大方向，WEB网页数据抓取、APP数据抓取、软件系统数据抓取。本课程主要为同学讲解如何用python实现App数据抓取，课程从开发环境搭建，App爬虫必备利器详解，项目实战，到最后的多App端数据抓取项目集成，让你掌握App数据抓取的技能，向更优秀的python爬虫工程师迈进！适合人群想学习数据抓取的你，正在向Python爬虫工程师迈进的你，这门课程绝对适合你技术储备要求Python语法基础（函数封装，包调用、TCP三次握手流程、Requests模块使用，Python多线程，Python多进程）点击进入资源下载...阅读全文

博文 2019-08-19 01:47:48 kgjne

阅读:2526次评论:0条 0人喜欢

golang实现抓取图片 Meizar

golang实现抓取妹子图默认图片来源网站：[http://jandan.net](http://jandan.net/) 依赖项目：[https://github.com/PuerkitoBio/goquery](https://github.com/PuerkitoBio/goquery) 编译源码前，请准备好以上项目，方法：

go get github.com/PuerkitoBio/goquery

### [](https://github.com/qibin0506/Meizar/blob/master/README.md#如何使用)如何使用...阅读全文

开源项目 2016-06-07 07:00:05 qibin0506

阅读:2503次评论:8条 0人喜欢

爬取京东商品信息的实例 —— Golang

安装 1.安装 jd-spider $ go get github.com/matchseller/jd-spider 2.在你的项目中导入包: import ( "github.com/matchseller/jd-spider/category" "github.com/matchseller/jd-spider/price" "github.com/matchseller/jd-spider/product" ) 用法 1.抓取商品目录 func main(){ categoryUrls, err := category.Crawl() } 2.抓取商品信息 func main(){ categoryUrls, err := category.Crawl() if err == nil...阅读全文

博文 2019-12-19 18:32:43 match

阅读:2109次评论:0条 0人喜欢

求指导，goquery读取页面后，获取不到值。

打算分享页面元素，抓取app的名字，代码如下，但是一直是空，请帮忙看下，谢谢！ doc, err := goquery.NewDocument("http://m.appgionee.com/mobile/soft/search/?ks=%E7%88%B1%E5%A5%87%E8%89%BA") if err != nil { fmt.Println(err) } doc.Find(".cp-list .cp-box").Each(func(i int, contentSelection *goquery.Selection) { fmt.Println(contentSelection.Find(".cp-na...阅读全文

主题 2018-03-12 16:48:38 hbdongfeng

阅读:1962次评论:2条 0人喜欢

Go抓取网页数据并存入MySQL和返回json数据<三>

上一节主要实现了使用 goquery 从图片网站 http://www.gratisography.com/ 抓取数据。主要抓取图片的data-original、width、height、alt、type 五项数据。因此需要先创建数据库和相应的表，在mac上我使用 Sequel Pro 数据库管理软件，连接之后创建新的数据库indiepic,然后创建表gratisography: CREATE TABLE `gratisography` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `img_url` varchar(255) DEFAULT NULL, `type_name` varchar(50) DEFAULT NULL, `titl...阅读全文

博文 2017-02-09 14:14:10 Arron_yr

阅读:1710次评论:0条 0人喜欢

Go抓取网页数据并存入MySQL和返回json数据<一>

前言很久前就想学习GO，但是由于准备读研和要实习就一直耽搁没动手，只是偶尔看一下相关的基本语法，并没有将其具体地运用到实际的编码中。大四了，课程一下子少了很多，于是决定用它从网上抓一些图片数据，然后提供接口，为后面学习iOS提供一些网络数据。有关GO的介绍我就不在这里说了，对于我这种初学者本来说得就不清不楚，多给自己落下话柄。我要实现的功能主要有如下几点：从精美图片网站抓取图片链接等数据；将获取的数据存入MySQL数据库；提供一个简单的json接口使得自己能通过某链接获取json数据。准备工作安装GO并配置环境因为我自己使用的时OS X，也写了一个mac安装GO的文章,如果使用mac的话可以参考一下。windows下百度也会很好解决。分析小程序在$GOPATH/src下的...阅读全文

博文 2017-02-09 14:13:58 Arron_yr

阅读:1566次评论:0条 0人喜欢

用golang写了一个12306查询回家时刻的命令行工具。

#项目是纯golang实现的，稍微讲一下步骤 1. step1:抓取12306的包，分析出需要的数据和接口 2. step2:数据整理 3. step3:数据展示 <** 祝大家都早日回家过年 with someone you love **> 项目地址： https://github.com/JingDa-open-source-community/go-home #Querys train schedule use the origin command line tools ###output ![](http://i1.piimg.com/567571/dec257a424663ab9.gif) ###dependence AS...阅读全文

主题 2017-01-19 04:07:32 123GO

阅读:1537次评论:0条 0人喜欢

go语言抓取twitter

1. 第一步修改anaconda库，以获取Search_meta_data ； 2. 调用anaconda，抓取search数据，略 package anaconda import ( "net/url" ) type Search_meta_data struct { Completed_in float32 `json:"completed_in"` Max_id int64 `json:"max_id"` Max_id_str string `json:"max_id_str"` Next_results string `json:"next_results"` Query string `json:"query"` Refresh_url string `json:"refres...阅读全文

博文 2015-06-17 23:03:18 u013834131

阅读:1495次评论:0条 0人喜欢

go-metainspector—简单的Web数据抓取

资源 2013-04-16 10:03:31 lovegolang

阅读:1464次评论:1条 0人喜欢

Go抓取网页数据并存入MySQL和返回json数据<二>

上一节已经说明了要做什么，以及整个小程序的目录结构，接下来就开始编码部分。首先在入口文件中引入项目下的包crawldata,然后调用其中抓取数据的函数，暂时取名为Crawl: package main import ( "fmt" "indiepic/crawldata" ) func main () { // 使用crawldata包里面的Crawl()抓取需要的数据存到数据库 crawldata.Crawl() fmt.Println("主函数") } 然后就是实现包crawldata里面的Crawl函数。将该函数放在crawldata.go文件中： package crawldata import ( "fmt" ) func Crawl() { fmt.Println("包crawl...阅读全文

博文 2017-02-09 14:14:04 Arron_yr

阅读:1356次评论:0条 0人喜欢

利用自动化工具实现微头条自动采集发布的实现思路分析

在看文章之前，先上一个图片看看我们要达到的实际效果。这样的效果是怎么实现的呢，可能对于一般的技术思维，觉得其实就是一个自动脚本的效果，但这是错误的，首先，以头条字节跳动公司的技术水平不可能没有对这方面进行防范，其次本地图片的上传不是简单脚本可以实现了，所以下面进行技术分析。 1、图片的抓取需要对目标图片进行抓取，并保存在本地，以备发布的时候从本地选择上传，这里主要实现手段是：搭建本地抓取服务应用，从网页端向服务应用发送抓取请求，并按照指定路径保存图片。 2、文字内容的发布这个可以直接使用前端脚本实现抓取到输入的过程，并且对于这个可以使用的方法很多，例如chrome插件、植入js脚本等。 3、本地图片上传这才是整个技术的核心环节，应该是与第一步是相关联的，所以图片的抓取、上传应该是一个...阅读全文

博文 2020-01-10 13:32:37 犯困的世界

阅读:1220次评论:0条 0人喜欢

colly 自动抓取资讯

colly 在golang中的地位，比之scrapy在python的作用，都是爬虫界的大佬。本文用其抓取博文资讯, 从收集器实例配置，goQuery进行dom节点数据抓取，自动分页访问，到csv数据持久化，json控制台输出，全程简单直观。 Code 抓取数据入口为社区某用户博客列表页，比如 https://learnku.com/blog/pardon package main import ( "encoding/csv" "encoding/json" "log" "os" "regexp" "strconv" "strings" "github.com/gocolly/colly" ) // Article 抓取blog数据 type Article struct { ID int ...阅读全文

博文 2019-12-25 15:32:42 pardon110

阅读:1200次评论:0条 0人喜欢

go proxy 最快捷的代理抓取工具

golang-proxy v2.0 Golang-Proxy -- 简单高效的免费代理抓取工具通过抓取网络上公开的免费代理，来维护一个属于自己的高匿代理池，用于网络爬虫、资源下载等用途。 golang-proxy Version 2.0 不再依赖 MySQL 和 NSQ！之前需要分别启动publisher、consumer和assessor，现在只需要启动主程序即可！提供了高度灵活的 API 接口，在启动主程序后，即可通过在浏览器访问localhost:9999/all 与 localhost:9999/random 直接获取抓到的代理！甚至可以使用 localhost:9999/sql?query=来执行 SQL 语句来自定义代理筛选规则！提供 Windows、Linux、Mac...阅读全文

博文 2018-07-24 19:34:53 Ox1系统管理员

阅读:853次评论:0条 0人喜欢

Golang高并发抓取HTML图片

版权所有，转载请注明：http://www.lenggirl.com/language/go-picture.html 使用准备 1.安装Golang 2.下载爬虫包 go get -v github.com/hunterhug/marmot/expert go get -v github.com/hunterhug/marmot/miner go get -v github.com/hunterhug/parrot/util 程序该程序只能抓取HTML中src="http"中的图片, 必须带有协议头http(s), 其他如data-src和混淆在JS中的无法抓取 See: https://github.com/hunterhug/marmot/blob/master/example/le...阅读全文

博文 2019-05-13 03:34:55 veeeeeeeeeeee

阅读:751次评论:0条 0人喜欢

分布式爬虫对新站的协助

为了保障搜索引擎优化的质量一般在搭建新站的时候，前期会对内容一点点的进行填充，但是到了后期填充量会变得越来越大，所消耗的时间和精力也会逐步的增加，因此很多站长在做新的网站的时候首选分布式爬虫抓取信息进行填充，来保障网站定期更新量。分布式爬虫，可以大体理解为集群爬虫，如果有蜘蛛抓取任务，可以试用多台机器同时运行，很大的提升了工作效率。但是分布式爬虫并不是没有缺陷，也就是说效率提升的越快，那么网站触发反爬虫的机会也就越大。为了保障分布式爬虫的顺利使用，建议站长可以使用代理IP，使用代理IP一定要保障http代理IP的资源充足和http代理ip的上网安全和高匿性...阅读全文

博文 2019-02-27 16:39:39 xiniuxiaoniu

阅读:606次评论:0条 0人喜欢

最新评论