手把手教你如何获取全网可访问的所有网站网址和网站信息

Fesion · · 1514 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

# 如何获取全网可访问的所有网站网址和网站信息呢

今天由于有一个小程序项目，是专门给织梦dedecms网站、WordPress网站做小程序制作免费小程序的。但是手上织梦网站和WordPress网站用户数量都不是很多，很好的项目却没有触及到用户，没有能给网站带来好处，于是就想，能不能收集现在网上所有的织梦网站和WordPress网站，并且获取他们的邮箱、QQ、微信、电话等有用信息呢？

带着疑问百度了一番，没有发现现成的可用数据，可是小程序项目还得往前推呢，等着用户来使用呢？既然网上没有现成的，要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。

## 全网网址采集器是什么？

这是一个由golang编写的全网网址采集器，可用自动爬取可触及的所有网站信息。该网址采集器会自动采集并分析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等，甚至是网站所用的框架。

## 为什么会有这个全网网址采集器

* 因为我想收集现在全网的网址，并分析网站数据。

## 全网网址采集器能采集哪些内容

本采集器可以采集到的的内容有：文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。

##全网网址采集器可用在哪里运行

本采集器可用运行在 Windows系统、Mac 系统、Linux系统（Centos、Ubuntu等），可用下载编译好的程序直接执行，也可以下载源码自己编译。

## 如何安装使用

* 下载可执行文件

请从Releases 中根据你的操作系统下载最新版的可执行文件，解压后，重命名config.dist.json为config.json，打开config.json，修改mysql部分的配置，填写为你的mysql地址、用户名、密码、数据库信息，新建cobweb数据库，导入mysql.sql到填写的数据库中，然后双击运行可执行文件即可开始采集之旅。

* 自助编译

先clone代码到本地，本地安装go运行环境，在cobweb目录下打开cmd/Terminal命令行窗口，执行命。如果你没配置代理的话，还需要新设置go的代理

```shell script

goenv -w GOPROXY=https://goproxy.cn,direct

```

最后执行下面命令

```shell script

gomod tidy

gomod vendor

gobuild

```

编译结束后，配置config。重命名config.dist.json为config.json，打开config.json，修改mysql部分的配置，填写为你的mysql地址、用户名、密码、数据库信息，新建cobweb数据库，导入mysql.sql到填写的数据库中，然后双击运行可执行文件即可开始采集之旅。

### config.json配置说明

```

{

"mysql": { //数据库配置

"Database": "spider",

"User": "root",

"Password": "root",

"Charset": "utf8mb4",

"Host": "127.0.0.1",

"TablePrefix": "",

"Port": 3306,

"MaxIdleConnections": 1000,

"MaxOpenConnections": 100000

}

```

## 全网网址采集器运行原理分析

### 多线程（多协程）同时执行

全网网址采集器利用了golang得天独厚的并行任务优势，同时开启多个协程，可以做到比常规轻易得手的php采集代码快10倍~100倍，甚至更快。当然更快的采集速度还需要依靠你本地的网速，你家开的是500M带宽的话，开1000个协程都是可以的。

相关代码

```go

//尝试获取微信

reg := regexp.MustCompile(`(?i)(微信|微信客服|微信号|微信咨询|微信服务)\s*(:|：|\s)\s*([a-z0-9\-_]{4,30})`)

match := reg.FindStringSubmatch(contentText)

if len(match) > 1 {

website.WeChat = match[3]

}

//尝试获取QQ

reg = regexp.MustCompile(`(?i)(QQ|QQ客服|QQ号|QQ号码|QQ咨询|QQ联系|QQ交谈)\s*(:|：|\s)\s*([0-9]{5,12})`)

match = reg.FindStringSubmatch(contentText)

if len(match) > 1 {

website.QQ = match[3]

}

//尝试获取电话

reg = regexp.MustCompile(`([0148][1-9][0-9][0-9\-]{4,15})`)

match = reg.FindStringSubmatch(contentText)

if len(match) > 1 {

website.Cellphone = match[1]

}

```

## 使用了哪些开源项目

全网网址采集器采用了两个非常有名的开源项目，一个是用于网站内容抓取的项目gorequest，另一个是用于网站内容分析的项目goquery。两个项目共同组成了采集器的核心功能。

如果你对采集器的原理有更大的兴趣，可以直接拜读存放在GitHub上的源码：[https://github.com/fesiong/cobweb](https://github.com/fesiong/cobweb)

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：Fesion

查看原文：手把手教你如何获取全网可访问的所有网站网址和网站信息

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

1514 次点击

加入收藏微博

收入我的专栏

上一篇：排序算法

下一篇：字节跳动Android岗经典面试真题——水壶问题

信息

采集器

mysql

代码

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

手把手教你如何获取全网可访问的所有网站网址和网站信息

用户登录

今日阅读排行

一周阅读排行

关注我

手把手教你如何获取全网可访问的所有网站网址和网站信息

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏