前段时间写了个小爬虫,从国外某网站上下载视频,初期使用的是单线下载,后面发现访问服务端的资源数过多,会被反爬机制限制,还有一个问题就是单线下载境外网站内容,效率比较低,下载速度很慢,后面修修补补改了改,改为多线访问同个资源,顺利解决反爬机制,也提升了下载效率.
多线程下载必须服务端支持
1.判断服务端是否支持多线下载:
使用 HEAD 方法请求资源,然后查看服务端返回数据
2.查看返回数据头部是否存在 `Accept-Ranges →bytes`
如果有,那么就支持多线程下载,没有的话基本上可以洗洗睡了.
Golang 实现环节
`
最近写了个小爬虫,从国外某网站上下载视频,初期使用的是单线下载,后面发现访问服务端的资源数过多,会被反爬机制限制,还有一个问题就是单线下载境外网站内容性能比较差,下载速度很慢,后面修修补补改了改,改为多线访问同个资源,顺利解决反爬机制,也提升了下载效率.
多线程下载必须服务端支持
1.判断服务端是否支持多线下载:
使用 HEAD 方法请求资源,然后查看服务端返回数据
2.查看返回数据头部是否存在 `Accept-Ranges →bytes`
如果有,那么就支持多线程下载,没有的话基本上可以洗洗睡了.
Golang 实现环节
判断是否支持多线下载
多线下载任务分配
执行下载
完整代码
package download
import (
"github.com/labstack/gommon/log"
"io/ioutil"
"net/http"
"os"
"strconv"
"strings"
"sync"
"sync/atomic"
"time"
)
var client = http.Client{Timeout: time.Second * 180}
var threadGroup = sync.WaitGroup{}
var packageSize int64
func init() {
//每个线程下载文件的大小
packageSize = 1048576 * 4
}
func Download(url, cachePath string, scheduleCallback func(schedule float64)) string {
var localFileSize int64
var file *os.File
if info, e := os.Stat(cachePath); e != nil {
if os.IsNotExist(e) {
if createFile, err := os.Create(cachePath); err == nil {
file = createFile
} else {
panic(err)
}
} else {
panic(e)
}
} else {
localFileSize = info.Size()
}
//HEAD 方法请求服务端是否支持多线程下载,并获取文件大小
if request, e := http.NewRequest("HEAD", url, nil); e == nil {
if response, i := client.Do(request); i == nil {
defer response.Body.Close()
//得到文件大小
ContentLength := response.ContentLength
if localFileSize == ContentLength {
log.Warn("file exist~")
return cachePath
} else {
//判断是否支持多线下载
if strings.Compare(response.Header.Get("Accept-Ranges"), "bytes") == 0 {
//支持 走下载流程
if dispSliceDownload(file, ContentLength, url, scheduleCallback) == 0 {
return cachePath
} else {
return ""
}
} else {
panic("nonsupport ~")
}
}
} else {
panic(i)
}
} else {
panic(e)
}
return ""
}
func dispSliceDownload(file *os.File, ContentLength int64, url string, scheduleCallback func(schedule float64)) int {
defer file.Close()
//文件总大小除以 每个线程下载的大小
i := ContentLength / packageSize
//保证文件下载完整
if ContentLength%packageSize > 0 {
i += 1
}
//下载总进度
var schedule int64
//分配下载线程
for count := 0; count < int(i); count++ {
//计算每个线程下载的区间,起始位置
var start int64
var end int64
start = int64(int64(count) * packageSize)
end = start + packageSize
if int64(end) > ContentLength {
end = end - (end - ContentLength)
}
//构建请求
if req, e := http.NewRequest("GET", url, nil); e == nil {
req.Header.Set(
"Range",
"bytes="+strconv.FormatInt(start, 10)+"-"+strconv.FormatInt(end, 10))
//
threadGroup.Add(1)
go sliceDownload(req, file, &schedule, &ContentLength, scheduleCallback, start)
} else {
panic(e)
}
}
//等待所有线程完成下载
threadGroup.Wait()
return 0
}
func sliceDownload(request *http.Request, file *os.File, schedule *int64, ContentLength *int64, scheduleCallback func(schedule float64),
start int64) {
defer threadGroup.Done()
if response, e := client.Do(request); e == nil && response.StatusCode == 206 {
defer response.Body.Close()
if bytes, i := ioutil.ReadAll(response.Body); i == nil {
i2 := len(bytes)
//从我们计算好的起点写入文件
file.WriteAt(bytes, start)
atomic.AddInt64(schedule, int64(i2))
val := atomic.LoadInt64(schedule)
num := float64(val*1.0) / float64(*ContentLength) * 100
scheduleCallback(float64(num))
} else {
panic(e)
}
} else {
panic(e)
}
}
因为硬盘空间有限,爬取到180GB的时候,就结束了爬取.
个人联系方式:
作者QQ:853151446
作者邮箱:853151446@qq.com
有问题或者可以一起探讨的,请联系我,或者留言.