Golang实现多线程并发下载

Bryce · · 8823 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

大家都用过迅雷等下载工具，特点就是支持并发下载，断点续传。我们这里不介绍它，这个比较复杂了，逼人也不懂。本文只介绍狭义上的简易的断点续传和狭义上的多线程下载。跟之前一样，旨在研究原理，实际生活中基本没啥用，实测下来多线程下载比单线程下载还慢。。。太丢人了。

主要讲三个方面，如何HTTP的并发下载、通过Golang进行多协程开发、如何断点续传。

HTTP的并发下载

想要并发下载，就是把下载内容分块，然后并行下载这些块。这就要求服务器能够支持分块获取数据。大迅雷、电驴这种都有自己的协议，thunder://这种，我们只研究原理，就说说HTTP协议对于并发的支持。

HTTP头	对应值	含义
Content-Length	14247	HTTP响应的Body大小，下载的时候，Body就是文件，也可以认为是文件大小，单位是比特
Content-Disposition	inline; filename=”bryce.jpg”	是MIME协议的扩展，MIME协议指示MIME用户代理如何显示附加的文件。当浏览器接收到头时，它会激活文件下载。这里还包含了文件名
Accept-Ranges	bytes	允许客户端以bytes的形式获取文件
Range	bytes=0-511	分块获取数据，这里表示获取第0到第511的数据，共512字节

如果要下载一个文件，想知道这些文件的信息，例如文件名、文件大小、是否支持并发下载、文件类型都可以从响应的头里面获取。如何在下载前获得到这些内容而不是下载中获取，可以用HTTP提供的HEAD方法。HEAD方法只响应HTTP的头部分，不包含Body部分。

req, err := http.NewRequest("HEAD", get.Url, nil)
resp, err := get.GetClient.Do(req)

获取文件类型、文件名等参数。HTTP从Url到Head在到Body，你都可以认为是字符串，也确实是字符串，但是解析的时候不要自己以字符串的方式处理，要不恶心死你。Url的解析大Golang有net/url包支持，MIME有mime包支持，这都是原生包，别的语言必然也支持。

get.ContentLength = int(resp.ContentLength)
get.MediaType, get.MediaParams, _ = mime.ParseMediaType(get.Header.Get("Content-Disposition"))
log.Printf("Get %s MediaType:%s, Filename:%s, Length %d.\n", get.Url, get.MediaType, get.MediaParams["filename"], get.ContentLength)

输出

2015/07/02 09:56:47 Get http://7b1h1l.com1.z0.glb.clouddn.com/bryce.jpg MediaType:inline, Filename:bryce.jpg, Length 14247.

如果响应头里面还包含了Accept-Ranges，就说明服务器支持分块获取：

if get.Header.Get("Accept-Ranges") != "" {
	log.Printf("Server %s support Range by %s.\n", get.Header.Get("Server"), get.Header.Get("Accept-Ranges"))
} else {
	log.Printf("Server %s doesn't support Range.\n", get.Header.Get("Server"))
}

分模块下载，新建N个临时文件，我的命名规则是加个分块区间的后缀，例如bryce.jpg.0-512，这样可以省掉一个配置文件（主要是我懒的写）。将下载好的块存入临时文件里面，最后都下载完之后统一存入最终的文件里面。分块下载加个Range头就可以了。

range_i := fmt.Sprintf("%d-%d", get.DownloadRange[i][0], get.DownloadRange[i][1])
log.Printf("Download #%d bytes %s.\n", i, range_i)

defer get.TempFiles[i].Close()

req, err := http.NewRequest("GET", get.Url, nil)
req.Header.Set("Range", "bytes="+range_i)
resp, err := get.GetClient.Do(req)
defer resp.Body.Close()

最后将下载好的保持到文件里。这里是等这个块都下载完之后再写入硬盘，下载完之后都是保持在内存里面。

cnt, err := io.Copy(get.TempFiles[i], resp.Body)

多线程开发

并发下载的时候，要启动N个协程，主线程这时需要阻塞，等待这N个协程下载完毕。先开始想用channel自己写，不是特别会。。。用sync包辅助实现，它支持WaitGroup，正好可以解决我这里的问题。

在主线程里面启动N个协程，Add方法可以理解成增加一个任务，任务计数器加一；Wait方法用于阻塞，指导所有任务完成。

for i, _ := range get.DownloadRange {
	get.WG.Add(1)
	go get.Download(i)
}
get.WG.Wait()

在下载协程增加Done函数，协程结束之后通知任务完成，任务计数器减一。

defer get.WG.Done()

断点续传

这块最简单，如果任务下载暂停了，就是传输的内容不足。第一步创建临时文件的文件名后缀有派上用场了，读取到块应有的大小之后，检查块实际大小。通过文件的os.FileInfo就能获取到文件相关属性信息。这样再下载的时候就增加一个偏移量，跳过已经下载好的内容。

for i := 0; i < len(get.DownloadRange); i++ {
	range_i := fmt.Sprintf("%d-%d", get.DownloadRange[i][0], get.DownloadRange[i][1])
	temp_file, err := os.OpenFile(get.FilePath+"."+range_i, os.O_RDONLY|os.O_APPEND, 0)
	if err != nil {
		temp_file, _ = os.Create(get.FilePath + "." + range_i)
	} else {
		fi, err := temp_file.Stat()
		if err == nil {
			get.DownloadRange[i][0] += int(fi.Size())
		}
	}
	get.TempFiles = append(get.TempFiles, temp_file)
}

大概简单的原理就是这些，前面说了，比项目无法用于实际用途，原因如下：

需要有一个线程池来并发下载，目前的设计在下载大文件时会导致并发数过大。已经完成下载的线程还能继续下载未完成的块，这个又涉及到下任务的动态分配和动态拆分；
并发下载时的块大小，这个值也很讲究，一般4096和字节是一个内存块单位，以此数字的倍数下载比较节约内存，目前我这里的块大小是根据并发数计算的，比较水；
前面提到了，这是狭义的多线程下载，前提是服务器必须支持Range，否则还是无法并发获取数据，实际在做的时候最起码是会有几台下载完的服务器，这样自己的服务器就能开发支持分块取数据的协议来支持并发下载，市面上的也都是这么干；
还有下载进度条，就是类似于wget命令在控制台展示进度条和下载速度的日志，这个不太会写，查了查，据说可以通过fmt.Println("abc\rcde")实现，\r表示回车符，可以回到行首，我没试过，大家可以试试。

本文所涉及到的完整源码请参考。

参考文献

原文链接：Golang实现多线程并发下载，转载请注明来源！

有疑问加站长微信联系（非本文作者）

本文来自：Cyeam

感谢作者：Bryce

查看原文：Golang实现多线程并发下载

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

8823 次点击

加入收藏微博

收入我的专栏

上一篇：Go语言学习笔记

下一篇：Golang的垃圾回收

线程

http

文件类型

信息

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

Golang实现多线程并发下载

HTTP的并发下载

多线程开发

断点续传

参考文献

用户登录

今日阅读排行

一周阅读排行

关注我

HTTP的并发下载

多线程开发

断点续传

参考文献

Golang实现多线程并发下载

HTTP的并发下载

多线程开发

断点续传

参考文献

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

HTTP的并发下载

多线程开发

断点续传

参考文献

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏