golang 源码剖析(2) TCMalloc内存管理器

darcyaf · 2020-03-04 10:32:47 · 668 次点击 · 预计阅读时间 3 分钟 · 大约8小时之前开始浏览

这是一个创建于 2020-03-04 10:32:47 的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

使用TCMalloc(Thread-Caching Malloc)当内存管理器
以下翻译自tcmalloc.html

动机

相对于glibc2.3 malloc, 在2.8GHz P4上，ptmalloc2需要大概300ns执行一个malloc/free 操作，TCMalloc只需要50ns
多线程时，可减少锁竞争.　小对象基本都是无锁，对于大对象，ptmalloc2也使用每个线程一个arena,但是在不同的arena上分配大对象时内存不会复用而会重新去申请内存
TCMalloc在小对象上也是空间高效的，对N个8字节对象只需要N81.01bytes,而ptmalloc2每个对象使用4字节头,也就是12字节,对齐到8字节的倍数，从而使用了16N个字节

预览

TCMalloc为每个线程分配一个线程级别(thread-local)的cache.小的对象申请都可以直接从这个cache中获取，需要的话也可以将central的内存移到cache中，或者从cache中回收对象到central中

image.png

TCMalloc将小于32K的数据称为小对象(small objects).大对象直接通过页级别(page-level，以4k(41024byte)为单位对齐)的内存分配器从central heap中申请n页.
每页也可以切分成多个小对象,比如一页可切分为32个128字节的对象(32128byte)

小对象分配

小对象可分为大约170种size-class，最大间距为256个字节

image

申请流程如下:

根据对象的大小找到合适的size-class
从当前线程的cache的空闲列表(free list)中查找，如果找到了就从空闲列表中移除并返回，这里甚至都用不到锁，这里也能稍微加速申请，毕竟一次lock/unlock对在2.8GHz Xeon处理器上也需要大约100ns的时间
如果空闲列表为空列表,则从central的空闲列表中(这里都是切割好的，可能是以前cache中回收的)查找这个size-class(注意:central空闲列表是所有线程共享的),如果找到了，就放到cache的空闲列表中，并从刚获取到的这个数组中返回一个对象
如果central中空闲列表也为空，则直接通过mmap或将heap中切分等获取连续的页，切割成对应size-class的对象列表，放入central的空闲列表中,然后再将一部分送到cache的空闲列表中返回

大对象分配

对于超过32K的对象，会先将大小对齐到页大小(4k)的倍数,然后交由central page heap来处理,
不同于空闲列表，page heap并未将页切分成对象数组,而是直接将其分成了256中页class,n<=255，构成了n页的一个列表(页为单位),剩余的同意放到256这个页class中.

image

分配时直接找到能满足的n页类型空闲列表,如果找不到则直接n++,找稍微大一些的空闲列表，如果失败了则从系统中通过mmap获取,如果找到的页过大，则会进行切分，将剩余的页插入到合适的空闲列表中去

Spans

TCMalloc通过连续的页称用span来管理heap. span有已申请或者空闲两种状态.
如果空闲，则span可以看做是heap某个链表的入口，可以看做是多个页打包在一起
如果已申请，则可能是一个使用中的大对象，或者切分成一系列的小对象列表供小对象使用
一个根据页编号的数组(central array)查到一个页是属于哪个span
一个32位的地址空间可以容纳2的20次方个4k的页面，这个central array占用了4MB的空间,在64位机器上，使用的是3级基数树(3-level radix tree,类似于二叉树)来查找对应的页

image

内存回收(Deallocation)

当某个对象要回收时，我们计算它的页编号(page number)，并从central array中找到对应的span，这个span中能知道这个对象是不是小对象还有小对象对应的size-class，如果是小对象，则将其插入到对应cache中的空闲列表中去，如果这个线程的cache超过了一个预设的值(默认是2MB),将会出发垃圾回收将未使用的对象移入central的空闲列表中去.

central小对象的空闲列表

我们保存了每个size-class的空闲列表,每个空闲列表都有两级数据结构:一系列的span,每个span一个空闲对象的链表.
对象的申请通过从空闲列表中移除一个并返回(如果没有空闲链表，则会先从page heap中去申请)
对象的回收通过将其插入到它对应span的空闲列表中，如果链表长度已经等于span的最大对象的数量，则改span全部空闲，会将其回收到page heap中去

cache的垃圾回收

当这个cache中所有对象的长度超过预设的值时(默认2MB,随着线程数的增多，会自动降低这个阀值以免浪费)
会遍历所有cache的空闲列表,然后将一定数量的对象回收到对应的central的空闲列表中去
被回收的数量会根据每个列表中的L(low-water-mark)决定,L记录着上次回收时的最小长度.根据L会预测未来的使用量，并将L/2个对象移入central的空闲列表中去。这个算法的好处是当某个线程停止使用某个特定sizeclass的对象时，快速的移入central的空闲列表中，由于central的空闲列表是共享的，可直接供其他线程使用(较PTMalloc的优点之一)

性能

TCMalloc在大部分的申请大小上性能都较PTMaloc2更好，原因是在cache中的话会减少冲突
随着分配尺寸的增大，由于cache垃圾回收的限制，导致大量的垃圾回收，很少有对象能存储在cache中
当超过32k时性能下降变慢，这是由于32k之后算大对象，都是存储在page heap中了
申请大小和每秒操作数关系图:

image

线程数与每秒操作数关系图

image

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：darcyaf

查看原文：golang 源码剖析(2) TCMalloc内存管理器

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

668 次点击

加入收藏微博

收入我的专栏

上一篇：go value receiver, pointer receiver 方法集

下一篇：Golang 基础(三)

线程

链表

锁

移除

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

golang 源码剖析(2) TCMalloc内存管理器

动机