Caprice: Golang版的高性能实时全文检索引擎(segment 设计篇)

贺大伟 · 2019-04-02 12:34:39 · 3147 次点击 · 预计阅读时间 2 分钟 · 大约8小时之前开始浏览

这是一个创建于 2019-04-02 12:34:39 的文章，其中的信息可能已经有所发展或是发生改变。

承接前文Caprice: Golang版的高性能实时全文检索引擎(实现篇)，本文是系列文章的第四篇。系列文章地址如下:

本篇主要介绍segment的设计。我们知道FST被认为是构建高效的倒排索引的核心，但它的缺点是修改不易，因此为了克服这个问题，包括lucene在内的检索引擎，在使用FST的时候几乎都选择了segment这个概念去处理这个问题。将一段时间内的document集中起来处理，生成FST，同时利用LSM的设计思想，避免直接update和delete，但是代价就是索引并不能实时可见，不过好在很多使用全文检索的场景对实时性要求都不高，因此这也基本上成为一个默认约定。caprice是一个高性能的实时全文检索引擎，这里不再讲述实时性，而是讨论caprice的segment设计。

caprice的segment共由五个文件组成：.fdt, .fdx, .td, .fi, .dv，它们分别负责stored field的value，stored field的索引， term dict，field meta，doc value。而delete file则存储在boltDB中，boltDB也同时用来存储segment的元数据，我们正在替换boltDB以减少项目对其他组件的依赖，这个是历史问题，bleve 使用boltDB存储segment元数据，之所以如此，我猜测是为了支持提供一个可以存储KV的接口，我个人认为这个需求意义不大，因此在caprice中废弃了这个接口。

.FDT 文件格式

FDT是按照一个chunk一个chunk紧密排列组合而成，之所以使用chunk是为了压缩stored field，单个document的压缩压缩效果不理想，尤其是little size document的压缩，为了解决这个问题，我们采用chunk的方式对累计满足64KB或者document的数量达到512个时使用lz4压缩。

docBase：记录chunk的起始docID（内部doc ID，递增数字）；docBitmap：记录这个chunk中存储了哪些docID，之所以如此，是因为考虑到并不是所有的document都会stored field，因此可能存在空洞，必须紧密存储以节约空间。docFieldCounts：一个数组，记录每一个document的stored field的数量；docLengths：一个数组，记录每一个document的stored field的size。后面就是压缩的数据，解压之后是field meta和field value的组合依次排列存放，field meta是一个uint64的数字，最高16bit存放fieldID，后面的16bit存放field type，剩余的32bit存放field value length。

FDX文件格式

FDX文件是DFT文件的索引文件，记录了chunk的位置等信息，FDX按照block组织，每一个block包含1024个chunk（最后一个block包含的chunk数目可能会不足1024），这样设计的好处是加速检索的速度。

block包含三部分：BlockChunks；DocBases；ChunkSizes。

BlockChunks记录了block中包含的chunk数量，最大1024；DocBases记录了block中各个chunk中起始docID，即docBase，docBaseDeltas是一个数组，采用差值压缩的方式存储了各个chunk的DocBase。ChunkSizes记录了chunk在FDT中偏移，chunkSizeBase记录了起始偏移，AvgChunkSize记录了block中平均chunk size，chunkSizeBaseDeltas是一个数组，采用平均值压缩方式存储。

DV文件格式

（感谢项目核心成员MervinKid供图）

doc value使用列式存储，主要的目的就是方便聚合和sort。doc value也是按照chunk的方式组织和压缩数据，不过必须说明的是，doc value因为是列式存储，优化的空间很大。doc value目前处于减少fd句柄资源的考虑已经合并成一个文件了，核心是索引文件很小，后面随着压缩优化的进行会重新考虑索引的设计。这张图说的很明确了，大家自行看图理解其中的逻辑。

FI文件

（感谢项目核心成员MervinKid供图）

FI文件中存储了field name和field ID的映射关系以及各个field dict在TD文件中的起始偏移。

TD文件格式

segment拆分成多个文件的好处是在build的时候可以独立操作，分时段操作，从而大大提升写的性能。多个文件的弊端是导致打开的文件句柄会太多造成不稳定，后期我们会考虑在merge的时候合并成一个文件以减少这种不稳定因素带来的影响，幸运的是我们开始重构的时候就对这些文件的访问进行了抽象，因此一切会比较平滑。

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：贺大伟

查看原文：Caprice: Golang版的高性能实时全文检索引擎(segment 设计篇)

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

3147 次点击

加入收藏微博

被以下专栏收入，发现更多相似内容

区块收入我的专栏

上一篇：深度解密Go语言之Slice

下一篇：mediasoup 环境部署

全文检索

核心成员

列式

重新考虑

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

Caprice: Golang版的高性能实时全文检索引擎(segment 设计篇)

用户登录

今日阅读排行

一周阅读排行

关注我

Caprice: Golang版的高性能实时全文检索引擎(segment 设计篇)

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏