用GO语言实现一个简单的搜索引擎

ygrx · 2015-07-28 00:00:00 · 10835 次点击 · 预计阅读时间 3 分钟 · 大约8小时之前开始浏览

这是一个创建于 2015-07-28 00:00:00 的文章，其中的信息可能已经有所发展或是发生改变。

用GO语言实现一个简单的搜索引擎

项目地址是：https://github.com/wyh267/FalconEngine

对搜索引擎感兴趣的可以去看看这本书，比较浅并且也比较完整的介绍了一个搜索引擎的全部机能。

我的这个搜索引擎原始数据是MySql数据库的，大家可以根据需要进行二次开发，用来支持其他数据库或者本地文件，Detail文件是存储在Redis数据库中，同样这部分也可以根据自己的需要二次开发，使用本地文件或者其他数据库，倒排索引和正排索引本地存储的时候使用的json格式，比较耗磁盘，第一版暂时这样了吧，后续再做优化。

使用方法

依赖以下几个库

github.com/outmana/log4jzl log文件
github.com/ewangplay/config 配置文件解析
github.com/go-sql-driver/mysql mysql驱动
github.com/garyburd/redigo/redis Redis驱动
github.com/huichen/sego 分词器，作者主页非常感谢他的分析器，他主页上也有个搜索引擎，没看具体实现，大家感兴趣可以去看看。

编译

直接运行install.sh

运行

从github.com/huichen/sego获取分词的字典文件
运行索引器，会将索引文件生成到index目录下

bin/FalconEngine -mode=build

运行搜索器

bin/FalconEngine -mode=search

基本概念

以下几个概念需要理解，如果完全不了解的话，还需要自己稍微百度一下：倒排索引，正排文件，Detail文件，全量索引，增量索引，哈希函数，DocId

基础数据结构

搜索引擎首先并不神秘，基础的数据结构就那么几个，定了以后后面就是在上面添砖加瓦了。

假如有下面五个文档需要进行搜索

文档编号	内容
1	你好，搜索引擎
2	搜索引擎有一条数据
3	你好，有一条测试数据

倒排索引

倒排索引是搜索引擎基础中的基础，主要的检索都是从倒排索引开始的，所以，首先，设计一个倒排索引的数据结构是所有搜索引擎的基础。

搜索引擎的基础是DocId，也就是文档ID，DocId是唯一的并且是连续的，而倒排索引就是一组DocId链表，每个链表对应一个关键词。

上面的文档建立号倒排索引的基础结构如下图

关键词	文档编号
你好	1，3
搜索引擎	1，2
数据	2，3
有一条	2，3
测试	3

所以，当我们检索数据这个词的时候能迅速知道在文档2和3有这条数据，就能进行检索了。

是不是很简单，关键问题是检索数据的时候，如何能迅速定位到第三行数据，这里就用到哈希表了，所以，一个完整的倒排包括两部分，一部分是上面的这个表，第二个是一个哈希表，通过这个哈希表能知道数据这个词的下标为3，从而找到2,3这两个文档。

哈希表的具体实现就不详细展开了，哈希表有很多种实现方式，并且哈希函数也有很多种实现方式，总之，对于一个关键词的定位
- 首先，通过计算这个关键词的hash，得到它的下标
- 然后，查找倒排索引的下标，得到文档ID的链表

在代码的InvertIndex.go中是倒排索引的数据结构，StringIndexDic.go是关键词的哈希表，这两个文件产生的数据都会序列化成json文件存储下来。

正排索引

正排索引相对倒排就简单多了，实际上就是一个字典文件，key是DocId，value是这个DocId对应的内容，主要用来做结果集的过滤，所谓倒排检索，正排过滤，什么场景需要这样的东西呢？下面的场景你肯定经历过。

你在一个某东的网站搜索运动鞋，肯定出来一堆鞋子，但是你只想看nike的鞋子，这时候你可以再运动鞋后面加上Nike，搜索nike运动鞋，但是结果不一定准，因为并不是每个nike的鞋子的标题上都会写上nike，这时候就需要用到正排了，他会把nike鞋子给你过滤出来。

正排索引就是一个数组，数组的下标就是DocId，文件中的NumberProfile.go和TextProfile.go是具体的实现文件

Detail文件

Detail文件使用的是Redis实现的，没有具体的数据结构，实际上就是以主键ID为key来实现的。

增量更新

增量更新使用的是扫描mysql中的一个last_modify_time字段，获取数据，然后和redis中的数据进行对比，如果更新了就添加到索引中，添加索引按照如下的步骤进行

如果是正排字段更新，并且不是新增的数据，只是原来的数据修改
- 直接更新DocId对应下标的数据
如果是正排字段更新，但是是新增的数据
- 新增一个DocId并添加到正排文件的后面
如果是倒排字段更新
- 将原始的DocId从BitMap中删除
- 新增一个DocId并添加到倒排文件的后面

因为DocId是连续的，倒排字段更新的话，要修改倒排链表，而目前的倒排链表是数组的，所以直接建立一个BitMap，将对应的DocId删除，后续改成链表形式的话，可以动态的删除。

增量更新使用的一个go的协程来做的，扫描的是数据库字段，后续可以改成从kafka获取数据或者其他方式获取增量更新

数据检索

数据检索分成以下几个步骤

根据关键词从倒排索引中获取DocId链，有多个关键词的时候求交集
通过BitMap过滤掉已经删除的DocId
最后得到的DocId按照正排文件的条件进行过滤操作，获取最终的DocId链
通过DocId反查出文档的真实ID，并通过Redis获取文档的详细信息用于显示

文件中的IndexSet.go主要实现了上述步骤

待续。。。。。。。

有疑问加站长微信联系（非本文作者）

本文来自：CSDN博客

感谢作者：ygrx

查看原文：用GO语言实现一个简单的搜索引擎

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

10835 次点击 ∙ 1 赞

加入收藏微博

收入我的专栏

上一篇：Beego自动化文档（最新版）

下一篇：在CentOS 7上源码编译Golang 1.7

倒排

正排

github

redis

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

用GO语言实现一个简单的搜索引擎

用GO语言实现一个简单的搜索引擎

使用方法

依赖以下几个库

编译

运行

基本概念

基础数据结构

倒排索引

正排索引

Detail文件

增量更新

数据检索

用户登录

今日阅读排行

一周阅读排行

关注我

用GO语言实现一个简单的搜索引擎

使用方法

依赖以下几个库

编译

运行

基本概念

基础数据结构

倒排索引

正排索引

Detail文件

增量更新

数据检索

用GO语言实现一个简单的搜索引擎

用GO语言实现一个简单的搜索引擎

使用方法

依赖以下几个库

编译

运行

基本概念

基础数据结构

倒排索引

正排索引

Detail文件

增量更新

数据检索

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

用GO语言实现一个简单的搜索引擎

使用方法

依赖以下几个库

编译

运行

基本概念

基础数据结构

倒排索引

正排索引

Detail文件

增量更新

数据检索

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏