Sego Go中文分词 Sego

agolangf • 4802 次点击    
这是一个分享于 的项目,其中的信息可能已经有所发展或是发生改变。
[词典](https://github.com/huichen/sego/blob/master/dictionary.go)用双数组trie(Double-Array Trie)实现, [分词器](https://github.com/huichen/sego/blob/master/segmenter.go)算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行[JSON RPC服务](https://github.com/huichen/sego/blob/master/server/server.go)。 分词速度[单线程](https://github.com/huichen/sego/blob/master/tools/benchmark.go)9MB/s,[goroutines并发](https://github.com/huichen/sego/blob/master/tools/goroutines.go)42MB/s(8核Macbook Pro)。 示例代码: <pre class="brush:java;toolbar: true; auto-links: false;">package main import (     &#34;fmt&#34;     &#34;github.com/huichen/sego&#34; ) func main() {     // 载入词典     var segmenter sego.Segmenter     segmenter.LoadDictionary(&#34;github.com/huichen/sego/data/dictionary.txt&#34;)     // 分词     text := []byte(&#34;中华人民共和国中央人民政府&#34;)     segments := segmenter.Segment(text)     // 处理分词结果     // 支持普通模式和搜索模式两种分词,见代码中SegmentsToString函数的注释。     fmt.Println(sego.SegmentsToString(segments, false))  }</pre>
授权协议:
Apache
开发语言:
Google Go 查看源码»
操作系统:
跨平台
4802 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传