Go语言中文网 为您找到相关结果 6

golang分词工具sego的使用

使用的库是:github.com/huichen/sego // 载入词典 var segmenter sego.Segmenter //自带的分词库信息 segmenter.LoadDictionary("../github.com/huichen/sego/data/dictionary.txt") // 分词 text := []byte("使用它可以进行快速开发,同时它还是一个真正的编译语言,我们之所以现在将其开源,原因是我们认为它已经非常有用和强大") segments := segmenter.Segment(text) // 处理分词结果 // 支持普通模式和搜索模式两种分词,见代码中SegmentsToString函数的注释。 fmt.Println(sego.Segment...阅读全文

博文 2017-11-14 07:03:06 迷路的阿修罗

Go 分词库 GoJieba

GoJieba 是 Jieba 分词的 Go 语言版本分词库。 ## 用法

go get github.com/yanyiwu/gojieba
示例代码请见 example/demo.go
cd example
go run demo.go
之所以需要先 cd 到 example 目录下,是因为 demo.go 里面有写死的字典相对路径。 输出结果:
全模式: 我/来到/北京/清华/清华大学/华大/大学
精确模式: 我/来到/北京/清华大学
新词识别: 他/来到/了/网易/杭研/大厦
搜索引擎模式: 小明/硕士/毕业/于/中国/中国科学院/科学/科学院/学院/计算所/,/后/在/日本/日本京都大学/京都/京都大学/大学/深造...阅读全文

开源项目 2015-09-14 16:00:00 yanyiwu

Go中文分词包 cwsharp-go

Go中文分词库,支持中英文,混合词组,自定义字典。 # 安装&运行 go get github.com/zhengchun/cwsharp-go go run test.go # 说明 * simple - 简单的分词包,提供基本的字母或数字的分词功能,输出单个中文字符(一元分词) * bigram - 二元分词包 * mmseg - 基于词典的分词包,支持自定义字典和中英文混合 go run test.g...阅读全文

golang goscws中文分词

## golang goscws中文分词 scws是一个很好的中文分词库,由于项目中用到scws分词但go语言没有很好用的绑定,于是就自己 写了goscws,并且他支持协程分词。 ## 例子: 根据 SendText 设定的文本内容,返回一系列切好的词汇 ``` gs := goscws.NewScws() gs.SetCharset("utf8") err := gs.SetDict("/usr/local/scws/etc/dict.utf8.xdb", goscws.SCWS_XDICT_MEM) if err != nil { log.Println(err) } err = gs.SetRule("/usr/local/scws/etc/rules.utf8.ini") if er...阅读全文

前缀树

最近看代码,发现了一个敏感词检测是用前缀树写的,看起来速度蛮快,毕竟是拿空间换时间,LOG倍速。但是缺点也很明显,待检测文本需要与敏感词词库中的值完全匹配。所以对于简短的词法比较合适。 原理: 每一个节点可以有多个子节点 节点“存储”字符, 节点与节点之间的连线自动形成单词。 如a节点与d节点,之间的连线就是单词 ad 节点可能是叶子节点,此时也是一个单词的“终点”,否则是其他拥有相同前缀的节点的“过客”, wordcount要加一。 删除一个单词,则对应节点上的“过客”都要减一,直至减至叶子节点。 # coding: utf8 MAX_TREE_WIDTH = 26 INIT_CHAR = 'a' forbiddenwords = """ fuck fucker damn silly ""...阅读全文

博文 2018-12-15 19:34:45 尽情的嘲笑我吧

golang中cgo简单测试

对于cgo的简单测试,运用scws分词库类源码实现分词。1、下载源码 http://www.xunsearch.com/scws/docs.php (本示例使用的是 1.2.3 版本)2、解压scws包,进入目录,./configure 编译但不需要安装,会生成一个 config.h(这是我们需要的)3、在go代码文件创建目录libscws4、将scws目录下的config.h 和 其子目录libscws 下的文件全部拷贝到你的go代码目录libscws中golang测试代码如下: package main /* #cgo CFLAGS: -I${SRCDIR}/libscws #cgo LDFLAGS: -L${SRCDIR}/libscws #include #in...阅读全文