使用PHP的FFI调用cjieba分词的动态库

齐鲁建站 · · 443 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

选用CJieba的原因是FFI使用的是C的调用约定,如果用Cpp,还得自己包装一下,然后extern C,让编译器生成标准C的动态库。

碰到的问题

段错误

C变量没有初始化

直接调用了C的函数,没有通过FFI 初始化后的的C对象调用

非空判断 需要使用 FFI::isNull($x)

指针形式的数组 不能用foreach

指针形式数组的循环

查看C代码发现Cut部分如下:

CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) {

cppjieba::Jieba* x = (cppjieba::Jieba*)handle;

vector words;

string s(sentence, len);

x->Cut(s, words);

CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() +

1));

size_t offset = 0;

for (size_t i = 0; i < words.size(); i++) {

res[i].word = sentence + offset;

res[i].len = words[i].size();

offset += res[i].len;

}

if (offset != len) {

free(res);

return NULL;

}

res[words.size()].word = NULL;

res[words.size()].len = 0;

return res;

}

返回的是一个结构体指针,在C语言里,数组名实际是数组第一个变量的指针地址,所以可以通过指针地址++的操作来遍历,在FFI里面呢?

对于这个数组,我一开始用foreach

循环,直接报段错误了,后来和C一样,直接用指针++,发现是可行的,这里给FFI点赞,居然也可以直接操作C指针。

分词结果获取

如上面的代码,对于单个分词CJiebaWord,也不是保存的分词,而是sentence + offset,就是说第一个分词结果肯定是原始字符串。

在C的demo里是printf格式化(. 表示字段宽度和对齐),但是PHP里没有类似的方法,需要截取字符串substr($x->word, 0,

$x->len)

for (x = words; x->word; x++) {

printf("%*.*s\n", x->len, x->len, x->word);

}

用法示例

编译动态库

make libjieba.so

运行

time php https://www.qilucms.com /demo.php

运行c demo

make demo

time php https://www.why114.com /demo

结果

PHP

load: 0.00025701522827148

real    1m59.619s

user    1m56.093s

sys     0m3.517s

C

real    1m54.738s

user    1m50.382s

sys     0m4.323s

CPU 占用 基本都是 12%

可以发现使用FFI,PHP的速度基本和C差不多,如有CPU占用大的业务,可以尝试使用其它语言(C/C++,golang,Rust等)编写然后导出标准C的动态库。

FFI的用途

在没有FFI之前,需要系统调用或者sdk方式调用的地方,PHP就需要开发扩展,但是开发扩展不仅需要理解C语言,还得了解PHP内核,比较困难。

现在就方便多了,直接使用FFI调用动态库即可。


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:齐鲁建站

查看原文:使用PHP的FFI调用cjieba分词的动态库

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

443 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传