推薦:《PHP影片教學》
phpjieba_ffi
使用PHP 7.4的FFI 測試直接呼叫cjieba分詞的動態函式庫
選用CJieba的原因是FFI使用的是C的呼叫約定,如果用Cpp,還得自己包裝一下,然後extern C,讓編譯器產生標準C的動態函式庫。
碰到的問題
段落錯誤
C變數沒有初始化
直接呼叫了C的函數,沒有透過FFI 初始化後的C物件呼叫
非空判斷需要使用FFI::isNull($x)
指標形式的陣列不能用foreach
#指針形式數組的循環
查看C代碼發現Cut部分如下:
CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) { cppjieba::Jieba* x = (cppjieba::Jieba*)handle; vector<string> words; string s(sentence, len); x->Cut(s, words); CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1)); size_t offset = 0; for (size_t i = 0; i < words.size(); i++) { res[i].word = sentence + offset; res[i].len = words[i].size(); offset += res[i].len; } if (offset != len) { free(res); return NULL; } res[words.size()].word = NULL; res[words.size()].len = 0; return res; }
返回的是一個結構體指針,在C語言裡,數組名實際上是數組第一個變數的指標位址,所以可以透過指標位址的操作來遍歷,在FFI裡面呢?
對於這個數組,我一開始用foreach 循環,直接報段錯誤了,後來和C一樣,直接用指針,發現是可行的,這裡給FFI點贊,居然也可以直接操作C指針。
分詞結果取得
如上面的程式碼,對於單一分詞CJiebaWord,也不是保存的分詞,而是sentence offset,就是說第一個分詞結果肯定是原始字串。
在C的demo裡是printf格式化(. 表示字段寬度和對齊),但是PHP裡沒有類似的方法,需要截取字串substr($x->word, 0, $x- >len)
for (x = words; x->word; x++) { printf("%*.*s\n", x->len, x->len, x->word); }
用法範例
#編譯動態函式庫
make libjieba.so
執行
time php demo.php
執行c demo
make demo time ./demo
結果
PHP load: 0.00025701522827148 real 1m59.619s user 1m56.093s sys 0m3.517s C real 1m54.738s user 1m50.382s sys 0m4.323s CPU 占用 基本都是 12%
可以發現使用FFI,PHP的速度基本上和C差不多,如有CPU佔用大的業務,可以嘗試使用其它語言(C/C ,golang, Rust等)編寫然後導出標準C的動態函式庫。
FFI的用途
在沒有FFI之前,需要係統呼叫或sdk方式呼叫的地方,PHP就需要開發擴展,但是開發擴展不僅需要理解C語言,還要了解PHP內核,比較難。現在就方便多了,直接使用FFI呼叫動態函式庫即可。
擴充巨集展開
例如海康的sdk裡有大量的巨集gcc -E -P HCNetSDK.h -o HCNetSDK_unfold.h 支援type define 放心使用
原文網址:https://github.com/dwdcth/phpjieba_ffi
以上是用PHP的FFI呼叫cjieba的詳細內容。更多資訊請關注PHP中文網其他相關文章!