搜索
首页后端开发php教程基于RMM的简易中文分词

本程序为基于RMM中文分词思想,编写的简易中文分词,程序中还存在不少漏洞,望大神指点....优化了下乱码问题
  1. /**
  2. * 基于RMM中文分词(逆向匹配法)
  3. * @author tangpan
  4. * @date 2013-10-12
  5. * @version 1.0.0
  6. **/
  7. class SplitWord {
  8. //public $Tag_dic = array(); //存储词典分词
  9. public $Rec_dic = array(); //存储重组的分词
  10. public $Split_char = ' '; //分隔符
  11. public $Source_str = ''; //存储源字符串
  12. public $Result_str = ''; //存储分词结果字符串
  13. public $limit_lenght = 2;
  14. public $Dic_maxLen = 28; //词典中词的最大长度
  15. public $Dic_minLen = 2; //词典中词的最小长度
  16. public function SplitWord() { //初始化对象,并自动执行成员方法
  17. $this->__construct();
  18. }
  19. public function __construct() {
  20. $dic_path = dirname(__FILE__).'/words.csv'; //预先载入词典以提高分词速度
  21. $fp = fopen( $dic_path, 'r' ); //读取词库中的词
  22. while( $line = fgets( $fp, 256 ) ) {
  23. $ws = explode(' ', $line); //对词库中的词进行分割
  24. $ws[0] = trim(iconv('utf-8','GBK',$ws[0])); //编码转换
  25. //$this->Tag_dic[$ws[0]] = true; //以词为索引,序号为值
  26. $this->Rec_dic[strlen($ws[0])][$ws[0]] = true; //以词长度和词分别为二维数组的索引,以n为值,来重组词库
  27. }
  28. fclose($fp); //关闭词库
  29. }
  30. /**
  31. * 设置源字符串
  32. * @param 要分词的字符串
  33. */
  34. public function SetSourceStr( $str ) {
  35. $str = iconv( 'utf-8', 'GBK', $str ); // 将utf-8编码字符转换为GBK编码
  36. $this->Source_str = $this->DealStr( $str ); //初步处理字符串
  37. }
  38. /**
  39. * 检查字符串
  40. * @param $str 源字符串
  41. * @return bool
  42. */
  43. public function checkStr( $str ) {
  44. if ( trim($str) == '' ) return; //若字符串为空,直接返回
  45. if ( ord( $str[0] ) > 0x80 ) return true; //是中文字符则返回true
  46. else return false; //不是中文字符则返回false
  47. }
  48. /**
  49. * RMM分词算法
  50. * @param $str 待处理字符串
  51. */
  52. public function SplitRMM( $str = '' ) {
  53. if ( trim( $str ) == '' ) return; //若字符串为空,则直接返回
  54. else $this->SetSourceStr( $str ); //字符串不为空时,设置源字符串
  55. if ( $this->Source_str == ' ' ) return; //当源字符串为空时,直接返回
  56. $split_words = explode( ' ', $this->Source_str ); //以空格来切分字符串
  57. $lenght = count( $split_words ); //计算数组长度
  58. for ( $i = $lenght - 1; $i >= 0; $i-- ) {
  59. if ( trim( $split_words[$i] ) == ' ' ) continue; //如果字符为空时,跳过后面的代码,直接进入下一次循环
  60. if ( $this->checkStr( $split_words[$i] ) ) { //检查字符串,如果是中文字符
  61. if ( strlen( $split_words[$i] ) >= $this->limit_lenght ) { //字符串长度大于限制大小时
  62. //对字符串进行逆向匹配
  63. $this->Result_str = $this->pregRmmSplit( $split_words[$i] ).$this->Split_char.$this->Result_str;
  64. }
  65. } else {
  66. $this->Result_str = $split_words[$i].$this->Split_char.$this->Result_str;
  67. }
  68. }
  69. $this->clear( $split_words ); //释放内存
  70. return iconv('GBK', 'utf-8', $this->Result_str);
  71. }
  72. /**
  73. * 对中文字符串进行逆向匹配方式分解
  74. * @param $str 字符串
  75. * @return $retStr 分词完成的字符串
  76. */
  77. public function pregRmmSplit( $str ) {
  78. if ( $str == ' ' ) return;
  79. $splen = strlen( $str );
  80. $Split_Result = array();
  81. for ( $j = $splen - 1; $j >= 0; $j--) { //逆向匹配字符
  82. if ( $splen Dic_minLen ) { //当字符长度大于词典中最小字符长度时
  83. if ( $j == 1 ) { //当长度为 1 时
  84. $Split_Result[] = substr( $str, 0, 2 );
  85. } else {
  86. $w = trim( substr( $str, 0, $this->Dic_minLen + 1 ) ); //截取前四个字符
  87. if ( $this->IsWord( $w ) ) { //判断词典中是否存在该字符
  88. $Split_Result[] = $w; //存在,则写入数组存储
  89. } else {
  90. $Split_Result[] = substr( $str, 2, 2 ); //逆向存储
  91. $Split_Result[] = substr( $str, 0, 2 );
  92. }
  93. }
  94. $j = -1; //关闭循环;
  95. break;
  96. }
  97. if ( $j >= $this->Dic_maxLen ) $max_len = $this->Dic_maxLen; //当字符长度大于词典最大词的长度时,赋值最大限制长度
  98. else $max_len = $j;
  99. for ( $k = $max_len; $k >= 0; $k = $k - 2 ) { //一次跳动为一个中文字符
  100. $w = trim( substr( $str, $j - $k, $k + 1 ) );
  101. if ( $this->IsWord( $w ) ) {
  102. $Split_Result[] = $w; //保存该词
  103. $j = $j - $k - 1; //位置移动到已匹配的字符的位置
  104. break; //分词成功即跳出当前循环,进入下一循环
  105. }
  106. }
  107. }
  108. $retStr = $this->resetWord( $Split_Result ); //重组字符串,并返回处理好的字符串
  109. $this->clear( $Split_Result ); //释放内存
  110. return $retStr;
  111. }
  112. /**
  113. * 重新识别并组合分词
  114. * @param $Split_Result 重组目标字符串
  115. * @return $ret_Str 重组字符串
  116. */
  117. public function resetWord( $Split_Result ) {
  118. if ( trim( $Split_Result[0] ) == '' ) return;
  119. $Len = count( $Split_Result ) - 1;
  120. $ret_Str = '';
  121. $spc = $this->Split_char;
  122. for ( $i = $Len; $i >= 0; $i-- ) {
  123. if ( trim( $Split_Result[$i] ) != '' ) {
  124. $Split_Result[$i] = iconv( 'GBK', 'utf-8', $Split_Result[$i] );
  125. $ret_Str .= $spc.$Split_Result[$i].' ';
  126. }
  127. }
  128. //$ret_Str = preg_replace('/^'.$spc.'/','、',$ret_Str);
  129. $ret_Str = iconv('utf-8','GBK',$ret_Str);
  130. return $ret_Str;
  131. }
  132. /**
  133. * 检查词典中是否存在某个词
  134. * @param $okWord 检查的词
  135. * @return bool;
  136. */
  137. public function IsWord( $okWord ) {
  138. $len = strlen( $okWord );
  139. if ( $len > $this->Dic_maxLen + 1 ) return false;
  140. else { //根据二维数组索引匹配,是否存在该词
  141. return isset($this->Rec_dic[$len][$okWord]);
  142. }
  143. }
  144. /**
  145. * 初步处理字符串(以空格来替换特殊字符)
  146. * @param $str 要处理的源字符串
  147. * @return $okStr 返回预处理好的字符串
  148. */
  149. public function DealStr( $str ) {
  150. $spc = $this->Split_char; //拷贝分隔符
  151. $slen = strlen( $str ); //计算字符的长度
  152. if ( $slen == 0 ) return; //如果字符长度为0,直接返回
  153. $okstr = ''; //初始化变量
  154. $prechar = 0; //字符判断变量(0-空白,1-英文,2-中文,3-符号)
  155. for ( $i = 0; $i $str_ord = ord( $str[$i] );
  156. if ( $str_ord if ( $str_ord if ( $str[$i] != '\r' && $str[$i] != '\n' )
  157. $okstr .= $spc;
  158. $prechar = 0;
  159. continue;
  160. } else if ( ereg('[@\.%#:\^\&_-]',$str[$i]) ) { //如果关键字的字符是数字或英文或特殊字符
  161. if ( $prechar == 0 ) { //当字符为空白符时
  162. $okstr .= $str[$i];
  163. $prechar = 3;
  164. } else {
  165. $okstr .= $spc.$str[$i]; //字符不为空白符时,在字符前串上空白符
  166. $prechar = 3;
  167. }
  168. } else if ( ereg('[0-9a-zA-Z]', $str[$i]) ) { //分割英文数字组合
  169. if ( (ereg('[0-9]',$str[$i-1]) && ereg('[a-zA-Z]',$str[$i]))
  170. || (ereg('[a-zA-Z]',$str[$i-1]) && ereg('[0-9]',$str[$i])) ) {
  171. $okstr .= $spc.$str[$i];
  172. } else {
  173. $okstr .= $str[$i];
  174. }
  175. }
  176. } else { //如果关键字的第二个字符是汉字
  177. if ( $prechar != 0 && $prechar != 2 ) //如果上一个字符为非中文和非空格,则加一个空格
  178. $okstr .= $spc;
  179. if ( isset( $str[$i+1] ) ) { //如果是中文字符
  180. $c = $str[$i].$str[$i+1]; //将两个字符串在一起,构成一个中文字
  181. $n = hexdec( bin2hex( $c ) ); //将ascii码转换成16进制,再转化为10进制
  182. if ( $n > 0xA13F && $n if ( $prechar != 0 ) $okstr .= $spc; //将中文标点替换为空
  183. //else $okstr .= $spc; //若前一个字符为空,则直接串上
  184. $prechar = 3;
  185. } else { //若不是中文标点
  186. $okstr .= $c;
  187. $prechar = 2;
  188. }
  189. $i++; // $i 再加 1 ,即使一次移动为一个中文字符
  190. }
  191. }
  192. }
  193. return $okstr;
  194. }
  195. /**
  196. * 释放内存
  197. * @param $data 暂存数据
  198. */
  199. public function clear( $data ) {
  200. unset( $data ); //删除暂存数据
  201. }
  202. }
  203. ?>
复制代码
基于RMM的简易中文分词


声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
您什么时候使用特质与PHP中的抽象类或接口?您什么时候使用特质与PHP中的抽象类或接口?Apr 10, 2025 am 09:39 AM

在PHP中,trait适用于需要方法复用但不适合使用继承的情况。1)trait允许在类中复用方法,避免多重继承复杂性。2)使用trait时需注意方法冲突,可通过insteadof和as关键字解决。3)应避免过度使用trait,保持其单一职责,以优化性能和提高代码可维护性。

什么是依赖性注入容器(DIC),为什么在PHP中使用一个?什么是依赖性注入容器(DIC),为什么在PHP中使用一个?Apr 10, 2025 am 09:38 AM

依赖注入容器(DIC)是一种管理和提供对象依赖关系的工具,用于PHP项目中。DIC的主要好处包括:1.解耦,使组件独立,代码易维护和测试;2.灵活性,易替换或修改依赖关系;3.可测试性,方便注入mock对象进行单元测试。

与常规PHP阵列相比,解释SPL SplfixedArray及其性能特征。与常规PHP阵列相比,解释SPL SplfixedArray及其性能特征。Apr 10, 2025 am 09:37 AM

SplFixedArray在PHP中是一种固定大小的数组,适用于需要高性能和低内存使用量的场景。1)它在创建时需指定大小,避免动态调整带来的开销。2)基于C语言数组,直接操作内存,访问速度快。3)适合大规模数据处理和内存敏感环境,但需谨慎使用,因其大小固定。

PHP如何安全地上载文件?PHP如何安全地上载文件?Apr 10, 2025 am 09:37 AM

PHP通过$\_FILES变量处理文件上传,确保安全性的方法包括:1.检查上传错误,2.验证文件类型和大小,3.防止文件覆盖,4.移动文件到永久存储位置。

什么是无效的合并操作员(??)和无效分配运算符(?? =)?什么是无效的合并操作员(??)和无效分配运算符(?? =)?Apr 10, 2025 am 09:33 AM

JavaScript中处理空值可以使用NullCoalescingOperator(??)和NullCoalescingAssignmentOperator(??=)。1.??返回第一个非null或非undefined的操作数。2.??=将变量赋值为右操作数的值,但前提是该变量为null或undefined。这些操作符简化了代码逻辑,提高了可读性和性能。

什么是内容安全策略(CSP)标头,为什么重要?什么是内容安全策略(CSP)标头,为什么重要?Apr 09, 2025 am 12:10 AM

CSP重要因为它能防范XSS攻击和限制资源加载,提升网站安全性。1.CSP是HTTP响应头的一部分,通过严格策略限制恶意行为。2.基本用法是只允许从同源加载资源。3.高级用法可设置更细粒度的策略,如允许特定域名加载脚本和样式。4.使用Content-Security-Policy-Report-Only头部可调试和优化CSP策略。

什么是HTTP请求方法(获取,发布,放置,删除等),何时应该使用?什么是HTTP请求方法(获取,发布,放置,删除等),何时应该使用?Apr 09, 2025 am 12:09 AM

HTTP请求方法包括GET、POST、PUT和DELETE,分别用于获取、提交、更新和删除资源。1.GET方法用于获取资源,适用于读取操作。2.POST方法用于提交数据,常用于创建新资源。3.PUT方法用于更新资源,适用于完整更新。4.DELETE方法用于删除资源,适用于删除操作。

什么是HTTP,为什么对Web应用程序至关重要?什么是HTTP,为什么对Web应用程序至关重要?Apr 09, 2025 am 12:08 AM

HTTPS是一种在HTTP基础上增加安全层的协议,主要通过加密数据保护用户隐私和数据安全。其工作原理包括TLS握手、证书验证和加密通信。实现HTTPS时需注意证书管理、性能影响和混合内容问题。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中