搜尋
首頁php教程php手册RMM分词算法 PHP实现

?php //RMM分词算法 class SplitWord{ var $TagDic = Array(); var $RankDic = Array(); var $SourceStr = ''; var $ResultStr = ''; var $SplitChar = ' '; //分隔符 var $SplitLen = 4; //保留词长度 var $MaxLen = 7; //词典最大中文字,这里的数值为字节

//RMM分词算法
class SplitWord{
 var $TagDic = Array();
 var $RankDic = Array();
 var $SourceStr = '';
 var $ResultStr = '';
 var $SplitChar = ' '; //分隔符
 var $SplitLen = 4;  //保留词长度
 var $MaxLen = 7;  //词典最大中文字,这里的数值为字节数组的最大索引
 var $MinLen = 3;  //最小中文字,这里的数值为字节数组的最大索引

  function SplitWord(){
   $this->__construct();
  }
 
  function __construct(){      
   //高级分词,预先载入词典以提分词高速度
   $dicfile = dirname(__FILE__)."/ppldic.csv";
   $fp = fopen($dicfile,'r');   //读取词库中的词
   while($line = fgets($fp,256)){
      $ws = explode(' ',$line);  //对词库中的词进行拆分
      $this->TagDic[$ws[0]] = $ws[1];
      $this->RankDic[strlen($ws[0])][$ws[0]] = $ws[2]; //??
   }
   fclose($fp);  //关闭词库文件
  }
 
  //释放资源
 function Clear(){
   @fclose($this->QuickDic);
  }
 
  //设置源字符串
  function SetSource($str){
   $this->SourceStr = $this->UpdateStr($str);
   $this->ResultStr = "";
  }
 
  //检查字符串是否不存在中文
  function NotGBK($str)
  {
    if($str=="") return "";
   if( ord($str[0])>0x80 ) return false;
   else return true;
  }

  //RMM分词算法
  function SplitRMM($str=""){
   if($str!="") $this->SetSource($str);
   if($this->SourceStr=="") return "";
   $this->SourceStr = $this->UpdateStr($this->SourceStr);
   $spwords = explode(" ",$this->SourceStr);
   $spLen = count($spwords);
   $spc = $this->SplitChar;
   for($i=($spLen-1);$i>=0;$i--){
    if($spwords[$i]=="") continue;
    if($this->NotGBK($spwords[$i])){
     if(ereg("[^0-9\.\+\-]",$spwords[$i]))
     { $this->ResultStr = $spwords[$i].$spc.$this->ResultStr; }
     else
     {
      $nextword = "";
      @$nextword = substr($this->ResultStr,0,strpos($this->ResultStr,""));
     }
    }
    else
    {
      $c = $spwords[$i][0].$spwords[$i][1];
      $n = hexdec(bin2hex($c));
       if(strlen($spwords[$i]) SplitLen)
       {
       }
       else
       {
        $this->ResultStr = $this->RunRMM($spwords[$i]).$spc.$this->ResultStr;
       }
     }
   }
   return $this->ResultStr;
  }
  //对全中文字符串进行逆向匹配方式分解
  function RunRMM($str){
   $spc = $this->SplitChar;
   $spLen = strlen($str);
   $rsStr = "";
   $okWord = "";
   $tmpWord = "";
   $WordArray = Array();
   //逆向字典匹配
   for($i=($spLen-1);$i>=0;){
    //当i达到最小可能词的时候
    if($iMinLen){
     if($i==1){
       $WordArray[] = substr($str,0,2);
      }else
     {
        $w = substr($str,0,$this->MinLen+1);
        if($this->IsWord($w)){
         $WordArray[] = $w;                                                                                 
        }else{
         $WordArray[] = substr($str,2,2);
         $WordArray[] = substr($str,0,2);
        }
      }
     $i = -1; break;
    }
    //分析在最小词以上时的情况
    if($i>=$this->MaxLen) $maxPos = $this->MaxLen;
    else $maxPos = $i;
    $isMatch = false;
    for($j=$maxPos;$j>=0;$j=$j-2){
      $w = substr($str,$i-$j,$j+1);
      if($this->IsWord($w)){
       $WordArray[] = $w;
       $i = $i-$j-1;
       $isMatch = true;
       break;
      }
    }
   }
   $rsStr = $this->otherword($WordArray);
   return $rsStr;
  }
 
function otherword($WordArray){
   $wlen = count($WordArray)-1;      //计算数组的元素个数
   $rsStr = "";          //初始化变量
   $spc = $this->SplitChar;
   for($i=$wlen;$i>=0;$i--)
   {
   $rsStr .= $spc.$WordArray[$i]."、";   //将数组为顿号进行拆分
   }
   //返回本段分词结果
  $rsStr = preg_replace("/^".$spc."/","、",$rsStr);
   return $rsStr;
  }
 
  //判断词典里是否存在某个词
  function IsWord($okWord){
   $slen = strlen($okWord);
   if($slen > $this->MaxLen) return false;
   else return isset($this->RankDic[$slen][$okWord]);
  }
 
  //整理字符串(对标点符号,中英文混排等初步处理)
  function UpdateStr($str){
   $spc = $this->SplitChar;
    $slen = strlen($str);
    if($slen==0) return '';
    $okstr = '';
    $prechar = 0; // 0-空白 1-英文 2-中文 3-符号
    for($i=0;$i      if(ord($str[$i])         //英文的空白符号
        if(ord($str[$i])           if($prechar!=0&&$str[$i]!="\r"&&$str[$i]!="\n") $okstr .= $spc;
          $prechar=0;
          continue;
        }else if(ereg("[^0-9a-zA-Z@\.%#:/\\&_-]",$str[$i])){
          if($prechar==0){ $okstr .= $str[$i]; $prechar=3;}
          else{ $okstr .= $spc.$str[$i]; $prechar=3;}
        }else{
         if($prechar==2||$prechar==3)
         { $okstr .= $spc.$str[$i]; $prechar=1;}
         else
         {
           if(ereg("@#%:",$str[$i])){ $okstr .= $str[$i]; $prechar=3; }
           else { $okstr .= $str[$i]; $prechar=1; }
         }
        }
      }
      else{
        //如果上一个字符为非中文和非空格,则加一个空格
        if($prechar!=0 && $prechar!=2) $okstr .= $spc;
        //如果中文字符
        if(isset($str[$i+1])){
          $c = $str[$i].$str[$i+1];
         
          $n = hexdec(bin2hex($c));
          if($n 0xAA40){
             if($prechar!=0) $okstr .= $spc.$c;
             else $okstr .= $c;
             $prechar = 3;
            }
          else{
            $okstr .= $c;
            $prechar = 2;
          }
          $i++;
        }
      }
    }
    return $okstr;
  }
}
?>

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。