求2句文字的同异词组分词(求算法思路)
语句1 “CSDN论坛是一个非常不错的论坛”
语句2 “CSDN是一个不错的坛子”
求同异后为以下结果
CSDN=>2
论坛=>2
是一个=>2
非常=>1
不错的=>2
坛子=>1
------解决方案--------------------
$a = 'CSDN论坛是一个非常不错的论坛';$b = 'CSDN是一个不错的坛子';print_r(sunday($a, $b));function sunday($a, $b) { //检查传入串的字符集 mb_internal_encoding( mb_check_encoding($a, 'utf-8') ? 'utf-8' : 'gbk' ); //将传入串拆分成数组,主要是为了下面打代码书写起来方便点 $t = array(); for($i=0; $i<mb_strlen($a); $i ) $t[] = mb_substr($a, $i, 1); $a = $t; $t = array(); for($i=0; $i<mb_strlen($b); $i ) $t[] = mb_substr($b, $i, 1); $b = $t; $r = array(); $loop = 1; do { $i = 0; $buf = ''; while($i < count($a)) { $n = $i; $k = 0; //计算匹配的长度 for($j=0; $j<count($b); $j ) { if($a[$n] == $b[$j]) { $k = 1; $n ; if($n >= count($a)) break; }elseif($k) break; } //检查匹配的情况 if($n - $i > 1) { if($buf) { $r[] = $buf; $buf = ''; } $r[] = join('',array_slice($a, $i, $n-$i)); $i = $n; }else $buf .= $a[$i ]; } if($buf) $r[] = $buf; list($b, $a) = array($a, $b); //交换两组数据,再来一遍 }while($loop--); return array_count_values($r);}<div class="clear"></div>