Sphider + SCWS，打造完美PHP中文搜索引擎-php手册-PHP中文網

首頁

php教程

php手册

Sphider + SCWS，打造完美PHP中文搜索引擎

PHP中文网

Jun 06, 2016 pm 07:59 PM

php中文完美打造搜尋引擎

今日需要为几个网站做个全文搜索引擎，找了几个PHP开源项目，先试了一下Sphinx ，可惜是基于数据库的，相当于数据库搜索的扩展。Sphider还不错，不过中文的分词不行，基本只能靠空格和符号进行分词。想用luence的话只能用Java和.net了，没有php版的，因此只好尝试自己修改Sphider的分词了。还好找到了SCWS这个不错的中文分词系统，只需要把他的功能加入到Sphider里面就可以了。

先按照他们的安装文档部署好Sphider和SCWS，这里使用的SCWS-1.1.6，需要部署好PHP扩展，注意Linux下要修改词库的权限，否则分词会把所有汉字单独分开。Sphider这里使用的丁廷臣简体中文完美汉化版带蜘蛛搜索引擎。

两者部署无误后，修改Sphider，找到admin文件夹下的spider文件，首先在开始加入代码初始化分词程序

$cws = scws_new();  
$cws->set_charset(&#39;gbk&#39;);  
$cws->set_rule(&#39;/usr/local/scws/etc/rules.ini&#39;); //注意路径  
$cws->set_dict(&#39;/usr/local/scws/etc/dict.xdb&#39;);  
$cws->set_ignore(true);

注意这里使用的gbk，如果你的网页用的utf8编码，要把这里以及词典和规则文件的位置更改一下

在index_url函数中，把原有的英文分词替换掉，在$wordarray = unique_array(explode(" ", $data['content']));前面加上

$cws->send_text($data[&#39;content&#39;]);
$list = $cws->get_tops(1000, $xattr);
settype($list, &#39;array&#39;);
$wordarray=array();
$i=0;
// segment
foreach ($list as $tmp)
{		
    $wordarray[$i][1]=$tmp[&#39;word&#39;];
    $wordarray[$i][2]=$tmp[&#39;times&#39;];
    $i++;
}

删除

$wordarray = unique_array(explode(" ", $data[&#39;content&#39;]));

和

$wordarray = calc_weights ($wordarray, $title, $host, $path, $data[&#39;keywords&#39;]);

两个语句，因为Sphider原有的英文分词这里就完全没必要用了，这里可以自行对$wordarray进行限制和优化，这里我写的很简单。

修改完成后，爬虫就能正常对中文进行分词了，效果还不错，注意如果出现乱码注意网页或者辞典编码是utf8还是gb2312。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中