ホームページ >バックエンド開発 >PHPチュートリアル >PHPdig を使用して独自の Google [グラフィック チュートリアル] を作成する_PHP チュートリアル
一、什么是PHPdig?
PHPdig是国外非常流行的垂直搜索引擎产品(与其说是产品,不如说是一项区别于传统搜索引擎的搜索技术),采用PHP语言编写,利用了PHP程序运行的高效性,极大地提高了搜索反应速度,它可以像Google或者Baidu以及其它搜索引擎一样搜索互联网,搜索内容除了普通的网页外还包括txt, doc, xls, pdf等各式的文件,具有强大的内容搜索和文件解析功能。PHPdig同传统的搜索引擎一样,包含了以下三种最基本的技术:
1.Spider技术
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引技术
区别于传统搜索引擎,PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。
二、如何获得这PHPdig?
PHPdig是免费产品(需要保留版权),最新版本是 phpdig-1.8.9 为了避免Apache以及MYSQL的版本兼容性问题,建议采用较低级的版本,其网站地址是:http://www.phpdig.net ,下载地址是:http://www.phpdig.net/navigation.php?action=download 说明一下,我试用过phpdig-1.8.9版本,但出现了很多问题,改用PHPdig-1.8.8则问题较少。
三、具体步骤
1.获取产品
访问http://www.phpdig.net/navigation.php?action=download下载PHPdig-1.8.8至桌面,解压缩至Apache服务器html目录,一般路径为:D:\usr\www\html\,(如果你没有安装Apache服务器请事先安装,推荐使用Mappm-Server v1.1.9 Final,Mappm-Server 采用傻瓜式安装,一次搞定,方便调试和运行 PHP/CGI MySQL 程序)。
2.运行并配置PHPdig数据库
打开浏览器输入http://localhost/phpdig/按回车键,页面列出PHPdig的所有文件及包含文件夹,找一找发现没有默认首页文件(default,index),单击search.php文件出现错误提示:Unable to connect to database : Check the connection script。提示无法完成数据库连接,原来我们还没有完成PHPdig的数据库配置。返回进入admin目录找到install.php文件,单击运行,乍一看,全英文界面(说明一下,PHPdig目前所有版本均不支持中文界面),没有关系,如果你有过汉化经验不妨自己动手将其汉化,这里提供一份我自己汉化的cn-language.php文档的下载(请将其拷贝至locales目录下)。另外你还需修改includes目录下的config.php文件(语言修改)和style.css文件(字体修改和样式修改)。
进入install.php后系统要求我们输入PHPdig管理用户名和密码,默认情况下均为admin,进入后出现如下界面(汉化后):
(图1)
所需提供的信息有:
如果你是在本地测试,请输入默认情况下的服务器名称localhost(localhost是Mappm-Server下的默认务服务器名称,也就是mysql的默认服务器名称,Mappm-Server内置mysql数据库)数据库服务器端口默认为3126,可以不填,数据库sock协议默认为空,用户名默认为root(Mappm-Server默认用户名),密码是你在安装Mappm-Server时输入的用户密码,PHPdig数据库名称默认为phpdig,可任意修改,同时,你可以对数据库中的数据表加前缀,默认为空。
如果你要上传到与Internet相连的web服务器请向服务器提供商索要mysql服务器的名称或者IP地址以及数据库服务器端口、sock协议、用户名、密码等,数据库名称以及数据表前缀的设置同上。
至于右边的四个单选按钮,你可以视情况而定,初次使用(安装)选择默认的“建立数据库”
确认上述信息无误后单击安装按钮,如果连接数据库不成功会提示“不能连接数据库”的错误信息,如果数据库连接成功则会直接跳入管理页面如下图:
(图2)
3. 界面区域介绍
エリア 1 はテキスト入力エリアです。デフォルトのテキストは 3 行で、すべて http で始まります。ここにスパイダーされるサイトの Web サイトのアドレスが入力されていることが一目で分かります (一度にスパイダーするのは 1 つの Web サイトのみにすることをお勧めします)。時間)。
エリア 2 はスパイダー オプションです。検索の深さは、Web サイトをスパイダー処理するディレクトリの数を指します。ページあたりのリンク数は、特定の Web ページをクロールできる、その下にあるリンクされた Web ページの最大数を指します。 。デフォルトでは、これらはすべて 0 で、サイト全体がスパイダー化されることを意味します。
エリア 3 には、スパイダー化された Web サイト、キーワード、インデックス、スパイダー化されているサイト情報などのデータベースのステータス情報が表示されます。
エリア 4 は、スパイダーサイトの URL をリストするドロップダウン リスト ボックスで、サイトの 1 つを選択すると、エリア 5 でそれをクリアして更新できます。
エリア5は、エリア4で選択されたサイトの浄化と更新操作を提供するだけでなく、関連する統計情報の入り口とスパイダーの制御も提供します。
4. 特定のサイトに対してスパイダーを実行します
Tianji Software Channel のコンテンツに非常に興味がある場合は、Tianji Software のコンテンツを検索するための Google よりも専門的な検索エンジンを作成できます。あなたの検索エンジンは Google よりも包括的で深いものになります。スパイダー Tianji ソフトウェア チャネルのコンテンツを例として、Web サイトをスパイダーする方法を紹介します。
1) 図2のエリア1に http://soft.yesky.com と入力し、検索の深さとページごとのリンク数をデフォルトの0のままにします
2) スパイダーボタンをクリックすると、スパイダー情報ページにジャンプし、プログラムがサイト http://soft.yesky.com のコンテンツを自動的にスパイダー化し始めます。
注: スパイダー Web サイトのプロセスは非常に遅く、Web サイトのコンテンツが多すぎる場合、プロセスは数時間から 1 日かかることがありますが、システムのタイムアウトによるスクリプトの実行タイムアウトを心配する必要はありません。最大48時間に設定されています。このプロセス中に、スパイダー プログラムの実行を中断し、スパイダー プログラムを再起動して未完成の Web サイトを実行することもできます。このプロセス中にスパイダー実行ページを誤って閉じた場合、システムは実際にはスパイダーを停止せず、引き続きシステム リソースを消費することに注意してください。スパイダー ページを再度開き、[スパイダーの停止] リンクをクリックしてシステム リソースを解放できます。
(写真3)
5. PHPdigを使って検索します
一定期間が経過すると、スパイダー プログラムを実行した結果、http://soft.yesky.com Web サイト上の情報、主に他の Web サイトのタイトル情報、キーワード情報、ページ アドレス情報がサーバー データベースに取り込まれます。この時点で、search.php にアクセスすると検索できます。
(写真4)
表示する検索結果の数を選択でき、さらに、特定のサイトを検索することもできます。デフォルトでは、スパイダー化されたすべてのサイトが検索されます。
(写真5)
上の写真は「QQ2006」で検索した検索結果ページです。
6. 問題点
PHPdig の言語設定の問題、システムの単語分割の問題、MYSQL データベースの文字処理の問題により、PHPdig の中国語語彙の検索にはまだ多くの不確実な要素があります。これらは私たちによってさらに解決され、改善される必要があります。興味のある友人は、Tao Bar-PHPdig テーマ コミュニティにアクセスして議論してください。