ホームページ  >  記事  >  バックエンド開発  >  PHP チュートリアル.アプリケーション例 15_PHP チュートリアル

PHP チュートリアル.アプリケーション例 15_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-13 16:54:05806ブラウズ

Linux ベースの検索エンジンの実装
検索エンジンは、ユーザーに Web ページ情報への迅速なアクセスを提供するツールです。その主な機能は、システムがユーザーのキーワード入力を通じてバックエンド Web ページ データベースを検索し、リンクと概要をフィードバックすることです。関連する Web ページの情報をユーザーに提供します。検索範囲から、サイト Web 検索とグローバル Web 検索に大別されます。 Web ページの数が急速に増加するにつれて、検索エンジンはインターネット上の情報を照会するために必要な手段となり、すべての大規模な Web サイトが Web ページ データ検索サービスを提供しており、大規模な Web サイト向けに専門的な検索エンジン サービスを提供する多くの企業が登場しています。 、Yahooなどのサービスを提供するGoogleや、Sinaや263などの国内Webサイトのサービスを提供するBaiduなど。専門的な検索サービスは高価であり、無料の検索エンジン ソフトウェアは基本的に英語検索に基づいているため、イントラネット環境 (キャンパス ネットワークなど) のニーズには適していません。
検索エンジンの基本コンポーネントは、通常、Web ページ収集プログラム、Web ページのバックエンド データの編成とストレージ、Web ページ データの取得の 3 つの部分に分かれています。検索エンジンの品質を決定する重要な要素は、データ クエリの応答時間、つまり、全文検索のニーズを満たすために大量の Web ページ データを編成する方法です。
GNU/Linux は、Web サーバー (Apache + PHP)、ディレクトリ サーバー (OpenLDAP)、スクリプト言語 (Perl)、Web ページ収集プログラムなどの多数のネットワーク アプリケーション ソフトウェアを統合した優れたネットワーク オペレーティング システムです。 (ウィゲット)待ってください。したがって、これらを組み合わせて適用することで、シンプルかつ効率的な検索エンジンサーバーを実現できます。
1. 基本的な構成と使用方法
1. Web ページのデータ収集
Wget プログラムは、Web ページのコンテンツをローカル ディレクトリに簡単にミラーリングするための優れた Web ページ収集プログラムです。収集された Web ページ、再帰的収集レベル、ディレクトリ クォータ、収集時間など。 Web ページの収集は専用の収集プログラムを通じて完了するため、デザインの難易度が軽減されるだけでなく、システムのパフォーマンスも向上します。ローカル データのサイズを減らすために、グラフィック ファイルやその他のデータ ファイルは収集せず、クエリ可能な html ファイル、txt ファイル、スクリプト プログラム asp および php のみを収集し、デフォルトの結果のみを使用できます。
2. Web ページデータのフィルタリング
HTML ファイルには

などのタグが多数あるため、これらのタグ付けされたデータには実際の検索値がないため、収集されたデータをフィルタリングする必要がありますデータベースに追加する前に。広く使用されているスクリプト言語として、Perl には、Web ページのフィルタリングを簡単に完了できる非常に強力で豊富なプログラム ライブラリがあります。 HTML-Parserライブラリを利用すると、Webページに含まれるテキストデータ、タイトルデータ、リンクデータなどを簡単に抽出できます。このライブラリは www.cpan.net からダウンロードできます。このサイトの Perl プログラムのコレクションは、私たちの範囲をはるかに超えた幅広いトピックをカバーしています。
3. ディレクトリ サービス
ディレクトリ サービスは、大量のデータを取得するために開発されたサービスで、X.500 プロトコル セットで最初に登場し、後に TCP/IP に拡張され、LDAP (Lightweight Directory Access Protocol) プロトコルに発展しました。関連する規格としては、1995年に策定されたRFC1777、1997年に策定されたRFC2251があります。 LDAP プロトコルは、Sun、Lotus、Microsoft およびその他の企業の関連製品で業界標準として広く使用されていますが、Windows プラットフォームに基づいた専用のディレクトリ サーバーが Unix システム上で動作することはまれです。優れたパフォーマンスを備え、多くの Linux ディストリビューション (Redhat、Mandrake など) に収録されており、C、Perl、PHP などの開発インターフェイスを提供します。

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/631823.html技術記事 Linux ベースの検索エンジンの実装 検索エンジンは、ユーザーが Web ページの情報を迅速に取得するためのツールです。その主な機能は、システムがユーザーの入力キーワードを通じてバックエンド Web ページのデータベースを取得することです。
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。