ホームページ >バックエンド開発 >PHPチュートリアル >検索エンジン テクノロジー コアの公開 (PHP バージョン)_PHP チュートリアル
Web 検索エンジンについて考えるとき、ほとんどの人は Yahoo を思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。しかし、Yahoo が現在ウェブ検索に使用しているテクノロジーは、同社が元々開発したものではありません。 2000 年 8 月、Yahoo はスタンフォード大学の学生によって設立されたベンチャー企業である Google (www.google.com) のテクノロジーを採用しました。その理由は非常に単純です。Google の検索エンジンは、Yahoo が以前に使用していた技術よりも、より速く、より正確に必要な情報を検索できるからです。
強力で効率的な検索エンジンやデータベースを短期間に自社で設計・開発することは、技術的にも資金的にもおそらく不可能でしょう。しかし、Yahoo は他人の技術を使っているのですから、他人の既成のものを利用することもできるのではないでしょうか。検索エンジンのウェブサイトはどうですか?
プログラミングのアイデアの分析
これは想像できます。クエリをシミュレートし、対応する形式で検索エンジンの Web サイトに検索コマンドを発行し、検索結果を返し、結果の HTML コードを分析し、冗長な文字とコードを取り除き、最後にそれらを私たちのウェブサイトのページ内で必要な形式。
このように、問題の鍵となるのは、正確な情報 (検索がより意味のあるものになるように)、高速 (検索結果を分析して表示するために余分な時間が必要なため)、および新世代の検索エンジン Google のさまざまな優れた機能により、検索結果が簡潔 (利便性が高い) (HTML ソース コードの分析とストリッピング) になっています。ここでは、PHP を使用して実装する方法を確認する例として選択します。 Google (www.google.com) のバックグラウンド検索、フロント デスクのパーソナライゼーションには、このプロセスが表示されます。
まずはGoogleのクエリコマンドの構造を見てみましょう。 www.google.com の Web サイトにアクセスし、クエリ バーに「abcd」と入力してクエリ ボタンをクリックすると、ブラウザのアドレス バーが「http://www.google.com/search?q=」に変わることがわかります。 abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr= を見ると、Google がクエリ パラメータを渡し、フォームの get メソッドを通じてクエリ コマンドを送信していることがわかります。 PHP の file() 関数を使用して、このクエリ プロセスをシミュレートできます。
File() 関数を理解する
構文: 配列ファイル(文字列ファイル名);
戻り値は配列であり、すべてのファイルが配列変数に読み込まれます。ここでのファイルはローカルまたはリモートにすることができ、リモート ファイルは使用されるプロトコルを示す必要があります。例: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr=")。このステートメントは、「abcd」という単語に対するクエリをシミュレートします。 Google は処理し、検索結果を行ごとの要素の形式で配列変数の結果に転送します。ここで読み取られるファイルはリモートであるため、プロトコル名「http://」が欠落することはできません。
ユーザーに検索文字を入力してもらいたい場合は、入力テキスト ボックスと送信ボタンを作成し、上記の検索文字「abcd」を変数に置き換えます。
; パラメーターなしの file://form、デフォルトの送信メソッドは get、それ自体に送信されます echo ; file://テキスト入力ボックスを構築します echo ; file://クエリ送信ボタンを構築します エコー ; if (isset(キーワード)) file://送信後、PHPは変数kwywordsを生成します。これには、送信後に次のプログラムを実行する必要があります { urlencode(keywords); file:// ユーザー入力を URL エンコードします result=file("http://www.google.com/search?q=". キーワード."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr="); file:// はクエリ ステートメントで変数置換を実行し、クエリ結果を配列変数 result に保存します result_string=join(" ", result); file://配列 $result を文字列に結合し、配列要素をスペースで結合します ... file://さらなる処理 } ?> |
結果文字列 = strstr(結果文字列, " "); file://result_string の後の文字列を最初の文字列から取得して、Google ヘッダーを削除します Position= strpos( result_string," テーブルシンボルの位置 result_string= substr(result_string,0,position);//最初の表記号の前の文字列をインターセプトして脚注を削除します |
} |
このようにして、リンク属性が変更され、他の多くの表示形式の変更、削除、置換は、通常の置換 eregi_replace() を使用して完了できます。 ここまでで各検索項目の各項目を取得し、各項目の書式を任意に変更したり、美しい表を載せたりすることができました。ただし、優れたプログラムはさまざまな動作環境に適応できる必要があり、ここでも例外ではありません。実際、これを完全に実行するには、HTML の検索結果を除去するためのフレームワーク方法についてのみ説明しました。検索結果の総数やページ数などを表示します。また、「カテゴリ」や「紹介文」などのGoogle関連のコードを削除して、元のWebサイトを閲覧できないようにすることもできます。全て。ただし、HTML を解析することで、これらのコンテンツと要件を抽出することができます。今では誰もが自分で行うことができ、高度にパーソナライズされた検索エンジンを構築できます。 |