ホームページ  >  記事  >  バックエンド開発  >  検索エンジン テクノロジー コアの公開 (PHP バージョン)_PHP チュートリアル

検索エンジン テクノロジー コアの公開 (PHP バージョン)_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-13 17:34:44685ブラウズ

Web 検索エンジンについて考えるとき、ほとんどの人は Yahoo を思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。しかし、Yahoo が現在ウェブ検索に使用しているテクノロジーは、同社が元々開発したものではありません。 2000 年 8 月、Yahoo はスタンフォード大学の学生によって設立されたベンチャー企業である Google (www.google.com) のテクノロジーを採用しました。その理由は非常に単純です。Google の検索エンジンは、Yahoo が以前に使用していた技術よりも、より速く、より正確に必要な情報を検索できるからです。

強力で効率的な検索エンジンやデータベースを短期間に自社で設計・開発することは、技術的にも資金的にもおそらく不可能でしょう。しかし、Yahoo は他人の技術を使っているのですから、他人の既成のものを利用することもできるのではないでしょうか。検索エンジンのウェブサイトはどうですか?

プログラミングのアイデアの分析

これは想像できます。クエリをシミュレートし、対応する形式で検索エンジンの Web サイトに検索コマンドを発行し、検索結果を返し、結果の HTML コードを分析し、冗長な文字とコードを取り除き、最後にそれらを私たちのウェブサイトのページ内で必要な形式。

このように、問題の鍵となるのは、正確な情報 (検索がより意味のあるものになるように)、高速 (検索結果を分析して表示するために余分な時間が必要なため)、および新世代の検索エンジン Google のさまざまな優れた機能により、検索結果が簡潔 (利便性が高い) (HTML ソース コードの分析とストリッピング) になっています。ここでは、PHP を使用して実装する方法を確認する例として選択します。 Google (www.google.com) のバックグラウンド検索、フロント デスクのパーソナライゼーションには、このプロセスが表示されます。

まずはGoogleのクエリコマンドの構造を見てみましょう。 www.google.com の Web サイトにアクセスし、クエリ バーに「abcd」と入力してクエリ ボタンをクリックすると、ブラウザのアドレス バーが「http://www.google.com/search?q=」に変わることがわかります。 abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr= を見ると、Google がクエリ パラメータを渡し、フォームの get メソッドを通じてクエリ コマンドを送信していることがわかります。 PHP の file() 関数を使用して、このクエリ プロセスをシミュレートできます。

File() 関数を理解する

構文: 配列ファイル(文字列ファイル名);
戻り値は配列であり、すべてのファイルが配列変数に読み込まれます。ここでのファイルはローカルまたはリモートにすることができ、リモート ファイルは使用されるプロトコルを示す必要があります。例: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr=")。このステートメントは、「abcd」という単語に対するクエリをシミュレートします。 Google は処理し、検索結果を行ごとの要素の形式で配列変数の結果に転送します。ここで読み取られるファイルはリモートであるため、プロトコル名「http://」が欠落することはできません。

ユーザーに検索文字を入力してもらいたい場合は、入力テキスト ボックスと送信ボタンを作成し、上記の検索文字「abcd」を変数に置き換えます。


エコー
上記のプログラムは、ユーザー入力に基づいてクエリを実行し、返された結果を文字列変数 $result_string に合成することができます。入力された漢字、スペース、その他の特殊文字を正常にクエリできるように、urlencode() 関数を使用してユーザー入力を URL エンコードする必要があることに注意してください。これにより、Google のクエリ コマンドが可能な限り現実的にシミュレートされ、検索が確実になります。結果は正確です。

Googleの分析

理解しやすくするために、本当に必要なのは検索結果のタイトルであると仮定しましょう。 URLや紹介文など。これはシンプルかつ典型的な要件です。このようにして、Google ロゴ、再検索用の入力ボックス、検索結果の説明などを含む Google 検索結果のヘッダーとフッターを削除し、残りの検索結果から元の HTML を削除するだけです。項目のフォーマットタグを希望のフォーマットに置き換えます。

これを行うには、Google 検索結果の HTML ソース コードを注意深く分析し、パターンを見つける必要があります。 Google の検索結果のテキストが常に最初にソースコードに含まれていることを見つけるのは難しくありません

マークと最後から2番目

マーカーの間と最後から 2 番目

マークの後に表の文字が続き、この組み合わせ「

以下のすべての手順は、上記の手順の「さらなる処理」で継続されます。

; パラメーターなしの file://form、デフォルトの送信メソッドは get、それ自体に送信されます
echo ; file://テキスト入力ボックスを構築します
echo ; file://クエリ送信ボタンを構築します
エコー
;

if (isset(キーワード)) file://送信後、PHPは変数kwywordsを生成します。これには、送信後に次のプログラムを実行する必要があります
{
urlencode(keywords); file:// ユーザー入力を URL エンコードします
result=file("http://www.google.com/search?q=". キーワード."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr="); file:// はクエリ ステートメントで変数置換を実行し、クエリ結果を配列変数 result に保存します
result_string=join(" ", result); file://配列 $result を文字列に結合し、配列要素をスペースで結合します
... file://さらなる処理
}
?>

結果文字列 = strstr(結果文字列, " ");
file://result_string の後の文字列を最初の文字列から取得して、Google ヘッダーを削除します
Position= strpos( result_string," テーブルシンボルの位置
result_string= substr(result_string,0,position);//最初の表記号の前の文字列をインターセプトして脚注を削除します

アプリケーションと実装

HTML ソース コードの有用なバックボーンができたので、残りの問題は、このコンテンツを自律的に表示する方法です。これらの検索結果エントリを再度分析して、各エントリが非常に規則的に区切られていること、つまり、各エントリが段落であることを確認してください。この機能に従って、explode() 関数を使用して各エントリを切り取ります。
構文:explode(文字列区切り文字, 文字列文字列);
配列を返し、セパレータで区切られた各小さな文字列が配列に保存されます。

それで:



result_array=explode(" ", result_string); file://文字列 " " を使用して結果を分割します 配列 result_array を取得します。その各要素は検索結果エントリです。私たちがしなければならないのは、各エントリとその HTML 表示形式コードを調べて、必要に応じて置き換えるだけです。以下では、ループを使用して result_array 内の各エントリを処理します。



for( i=0; i { ... file:// が各エントリを処理します 各エントリについて、いくつかの特徴を簡単に見つけることができます。各エントリはタイトル、要約、紹介、カテゴリ、URL などで構成されており、各部分は改行されています。つまり、
}

が含まれています。 マーク、もう一度分割します: (次のハンドラーが上のループに配置されます)



every_item=explode(" ", result_array[i]); このようにして、配列every_itemを取得します。ここで、every_item[0]はタイトル、every_item[3]、every_item[4]などのヘッダーの場合、every_item[1]とevery_item[2]は2行の概要です。 " Introduction:"、" Category: " という文字が含まれており、ヘッダーに " が含まれている場合、これは紹介またはカテゴリです (一部の結果エントリにはこの項目がないため)。 < font color=green >"、それは間違いなく URL です。このような比較や判断には正規表現 (省略) をよく使います。置き換えたい場合にも非常に便利です。例えば $every_item[タイトルを含む 0] 自体にリンクがあります。このリンク属性を変更して、新しいウィンドウでリンクが開くようにしたいと思います。



echo eregi_replace( { ... file:// は、最初の項目を除く各エントリのすべての項目を処理します (最初の項目はタイトルであり、すでに表示されています) ... file://その他の形式の変更 }




このようにして、リンク属性が変更され、他の多くの表示形式の変更、削除、置換は、通常の置換 eregi_replace() を使用して完了できます。

ここまでで各検索項目の各項目を取得し、各項目の書式を任意に変更したり、美しい表を載せたりすることができました。ただし、優れたプログラムはさまざまな動作環境に適応できる必要があり、ここでも例外ではありません。実際、これを完全に実行するには、HTML の検索結果を除去するためのフレームワーク方法についてのみ説明しました。検索結果の総数やページ数などを表示します。また、「カテゴリ」や「紹介文」などのGoogle関連のコードを削除して、元のWebサイトを閲覧できないようにすることもできます。全て。ただし、HTML を解析することで、これらのコンテンツと要件を抽出することができます。今では誰もが自分で行うことができ、高度にパーソナライズされた検索エンジンを構築できます。

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/508465.html技術記事 Web 検索エンジンについて考えるとき、ほとんどの人は Yahoo を思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。しかし、Yahoo が現在ウェブ検索に使用しているテクノロジーは、本来あるべきものではありません...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。