検索エンジンのコアテクノロジー_phpの基本-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

検索エンジンのコアテクノロジー_phpの基本

微波

Jun 28, 2017 pm 03:37 PM

phpベース検索エンジン

ウェブ検索エンジンというと、ほとんどの人は Yahoo を思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。ただし、Yahoo が現在 Web 検索に使用しているテクノロジーは、もともと同社が開発したものではありません。 2000 年 8 月、Yahoo はスタンフォード大学の学生によって設立されたベンチャー企業である Google (www.google.com) のテクノロジーを採用しました。その理由は非常に単純です。Google の検索エンジンは、Yahoo が以前に使用していた技術よりも、より速く、より正確に必要な情報を検索できるからです。

強力で効率的な検索エンジンやデータベースを短期間に自分たちで設計・開発することは、技術的にも資金的にもおそらく不可能ですが、Yahooが他人の技術を使っているのですから、私たちもそれを使うことはできるでしょうか？他の人の既製の検索エンジン Web サイトについてはどうですか?

プログラミングのアイデアの分析

私たちは次のように想像できます: クエリをシミュレートし、対応する形式で検索エンジンの Web サイトに検索コマンドを発行し、検索結果を返し、結果の HTML コードを分析し、冗長な部分を削除します。最終的には、必要な形式で当社 Web サイトのページに表示されます。

このように、問題の鍵は、(検索がより意味のあるものになるように) 正確で、(検索結果を分析して表示するのに余分な時間がかかるため) 高速な検索情報を選択する必要があるということです。、新世代の検索エンジンである Google のさまざまな優れた機能により、検索結果は簡潔 (HTML ソースコードの分析やストリッピングに便利) な検索 Web サイトです。ここでは、PHP を使用してバックグラウンドを実装する方法を確認する例として選択します。 Google (www.google.com) 検索およびフロントエンドのパーソナライズされた表示プロセスの処理。

まずはGoogleのクエリコマンドの構造を見てみましょう。 www.google.com の Web サイトにアクセスし、クエリバーに「abcd」と入力してクエリボタンをクリックすると、ブラウザのアドレスバーが「http://www.google.com/search?q=」に変わることがわかります。 abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr= を見ると、Google がクエリパラメータを渡し、フォームの get メソッドを通じてクエリコマンドを送信していることがわかります。 PHP の file() 関数を使用して、このクエリプロセスをシミュレートできます。

File()関数を理解する

構文: array file(string filename);

戻り値は配列であり、すべてのファイルが配列変数に読み込まれます。ここのファイルはローカルまたはリモートにすることができます。リモートファイルは使用するプロトコルを指定する必要があります。例: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr=")。このステートメントは、「abcd」という単語に対するクエリをシミュレートします。 Google は処理し、検索結果を行ごとの要素の形式で配列変数の結果に転送します。ここで読み取られるファイルはリモートであるため、プロトコル名「http://」が欠落することはできません。

任意の検索でユーザーに検索文字を入力してもらいたい場合は、入力テキストボックスと送信ボタンを作成し、上記の検索文字「abcd」を変数に置き換えます。
echo '

echo '' //テキスト入力ボックスを構築します
echo ''; // クエリ送信ボタンを作成します
echo '';

if (isset(Keywords)) // 送信後に PHP が変数を生成しますkkywords では、送信後に次のプログラムを実行する必要があります
{
urlencode(keywords) //ユーザー入力コンテンツを URL エンコードします
result=file("http://www.google.com/search?q=".キーワード."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");
//クエリステートメント内の変数を置換し、クエリ結果を配列変数に保存します。 result
result_string=join(" ", result ); //配列$resultをstringに結合し、各配列要素の間にスペースを貼り付けます
... //さらなる処理
}
?>

上記のプログラムはユーザー入力クエリに従ってすでに入力できますコンテンツを取得し、返された結果を文字列変数 $result_string に合成します。ユーザー入力を URL エンコードするには、urlencode() 関数を使用する必要があることに注意してください。これにより、入力された中国語の文字、スペース、その他の特殊文字を通常どおりにクエリできるようになります。これにより、Google のクエリコマンドも可能な限り現実的にシミュレートされます。検索結果の正確性を確保します。

Googleの分析

理解を容易にするために、本当に必要なのは検索結果のタイトルであると仮定しましょう。 URLや紹介文など。これはシンプルかつ典型的な要件です。このようにして、Google ロゴ、再検索用の入力ボックス、検索結果の説明などを含む Google 検索結果のヘッダーとフッターを削除し、残りの検索結果から元の HTML を削除するだけです。項目のフォーマットタグを希望のフォーマットに置き換えます。

これを行うには、Google 検索結果の HTML ソースコードを注意深く分析し、パターンを見つける必要があります。 Google 検索結果のテキストが常にソースコードの最初の

タグと最後から 2 番目の

タグの間に含まれていることを見つけるのは難しくありません。この機能を使用すると、この方法で Google のヘッダーと脚注を削除できます。

以下のすべての手順は、上記の手順の「さらなる処理」セクションで継続されます。

result_string = strstr( result_string, "

"); //最初の

から始まる result_string 以降の文字列を取得します
position= strpos( result_string,"

result_string=substr(result_string,0,position);//最初の

tableシンボルの前の文字列をインターセプトして脚注を削除します

アプリケーションと実装

OK、これで便利なHTML ソースコードで、残りの問題は、このコンテンツを自律的に表示する方法です。これらの検索結果エントリを分析すると、各エントリも
で区切られていることがわかります。つまり、この特徴に従って、各エントリが段落に分割されています。各項目を分割するには、explode() 関数を使用します:

構文:explode(string separator, string string);

配列を返し、セパレータで分割されたそれぞれの小さな文字列が配列に保存されます:
result_array =explode("

", result_string); //文字列 "

" を使用して結果を切り取ります

各要素が検索結果の項目である配列を取得します。次に、各項目とその HTML 表示形式コードを調べて、必要に応じて置き換えます。次に、ループを使用して、result_array 内の各項目を処理します。エントリ
}

各エントリについて、いくつかの特徴も簡単に見つけることができます。各エントリはタイトル、要約、紹介、カテゴリ、URL などで構成されており、各部分は改行されています。つまり、
every_item=explode("
", result_array[ i]); このようにして、配列every_itemを取得します。 Every_item[0] はタイトル、every_item[1] と Every_item[2] は 2 行の概要です。ただし、every_item[3] と Every_item[4] などのヘッダーに「"、"カテゴリ:" の文字は紹介またはカテゴリです (一部の結果エントリにはこの項目がないため)、 if ヘッダーに「」が含まれている場合、それは URL である必要があります。この種の比較には
正規表現
を使用することがよくあります。(省略) などの場合にも非常に便利です。タイトルを含む $every_item[0] 自体にリンクがあるため、リンクを新しいウィンドウで開くようにこのリンク属性を変更します。
echo eregi_replace(' {
... // それぞれを処理します)最初の項目を削除するエントリ (最初の項目は title 、既に表示されている各項目です)
... //その他の形式の変更
} これにより、リンク属性、およびその他の多くの表示形式の変更、削除、置換が変更されます通常の置換 eregi_replace() を使用して完了できます。

この時点で、各検索項目の各項目を取得できており、各項目の形式を自由に変更したり、美しい表を載せたりすることもできます。ただし、優れたプログラムはさまざまな動作環境に適応できる必要があり、ここでも例外ではありません。実際、これを完全に実行するには、HTML の検索結果を除去するためのフレームワーク方法についてのみ説明しました。検索結果の総数やページ数などを表示します。また、「カテゴリ」や「紹介文」などのGoogle関連のコードを削除して、元のWebサイトを閲覧できないようにすることもできます。全て。ただし、HTML を解析することで、これらのコンテンツと要件を抽出することができます。今では誰もが自分で行うことができ、高度にパーソナライズされた検索エンジンを構築できます。

以上が検索エンジンのコアテクノロジー_phpの基本の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPおよびPython：さまざまなパラダイムが説明されていますApr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング（OOP）もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPython：彼らの歴史を深く掘り下げますApr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

PHPとPythonの選択：ガイドApr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとフレームワーク：言語の近代化Apr 18, 2025 am 12:14 AM

PHPは、多数のWebサイトとアプリケーションをサポートし、フレームワークを通じて開発ニーズに適応するため、近代化プロセスで依然として重要です。 1.PHP7はパフォーマンスを向上させ、新機能を紹介します。 2。Laravel、Symfony、Codeigniterなどの最新のフレームワークは、開発を簡素化し、コードの品質を向上させます。 3.パフォーマンスの最適化とベストプラクティスは、アプリケーションの効率をさらに改善します。

PHPの影響：Web開発などApr 18, 2025 am 12:10 AM

phphassiblasifly-impactedwebdevevermentandsbeyondit.1）itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2）php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3）

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか？Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1）スカラータイプのヒント：php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3）ユニオンタイプのプロンプト：PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4）Nullable Typeプロンプト：null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPは、オブジェクトのクローニング（クローンキーワード）と__Clone Magicメソッドをどのように処理しますか？Apr 17, 2025 am 12:24 AM

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHP対Python：ユースケースとアプリケーションApr 17, 2025 am 12:23 AM

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。