検索エンジンのコア技術 (PHP プログラミングのアイデア) --[1]_PHP チュートリアル
Web 検索エンジンについて考えるとき、ほとんどの人は Yahoo を思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。ただし、Yahoo が現在 Web 検索に使用しているテクノロジーは、もともと同社が開発したものではありません。 2000 年 8 月、Yahoo はスタンフォード大学の学生によって設立されたベンチャー企業である Google (www.google.com) のテクノロジーを採用しました。その理由は非常に単純です。Google の検索エンジンは、Yahoo が以前に使用していた技術よりも、より速く、より正確に必要な情報を検索できるからです。
強力で効率的な検索エンジンやデータベースを短期間に自社で設計・開発することは、技術的にも資金的にもおそらく不可能でしょう。しかし、Yahoo は他人の技術を利用しているのですから、他人の既成のものを利用することもできるでしょうか。検索エンジンのウェブサイトはどうですか?
プログラミングのアイデアを分析する
これは想像できます。クエリをシミュレートし、対応する形式で検索エンジンの Web サイトに検索コマンドを発行し、検索結果を返し、結果の HTML コードを分析し、冗長な文字とコードを取り除き、最後にそれらを私たちのウェブサイトのページ内で必要な形式。
このように、問題の鍵となるのは、正確な情報 (検索がより意味のあるものになるように)、高速 (検索結果を分析して表示するために余分な時間が必要なため)、および新世代の検索エンジン Google のさまざまな優れた機能により、検索結果が簡潔 (利便性が高い) (HTML ソース コードの分析とストリッピング) になっています。ここでは、PHP を使用して実装する方法を確認する例として選択します。 Google (www.google.com) のバックグラウンド検索、フロント デスクのパーソナライゼーションには、このプロセスが表示されます。
まずはGoogleのクエリコマンドの構造を見てみましょう。 www.google.com の Web サイトにアクセスし、クエリ バーに「abcd」と入力してクエリ ボタンをクリックすると、ブラウザのアドレス バーが「http://www.google.com/search?q=」に変わることがわかります。 abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr= を見ると、Google がクエリ パラメータを渡し、フォームの get メソッドを通じてクエリ コマンドを送信していることがわかります。 PHP の file() 関数を使用して、このクエリ プロセスをシミュレートできます。
File() 関数について学びましょう
構文: 配列ファイル(文字列ファイル名);
戻り値は配列であり、すべてのファイルが配列変数に読み込まれます。ここでのファイルはローカルまたはリモートにすることができ、リモート ファイルは使用されるプロトコルを示す必要があります。例: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr=")。このステートメントは、「abcd」という単語に対するクエリをシミュレートします。 Google は処理し、検索結果を行ごとの要素の形式で配列変数の結果に転送します。ここで読み取られるファイルはリモートであるため、プロトコル名「http://」が欠落することはできません。
ユーザーに検索文字を入力してもらいたい場合は、入力テキスト ボックスと送信ボタンを作成し、上記の検索文字「abcd」を変数に置き換えます。
echo '
; if (isset(Keywords)) // PHP は送信後に変数 kkywords を生成します。これには、送信後に次のプログラムを実行する必要があります
{
urlencode(keywords); // ユーザー入力を URL エンコードします
result=file("http://www.google.com/search?q=". キーワード."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr="); // クエリ ステートメント内の変数を置換し、クエリ結果を配列変数結果に保存します
result_string=join(" ", result); // 配列 $result を文字列に結合し、各配列要素の間にスペースを使用します
... //さらなる処理
}
?>
上記のプログラムは、ユーザー入力に基づいてクエリを実行し、返された結果を文字列変数 $result_string に合成することができます。入力された漢字、スペース、その他の特殊文字を正常にクエリできるように、urlencode() 関数を使用してユーザー入力を URL エンコードする必要があることに注意してください。これにより、Google のクエリ コマンドが可能な限り現実的にシミュレートされ、検索が確実になります。結果は正確です。
Googleの分析
理解しやすくするために、本当に必要なのは検索結果のタイトルであると仮定しましょう。 URLや紹介文など。これはシンプルかつ典型的な要件です。このようにして、Google ロゴ、再検索用の入力ボックス、検索結果の説明などを含む Google 検索結果のヘッダーとフッターを削除し、残りの検索結果から元の HTML を削除するだけです。項目のフォーマットタグを希望のフォーマットに置き換えます。
これを行うには、Google 検索結果の HTML ソース コードを注意深く分析し、パターンを見つける必要があります。Google 検索結果のテキストが常にソース コードの最初の
タグと最後から 2 番目の
タグの間に含まれていることを見つけるのは難しくありません。この機能を使用すると、この方法で Google のヘッダーと脚注を削除できます。
以下のすべての手順は、上記の手順の「さらなる処理」で継続されます。
result_string = strstr( result_string, "
"); //最初の
から始まる result_string の後の文字列を取得して、Google ヘッダーを削除します
;
Position= strpos( result_string,"
テーブルシンボルの位置
result_string= substr( result_string,0, Position);// 最初の
表記号の前の文字列をインターセプトして脚注を削除します
アプリケーションと実装
さて、便利な HTML ソース コード バックボーンができました。残りの問題は、このコンテンツを自律的に表示する方法です。これらの検索結果アイテムを再度分析して、各アイテム間に非常に規則的な使用法があることを確認してみましょう
分離、つまり各項目を段落に分割します。この機能に従って、explode() 関数を使用して各項目を切り取ります。
構文:explode(文字列区切り文字, 文字列文字列);
配列を返し、セパレータで区切られた各小さな文字列が配列に保存されます。
それで:
result_array=explode("
", result_string); // 文字列 "
" を使用して結果を分割します
配列 result_array を取得します。その各要素は検索結果エントリです。私たちがしなければならないのは、各エントリとその HTML 表示形式コードを調べて、必要に応じて置き換えるだけです。以下では、ループを使用して result_array 内の各エントリを処理します。
for( i=0; i {
... //各エントリを処理します
各エントリについて、いくつかの特徴を簡単に見つけることができます。各エントリはタイトル、要約、紹介、カテゴリ、URL などで構成されており、各部分は改行されています。つまり、
タグが含まれています。再度分割されます: (以下のハンドラーは上記のループ内に配置されます)
Every_item=explode("
", result_array[i]);
このようにして、配列every_itemを取得します。ここで、every_item[0]はタイトル、every_item[1]とevery_item[2]は2行の概要、ヘッダーに次のものが含まれている場合は、every_item[3]とevery_item[4]などになります。 "紹介:"、"カテゴリ: の文字は紹介またはカテゴリです (理由)一部の結果 このエントリにはこの項目がありません)、ヘッダーに「」が含まれている場合、それは URL である必要があります。この種の比較には正規表現もよく使用されます (省略)。タイトルを含む場合など、置換したい場合は、$every_item[0] 自体にリンクがあります。このリンク属性を変更して、新しいウィンドウでリンクが開くようにします。
echo eregi_replace(' {
... //各エントリの最初の項目を除く各項目を処理します (最初の項目は表示されているタイトルです)
... //その他の形式の変更
このようにして、リンク属性が変更され、他の多くの表示形式の変更、削除、置換は、通常の置換 eregi_replace() を使用して完了できます。
ここまでで各検索項目の各項目を取得し、各項目の書式を任意に変更したり、美しい表を載せたりすることができました。ただし、優れたプログラムはさまざまな動作環境に適応できる必要があり、ここでも例外ではありません。実際、これを完全に実行するには、HTML の検索結果を除去するためのフレームワーク方法についてのみ説明しました。検索結果の総数やページ数などを表示します。また、「カテゴリ」や「紹介文」などのGoogle関連のコードを削除して、元のWebサイトを閲覧できないようにすることもできます。全て。ただし、HTML を解析することで、これらのコンテンツと要件を抽出することができます。今では誰もが自分で行うことができ、高度にパーソナライズされた検索エンジンを構築できます。
http://www.bkjia.com/PHPjc/313805.html
www.bkjia.com

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

HTTPキャッシュヘッダーの主要なプレーヤーには、キャッシュコントロール、ETAG、およびラスト修飾が含まれます。 1.Cache-Controlは、キャッシュポリシーを制御するために使用されます。例:キャッシュコントロール:Max-Age = 3600、public。 2。ETAGは、一意の識別子を介してリソースの変更を検証します。例:ETAG: "686897696A7C876B7E"。 3. Last-Modifiedは、リソースの最後の変更時間を示しています。

PHPでは、Password_hashとpassword_verify関数を使用して安全なパスワードハッシュを実装する必要があり、MD5またはSHA1を使用しないでください。 1)password_hashセキュリティを強化するために、塩値を含むハッシュを生成します。 2)password_verifyハッシュ値を比較して、パスワードを確認し、セキュリティを確保します。 3)MD5とSHA1は脆弱であり、塩の値が不足しており、最新のパスワードセキュリティには適していません。

PHPは、動的なWeb開発およびサーバー側のアプリケーションに使用されるサーバー側のスクリプト言語です。 1.PHPは、編集を必要とせず、迅速な発展に適した解釈言語です。 2。PHPコードはHTMLに組み込まれているため、Webページの開発が簡単になりました。 3。PHPプロセスサーバー側のロジック、HTML出力を生成し、ユーザーの相互作用とデータ処理をサポートします。 4。PHPは、データベースと対話し、プロセスフォームの送信、サーバー側のタスクを実行できます。

PHPは過去数十年にわたってネットワークを形成しており、Web開発において重要な役割を果たし続けます。 1)PHPは1994年に発信され、MySQLとのシームレスな統合により、開発者にとって最初の選択肢となっています。 2)コア関数には、動的なコンテンツの生成とデータベースとの統合が含まれ、ウェブサイトをリアルタイムで更新し、パーソナライズされた方法で表示できるようにします。 3)PHPの幅広いアプリケーションとエコシステムは、長期的な影響を促進していますが、バージョンの更新とセキュリティの課題にも直面しています。 4)PHP7のリリースなど、近年のパフォーマンスの改善により、現代の言語と競合できるようになりました。 5)将来的には、PHPはコンテナ化やマイクロサービスなどの新しい課題に対処する必要がありますが、その柔軟性とアクティブなコミュニティにより適応性があります。

PHPの中心的な利点には、学習の容易さ、強力なWeb開発サポート、豊富なライブラリとフレームワーク、高性能とスケーラビリティ、クロスプラットフォームの互換性、費用対効果が含まれます。 1)初心者に適した学習と使用が簡単。 2)Webサーバーとの適切な統合および複数のデータベースをサポートします。 3)Laravelなどの強力なフレームワークを持っています。 4)最適化を通じて高性能を達成できます。 5)複数のオペレーティングシステムをサポートします。 6)開発コストを削減するためのオープンソース。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
