Web クローラー技術とは、一定のルールに従って World Wide Web の情報を自動的に取得する技術を指します。 Web クローラーは、Web スパイダーや Web ロボットとも呼ばれます。FOAF コミュニティでは、Web ページ チェイサーとしてよく知られています。その他のあまり一般的ではない名前には、アリ、自動インデックス作成、シミュレーション プログラム、またはワームなどがあります。
#Web クローラー技術とは、特定のルールに従って World Wide Web の情報を自動的に取得する技術を指します
Web クローラー (Web スパイダー、Web ロボット、FOAF コミュニティでは Web チェイサーとも呼ばれます) は、特定のルールに従って World Wide Web 情報を自動的にクロールするプログラムまたはスクリプトです。その他のあまり一般的ではない名前には、アリ、自動インデクサ、エミュレータ、またはワームなどがあります。
クロール ターゲットの説明と定義は、Web ページ分析アルゴリズムと URL 検索戦略を策定する方法を決定するための基礎となります。 Web ページ分析アルゴリズムと候補 URL ソート アルゴリズムは、検索エンジンが提供するサービス形式とクローラの Web ページのクローリング動作を決定する鍵となります。これら 2 つの部分のアルゴリズムは密接に関連しています。 クローリング ターゲットに焦点を当てた既存のクローラの説明は、ターゲット Web ページの特性に基づくもの、ターゲット データ パターンに基づくもの、およびドメインの概念に基づくものという 3 つのタイプに分類できます。ターゲット Web ページの特性に基づく
ターゲット Web ページの特性に基づいてクローラによってキャプチャ、保存、インデックス付けされるオブジェクトは、通常、Web サイトまたは Web です。ページ。シード サンプルの取得方法に応じて、次のように分割できます: (1) 事前に指定された初期クローリング シード サンプル; (2) 事前に指定された Web ページ分類ディレクトリと対応する分類ディレクトリへ Yahoo!分類構造などのシードサンプル; (3) ユーザーの行動によって決まるキャッチ対象サンプルを次のように分割: (a) アノテーションを表示するキャッチユーザーの閲覧中にサンプルを取得します; (b) ユーザー ログ マイニングを通じてアクセス パターンと関連サンプルを取得します。 このうち、ウェブページの特性とは、ウェブページのコンテンツの特性やウェブページのリンク構造の特性などです。ターゲット データ パターンに基づく
ターゲット データ パターンに基づくクローラは、Web ページ上のデータをターゲットにします。キャプチャされたデータは通常、特定のパターンに準拠する必要があります。または、ターゲット データ スキーマに変換またはマッピングすることもできます。ドメインの概念に基づく
もう 1 つの記述方法は、ターゲット ドメインのオントロジーまたは辞書を確立することです。これは、ドメイン内のさまざまな機能の重要性を分析するために使用されます。意味論的な観点から見た特定のトピックの学位。 関連知識の詳細については、PHP 中国語 Web サイト をご覧ください。 !
以上がWeb クローラー技術とは何を意味しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。