ホームページ >よくある問題 >Web クローラー技術とは何を意味しますか?

Web クローラー技術とは何を意味しますか?

烟雨青岚オリジナル: 2020-07-08 13:27:2514176ブラウズ

Web クローラー技術とは、一定のルールに従って World Wide Web の情報を自動的に取得する技術を指します。 Web クローラーは、Web スパイダーや Web ロボットとも呼ばれます。FOAF コミュニティでは、Web ページチェイサーとしてよく知られています。その他のあまり一般的ではない名前には、アリ、自動インデックス作成、シミュレーションプログラム、またはワームなどがあります。

#Web クローラー技術とは、特定のルールに従って World Wide Web の情報を自動的に取得する技術を指します

Web クローラー (Web スパイダー、Web ロボット、FOAF コミュニティでは Web チェイサーとも呼ばれます) は、特定のルールに従って World Wide Web 情報を自動的にクロールするプログラムまたはスクリプトです。その他のあまり一般的ではない名前には、アリ、自動インデクサ、エミュレータ、またはワームなどがあります。

クロールターゲットの説明と定義は、Web ページ分析アルゴリズムと URL 検索戦略を策定する方法を決定するための基礎となります。 Web ページ分析アルゴリズムと候補 URL ソートアルゴリズムは、検索エンジンが提供するサービス形式とクローラの Web ページのクローリング動作を決定する鍵となります。これら 2 つの部分のアルゴリズムは密接に関連しています。

クローリングターゲットに焦点を当てた既存のクローラの説明は、ターゲット Web ページの特性に基づくもの、ターゲットデータパターンに基づくもの、およびドメインの概念に基づくものという 3 つのタイプに分類できます。

ターゲット Web ページの特性に基づく

ターゲット Web ページの特性に基づいてクローラによってキャプチャ、保存、インデックス付けされるオブジェクトは、通常、Web サイトまたは Web です。ページ。シードサンプルの取得方法に応じて、次のように分割できます:

(1) 事前に指定された初期クローリングシードサンプル;

(2) 事前に指定された Web ページ分類ディレクトリと対応する分類ディレクトリへ Yahoo!分類構造などのシードサンプル;

(3) ユーザーの行動によって決まるキャッチ対象サンプルを次のように分割:

(a) アノテーションを表示するキャッチユーザーの閲覧中にサンプルを取得します;

(b) ユーザーログマイニングを通じてアクセスパターンと関連サンプルを取得します。

このうち、ウェブページの特性とは、ウェブページのコンテンツの特性やウェブページのリンク構造の特性などです。

ターゲットデータパターンに基づく

ターゲットデータパターンに基づくクローラは、Web ページ上のデータをターゲットにします。キャプチャされたデータは通常、特定のパターンに準拠する必要があります。または、ターゲットデータスキーマに変換またはマッピングすることもできます。

ドメインの概念に基づく

もう 1 つの記述方法は、ターゲットドメインのオントロジーまたは辞書を確立することです。これは、ドメイン内のさまざまな機能の重要性を分析するために使用されます。意味論的な観点から見た特定のトピックの学位。

Web クローラー技術とは何を意味しますか?

関連記事