ホームページ  >  記事  >  バックエンド開発  >  Pythonのクローラーとはどういう意味ですか?

Pythonのクローラーとはどういう意味ですか?

藏色散人
藏色散人オリジナル
2019-07-04 09:15:1514933ブラウズ

Python クローラーとは、Python プログラムを使用して開発された Web クローラー (Web スパイダー、Web ロボット) で、一定のルールに従って World Wide Web の情報を自動的に取得するプログラムまたはスクリプトです。その他のあまり一般的ではない名前には、アリ、自動インデクサ、エミュレータ、またはワームなどがあります。実は、平たく言えば、ウェブページ上にある欲しいデータをプログラムを通して取得する、つまり自動的にデータを取り込むことです。

Pythonのクローラーとはどういう意味ですか?

ウェブ クローラー(英語: web roller)は、ウェブ スパイダーとも呼ばれ、World Wide Web を自動的に閲覧するために使用されるウェブ ロボットです。その目的は通常、Web インデックスをコンパイルすることです。

Web 検索エンジンやその他のサイトは、クローラー ソフトウェアを使用して、自身の Web サイトのコンテンツや他の Web サイトのインデックスを更新します。 Web クローラーは、アクセスしたページを保存して、後で検索エンジンがユーザーが検索するためのインデックスを生成できるようにします。

クローラが Web サイトにアクセスするプロセスは、ターゲット システムのリソースを消費します。多くのネットワーク システムでは、デフォルトではクローラーの動作が許可されていません。したがって、多数のページにアクセスする場合、クローラーは計画、読み込み、および「丁寧さ」を考慮する必要があります。クローラーによるアクセスを望まず、クローラーの所有者に知られているパブリック サイトは、robots.txt ファイルなどの方法を使用してアクセスを回避できます。このファイルは、サイトの一部のみのインデックスを作成するか、まったく処理しないようにロボットに要求できます。

インターネット上には非常に多くのページがあるため、最大規模のクローラー システムでも完全にインデックスを作成することはできません。そのため、西暦 2000 年以前の World Wide Web の初期には、検索エンジンでは関連する結果がほとんど見つからないことがよくありました。今日の検索エンジンはこの点で大幅に改善されており、高品質の結果を即座に提供できるようになりました。

クローラーは、Web クローリング用のハイパーリンクと HTML コードを検証することもできます。

Python クローラー

Python クローラー アーキテクチャ

Python クローラー アーキテクチャは主に、スケジューラー、URL マネージャー、 Web ダウンローダー、Web パーサー、アプリケーション (クロールされた貴重なデータ)。

スケジューラ: コンピュータの CPU に相当し、主に URL マネージャー、ダウンローダー、パーサー間の調整のスケジュールを担当します。

URL マネージャー: クロールされる URL アドレスとクロールされた URL アドレスが含まれており、URL の繰り返しクロールや URL のループ クロールを防ぎます。URL マネージャーを実装するには、メモリを介して 3 つの主な方法があります。とデータベース、キャッシュデータベースを実現します。

Webページ ダウンローダー: URL アドレスを渡して Web ページをダウンロードし、Web ページを文字列に変換します。Web ページ ダウンローダーには urllib2 (Python 公式基本モジュール) があり、ログイン、プロキシ、Cookie、リクエスト ( 3 番目) -party パッケージ)

Web ページ パーサー: Web ページ文字列を解析すると、要件に従って有用な情報を抽出できます。または、DOM ツリーの解析方法に従って解析できます。 Web ページ パーサーには、正規表現 (直感的に Web ページを文字列に変換し、ファジー マッチングを通じて貴重な情報を抽出します。ドキュメントが複雑な場合、この方法でデータを抽出するのは非常に困難になります)、html.parser (Python に付属)、Beautifulsoup が含まれます。 (サードパーティのプラグイン。Python に付属する html.parser を解析に使用することも、他のプラグインよりも強力な lxml を解析に使用することもできます)、lxml (サードパーティのプラグイン) 、xml と HTML を解析できます)、html.parser、Beautifulsoup、lxml はすべて DOM ツリーの形式で解析されます。

アプリケーション: Web ページから抽出された有用なデータで構成されるアプリケーションです。

クローラーは何ができるのですか?

クローラーを使用すると、画像、ビデオ、その他のクロールしたいデータをクロールできます。ブラウザーを通じてデータにアクセスできる限り、クローラーを通じてデータを取得できます。

クローラーの本質とは何ですか?

#ブラウザをシミュレートして Web ページを開き、Web ページ内の必要なデータの一部を取得します

ブラウザが Web ページを開くプロセス:

ブラウザを使用している場合 アドレスを入力すると、DNS サーバーを通じてサーバー ホストが検出され、サーバーにリクエストが送信されます。サーバーは、html、js、css などの結果を解析してユーザーのブラウザに送信します。他のファイルの内容。ブラウザはそれを解析し、最終的にブラウザ上でユーザーに表示します。結果が表示されます

つまり、ユーザーが表示するブラウザの結果は HTML コードで構成されています。私たちのクローラーはこれらを取得することになります。 HTML コードを分析およびフィルタリングしてコンテンツを抽出し、必要なリソースを取得します。

関連する推奨事項: 「

Python チュートリアル

以上がPythonのクローラーとはどういう意味ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。