ホームページ >バックエンド開発 >Python チュートリアル >クローラーパイソンってどういう意味ですか?

クローラーパイソンってどういう意味ですか?

藏色散人
藏色散人オリジナル
2019-06-25 10:13:532343ブラウズ

クローラーパイソンってどういう意味ですか?

クローラー Python とはどういう意味ですか?

クローラー (Web クローラーとも呼ばれる) は、主にインターネットからデータを収集するスクリプトとプログラムを指し、データ分析とデータ マイニングの基礎となります。

いわゆるクローラーとは、特定の URL (Web サイト) 内で私たちに役立つデータ情報を取得し、コードを通じて大量のデータ取得を実現し、その後のデータの並べ替えと計算を通じて関連するルールを取得することを指します。業界動向やその他の情報。

Python クローラー アーキテクチャは主に、スケジューラー、URL マネージャー、Web ページ ダウンローダー、Web ページ パーサー、アプリケーション (クロールされた貴重なデータ) の 5 つの部分で構成されます。

スケジューラ:

コンピュータの CPU に相当し、主に URL マネージャー、ダウンローダー、およびパーサー間の調整のスケジュールを担当します。

URL マネージャー:

クロール対象の URL アドレスとクロールされた URL アドレスを含み、URL の繰り返しクロールや URL のループ クロールを防止し、URL を実装します。 Manager は主に、メモリ、データベース、キャッシュ データベースの 3 つの方法で実装されます。

Webページ ダウンローダー:

URL アドレスを渡して Web ページをダウンロードし、Web ページを文字列に変換します。Web ページ ダウンローダーには urllib2 (Python 公式基本モジュール) が含まれています。ログイン、プロキシ、Cookie、リクエストの必要性 (サードパーティ パッケージ)

Web ページ パーサー:

Web ページ文字列を解析するには、次の手順に従います。有用な情報を抽出するための要件も、DOM ツリーの解析方法に従って解析できます。 Web ページ パーサーには、正規表現 (直感的に Web ページを文字列に変換し、ファジー マッチングを通じて貴重な情報を抽出します。ドキュメントが複雑な場合、この方法でデータを抽出するのは非常に困難になります)、html.parser (Python に付属)、Beautifulsoup が含まれます。 (サードパーティのプラグイン。Python に付属する html.parser を解析に使用することも、他のプラグインよりも強力な lxml を解析に使用することもできます)、lxml (サードパーティのプラグイン) 、xml と HTML を解析できます)、html.parser、Beautifulsoup、lxml はすべて DOM ツリーの形式で解析されます。

アプリケーション:

は、Web ページから抽出された有用なデータで構成されるアプリケーションです。

関連する推奨事項: 「Python チュートリアル

以上がクローラーパイソンってどういう意味ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。