ホームページ  >  記事  >  バックエンド開発  >  Python クローラーとはどういう意味ですか?

Python クローラーとはどういう意味ですか?

silencement
silencementオリジナル
2019-05-14 17:29:0551336ブラウズ

Python クローラーとは、Python Web クローラーを指し、Web スパイダーや Web ロボットとも呼ばれます。これは、特定のルールに従って World Wide Web 情報を自動的にキャプチャするプログラムまたはスクリプトです。他のものは一般的には使用されません。別名アリ、自動インデクサ、エミュレータ、またはワーム。

Python クローラーとはどういう意味ですか?

簡単に言えば、インターネットはサイトとネットワーク機器で構成される大きなネットワークであり、私たちはブラウザを通じてサイトにアクセスし、サイトにはHTML、JS、および CSS コード ブラウザに返されると、これらのコードはブラウザによって解析およびレンダリングされ、リッチでカラフルな Web ページが目の前に表示されます。

Python クローラーとはどういう意味ですか?

インターネットを例に挙げると、大きな蜘蛛の巣にデータが格納され、蜘蛛の巣の各ノードにデータが保存されます。Python クローラーは小さな蜘蛛で、

自身の獲物 (データ) をネットワークに沿って巡回します。 Web サイトへのリクエスト、取得リソース後の有用なデータを分析して抽出するプログラム;

技術的な観点から、プログラムを通じてサイトをリクエストするブラウザの動作をシミュレートし、HTML コード/JSON データをクロールします。 /バイナリ データ (写真、ビデオ) がサイトから返されます。ローカル エリアに移動し、必要なデータを抽出し、

Python クローラーの基本原則

# を使用してそれを保存します。

Python クローラーとはどういう意味ですか?

##1. リクエストの開始

http ライブラリを使用して、ターゲット サイトへのリクエストを開始します。つまり、Request

Request には次のものが含まれます。リクエストヘッダー、リクエストボディなど。

リクエストモジュールの不具合: JS および CSS コードが実行できない

2. 応答内容を取得します。

サーバーが正常に応答できれば、レスポンスを取得します。

レスポンスには、html、json、写真、ビデオなどが含まれます。

3. コンテンツの解析

HTML データの解析: 正規表現 (RE モジュール) 、Beautifulsoup、pyquery などのサードパーティ解析ライブラリ。

json データを解析: json モジュール

バイナリ データを解析: wb 形式でファイルに書き込みます

4.データの保存

データベース (MySQL、Mongdb、Redis)

以上がPython クローラーとはどういう意味ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。