ホームページ >バックエンド開発 >Python チュートリアル >Python クローラーを学ぶのは難しいですか?

Python クローラーを学ぶのは難しいですか?

silencementオリジナル: 2019-06-12 15:18:564098ブラウズ

簡単に言えば、インターネットはサイトとネットワークデバイスで構成される大規模なネットワークです。私たちはブラウザを通じてサイトにアクセスし、サイトは HTML、JS、および CSS コードをブラウザに返します。これらのコードは、ブラウザにアクセスすると、リッチでカラフルな Web ページが目の前に表示されます。

クローラーとは何ですか?

インターネットを大きな蜘蛛の巣にたとえると、データは蜘蛛の巣の各ノードに保存され、クローラーはネットワークに沿って独自の情報を巡回する小さな蜘蛛です。プレイ (データ) クローラーとは、Web サイトへのリクエストを開始し、リソースを取得し、有用なデータを分析して抽出するプログラムを指します。技術的な観点から見ると、プログラムを通じてサイトをリクエストするブラウザの動作をシミュレートし、HTML を変換します。コード / サイトから返された JSON データ / バイナリデータ (写真、ビデオ) ローカルに移動し、必要なデータを抽出し、使用するために保存します。

クローラの基本プロセス

ユーザーがネットワークデータを取得する方法:

方法 1: ブラウザがリクエストを送信--->Web ページコードをダウンロード - --> ページへの解析

方法 2: ブラウザをシミュレートしてリクエストを送信 (Web ページコードを取得)-> 有用なデータを抽出-> データベースまたはファイルに保存

クローラーあなたがしなければならないのは方法 2 だけです;

リクエストを開始します

http ライブラリを使用して、ターゲットサイトへのリクエストを開始します。つまり、リクエストを送信します。

リクエストの内容: リクエストヘッダー、リクエスト本文など。

リクエストモジュールの欠陥: JS および CSS コードを実行できません

応答コンテンツを取得します

サーバーが正常に応答できる場合、応答を受け取ります。

応答には、html、json、写真、ビデオなどが含まれます。

コンテンツの解析

HTML データの解析: 正規表現 (RE モジュール)、Beautifulsoup、pyquery などのサードパーティ解析ライブラリ。

JSON データの解析: json モジュール

バイナリデータの解析: ファイルに書き込むwb モード

データの保存

データベース (MySQL、Mongdb、Redis)

ファイル

以上がPython クローラーを学ぶのは難しいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python mysql json css 正则表达式 html beautifulsoup JS redis 数据库 http

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python でマイクロコントローラーを開発できますか?次の記事：Python でマイクロコントローラーを開発できますか?

続きを見る