簡単に言えば、インターネットはサイトとネットワーク デバイスで構成される大規模なネットワークです。私たちはブラウザを通じてサイトにアクセスし、サイトは HTML、JS、および CSS コードをブラウザに返します。これらのコードは、ブラウザにアクセスすると、リッチでカラフルな Web ページが目の前に表示されます。
クローラーとは何ですか?
インターネットを大きな蜘蛛の巣にたとえると、データは蜘蛛の巣の各ノードに保存され、クローラーはネットワークに沿って独自の情報を巡回する小さな蜘蛛です。プレイ (データ) クローラーとは、Web サイトへのリクエストを開始し、リソースを取得し、有用なデータを分析して抽出するプログラムを指します。技術的な観点から見ると、プログラムを通じてサイトをリクエストするブラウザの動作をシミュレートし、HTML を変換します。コード / サイトから返された JSON データ / バイナリ データ (写真、ビデオ) ローカルに移動し、必要なデータを抽出し、使用するために保存します。
クローラの基本プロセス
ユーザーがネットワーク データを取得する方法:
方法 1: ブラウザがリクエストを送信--->Web ページ コードをダウンロード - --> ページへの解析
方法 2: ブラウザをシミュレートしてリクエストを送信 (Web ページ コードを取得)-> 有用なデータを抽出-> データベースまたはファイルに保存
クローラー あなたがしなければならないのは方法 2 だけです;
リクエストを開始します
http ライブラリを使用して、ターゲット サイトへのリクエストを開始します。つまり、リクエストを送信します。
リクエストの内容: リクエスト ヘッダー、リクエスト本文など。
リクエスト モジュールの欠陥: JS および CSS コードを実行できません
応答コンテンツを取得します
サーバーが正常に応答できる場合、応答を受け取ります。
応答には、html、json、写真、ビデオなどが含まれます。
コンテンツの解析
HTML データの解析: 正規表現 (RE モジュール)、Beautifulsoup、pyquery などのサードパーティ解析ライブラリ。
JSON データの解析: json モジュール
バイナリ データの解析: ファイルに書き込むwb モード
データの保存
データベース (MySQL、Mongdb、Redis)
ファイル
以上がPython クローラーを学ぶのは難しいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。