検索
ホームページバックエンド開発Python チュートリアルPython クローラーはどの本を読むべきですか?

オンライン情報を収集し、有用な情報を抽出する便利な方法として、Web クローラー テクノロジーがますます便利になってきています。 Python などの単純なプログラミング言語を使用すると、最小限のプログラミング スキルで複雑な Web サイトをクロールできます。

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」は、Python を使用してネットワーク データをクロールするための優れたガイドです。静的ページからデータをクロールし、キャッシュを使用してサーバーを管理する方法について説明しています。ロードメソッド。さらに、この本では、AJAX URL と Firebug 拡張機能を使用してデータをスクレイピングする方法と、ブラウザーのレンダリングの使用、Cookie の管理、CAPTCHA で保護された複雑な Web サイトからのフォームの送信などのスクレイピング技術に関する詳細について説明します。この本では、Scrapy を使用して高度な Web クローラーを作成し、いくつかの実際の Web サイトをクロールします。

関連する推奨事項: 「python ビデオ チュートリアル

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」では、次のコンテンツが紹介されています。 :

リンクに従って Web サイトをクロールします;

lxml を使用してページからデータを抽出します;

スレッド クローラーを構築してページを並行してクロールします;

ダウンロードしたコンテンツをキャッシュして帯域幅の消費を削減します;

JavaScript に依存する Web サイトを解析します;

フォームとセッションを操作します;

保護されたページを解決する 検証コードの問題;

AJAX 呼び出しのリバース エンジニアリング;

Scrapy を使用して高度なクローラーを作成します。

この本は読者を対象としています

この本は、信頼性の高いデータ クローリング ソリューションを構築したい開発者向けに書かれています。この本は、読者が Python についてある程度の知識があることを前提としています。プログラミング経験。もちろん、他のプログラミング言語の開発経験がある読者もこの本を読んで、それに含まれる概念や原則を理解することができます。

著者について · · · · · · ·

リチャード ローソンはオーストラリア出身で、メルボルン大学でコンピューター サイエンスを専攻して卒業しました。卒業後は、Web クローリングを専門とする会社を設立し、50 か国以上の企業にリモートワークを提供しました。彼はエスペラント語に堪能で、中国語と韓国語で会話でき、オープンソース ソフトウェアにも積極的に関わっています。彼は現在、オックスフォード大学で大学院の学位取得を目指して勉強しており、空いた時間を自律型ドローンの開発に費やしています。

目次 · · · · · · · ·

目次

第 1 章 Web クローラーの概要 1

1.1 Web クローラーはどのような場合に便利ですか1

1.2 Web クローラーは合法ですか2

1.3 背景調査3

1.3.1 robots.txt を確認します3

1.3.2 サイト マップを確認する4

1.3.3 Web サイトのサイズを見積もる5

1.3.4 Web サイトで使用されているテクノロジーを特定する7

1.3.5 検索Web サイトの所有者7

1.4 最初の Web クローラーの作成 8

1.4.1 Web ページのダウンロード 9

1.4.2 サイト マップ クローラー 12

1.4。 3 ID トラバーサル クローラー 13

1.4.4 リンク クローラー 15

1.5 この章の概要 22

第 2 章 データ キャプチャ

2.1 Web ページの分析 23

2.2 3 つの Web クローリング方法 26

2.2.1 正規表現 26

2.2.2 美しいスープ 28

2.2 .3 Lxml 30

2.2.4 パフォーマンスの比較 32

2.2.5 結論 35

2.2.6 リンク クローラーのクロール コールバックの追加 35

2.3この章の概要 38

#第 3 章 ダウンロード キャッシュ 39

3.1 リンク クローラーのキャッシュ サポートの追加 39

3.2 ディスク キャッシュ 42

3.2. 1. 実装 44

3.2.2 キャッシュ テスト 46

3.2.3 ディスク領域の節約 46

3.2.4 期限切れデータのクリーンアップ 47

3.2.5 欠点 48

3.3 データベースのキャッシュ 49

3.3.1 NoSQL とは 50

3.3.2 MongoDB のインストール 50

3.3 .3 MongoDB の概要 50

3.3.4 MongoDB キャッシュの実装 52

3.3.5 圧縮 54

3.3.6 キャッシュ テスト 54

3.4 概要この章の内容 55

第 4 章 同時ダウンロード 57

4.1 100 万の Web ページ 57

4.2 シリアル クローラー 60

4.3マルチスレッド クローラー 60

4.3.1 スレッドとプロセスの仕組み 61

4.3.2 実装 61

4.3.3 マルチプロセス クローラー 63

4.4 パフォーマンス 67

4.5 この章の概要 68

第 5 章 動的コンテンツ 69

5.1 動的 Web ページの例 69

5.2 動的 Web ページのリバース エンジニアリング 72

5.3 動的 Web ページのレンダリング 77

5.3.1 PyQt または PySide 78

5.3.2 JavaScript の実行 78

5.3.3 WebKit を使用した Web サイトとの対話 80

5.3.4 Selenium 85

5.4 この章の概要 88

第 6 章 フォーム対話89

6.1 ログイン フォーム 90

6.2 コンテンツ更新をサポートするログイン スクリプト拡張機能 97

6.3 Mechanize モジュールを使用して自動フォーム処理を実装する 100

6.4 この章の概要 102

第 7 章 検証コードの処理 103

7.1 アカウントの登録 103

7.2 光学式文字認識 106

7.3 複雑な検証コードの処理 111

7.3.1 検証コード処理サービスの使用 112

7.3.2 | 9kw エントリ 112

7.3.3 登録機能との統合 119

7.4 この章の概要 120

第 8 章 Scrapy 121

8.1 インストール 121

8.2 プロジェクトを開始する 122

8.2.1 モデルを定義する 123

8.2.2 クローラーを作成する 124

8.2.3 シェル コマンドを使用してクロールする 128

8.2.4 結果の確認 129

8.2.5 クローラーの中断と再開 132

8.3 Portia を使用したビジュアル クローラーの作成 133

8.3.1 インストール133

8.3.2 マーキング 136

8.3.3 クローラーの最適化 138

8.3.4 結果の確認 140

8.4 Scrapely を使用した自動クローリングの実現 141

8.5 この章の概要 142

第 9 章の概要 143

9.1 Google 検索エンジン 143

9.2 Facebook 148

9.2.1 Web サイト 148

9.2.2 API 150

9.3 ギャップ 151

9.4 BMW 153

9.5 この章の概要157

以上がPython クローラーはどの本を読むべきですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Python vs. C:比較されたアプリケーションとユースケースPython vs. C:比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画:現実的なアプローチ2時間のPython計画:現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

Python:主要なアプリケーションの調査Python:主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1)Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2)データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3)自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか?2時間でどのくらいのPythonを学ぶことができますか?Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は?プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は?Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか?中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか?Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか?Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか?Apr 02, 2025 am 07:12 AM

Python 3.6のピクルスファイルのロードレポートエラー:modulenotFounderror:nomodulenamed ...

風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの精度を改善する方法は?風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの精度を改善する方法は?Apr 02, 2025 am 07:09 AM

風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの問題を解決する方法は?風光明媚なスポットコメントと分析を行っているとき、私たちはしばしばJieba Wordセグメンテーションツールを使用してテキストを処理します...

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン