Python を使用してクローラーを作成する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python を使用してクローラーを作成する方法

高洛峰

Nov 23, 2016 pm 01:23 PM

python

「

始めましょう」は良い動機ではありますが、時間がかかる可能性があります。手中または頭の中にプロジェクトがある場合、実際には目標に突き動かされ、学習モジュールのようにゆっくりと学習することはありません。

さらに、知識について話す場合、システム内の各知識ポイントがグラフ内の点であり、依存関係がエッジである場合、グラフは有向非巡回グラフであってはなりません。なぜなら、A の学習経験は B の学習に役立つからです。したがって、「始め方」を学ぶ必要はありません。そのような「始め方」のポイントは存在しないからです。もちろん、学習する必要があります。最初に Python を知る必要があるということです。そうでない場合、どうやって Python を学習してクローラーを作成できるのでしょうか。しかし、実際には、このクローラーを作成する過程で Python を学習できます。
以前の多くの回答で言及されている「テクニック」を見ました - ソフトウェアはどのようにクロールするのですか? 「タオ」と「テクノロジー」について話しましょう - クローラーがどのように機能するのか、そしてそれを Python で実装する方法

簡単に要約します:

クローラーの基本的な動作原理を学ぶ必要があります

基本的な HTTP スクレイピングツール、scrapy

ブルームフィルター: サンプルによるブルームフィルター

大規模な Web ページをクロールする必要がある場合実際、分散クローラーの概念を学ぶ必要があります。実際、最も単純な実装は python-rq (https://github.com/nvie) です。 /rq

rq と Scrapy の組み合わせ: darkrho/scrapy-redis · GitHub

フォローアップ処理、Web ページ Disjunction (grangier/python-goose · GitHub)、ストレージ (Mongodb)

以下は短いですストーリー:

クラスターを作成したときに Douban 全体を降りた経験について教えてください

1) まず、クローラーがどのように機能するかを理解する必要があります
あなたがクモになったと想像してください。インターネットです。それでは、どうすればよいでしょうか。たとえば、人民日報のトップページをクリックするだけです。これは、トップページの

で表されます。人民日報のページへのさまざまなリンクが表示されるので、「国内」ページから喜んでアクセスしました。これで、2 ページ (ホームページと国内ニュース) のクロールが完了しました。クロールダウンしたページの対処方法について、このページを HTML に完全にコピーしたと想像してください

突然、国内のニュースページに「ホームページ」へのリンクがあることに気づきました。賢いスパイダーとして、すでに見ているので、戻ってくる必要がないことを知っておく必要があります。つまり、閲覧したページのアドレスを保存する必要があります。このようにして、クロールする必要がある可能性のある新しいリンクを見つけるたびに、まず頭の中でこのページアドレスに既にアクセスしたかどうかを確認します。そこに行ったことがあるなら、行かないでください。

理論的には、最初のページからすべてのページに到達できれば、すべての Web ページを確実にクロールできることが証明できます。

では、それをPythonで実装するにはどうすればよいでしょうか?
非常に簡単です
import Queueinitial_page = "http://www.renminribao.com"url_queue = Queue.Queue()seen = set()seen.insert(initial_page)url_queue.put(initial_page)while(True):

#すべてが終了するまで続行します
if url_queue.size()>0:
current_url = url_queue.get() #キュー内の最初の URL を取得します
store(current_url) #この URL で表される Web ページを保存します _ For extract_urls の next_url (Current_url): #

URL
IF NEXT_URL NORL NORL NORL NORL NORL NORL NORL NORL NORL それ以外の場合: Break
はすでに非常に適切な擬似コードです。

すべてのクローラーのバックボーンはここにあります。クローラーが実際には非常に複雑である理由を分析してみましょう。通常、検索エンジン会社は、クローラーを保守および開発するためにチーム全体を抱えています。

2) 効率
上記のコードを直接処理して実行すると、Douban のコンテンツ全体をクロールするのに 1 年かかります。 Google のような検索エンジンはウェブ全体をクロールする必要があることは言うまでもありません。

何が問題ですか？クロールする必要がある Web ページが多すぎるため、上記のコードは遅すぎます。ネットワーク全体に N 個の Web サイトがあると仮定すると、再利用の判断の複雑さは N*log(N) であると分析します。これは、すべての Web ページを 1 回横断する必要があり、セットを毎回再利用するには log(N) の複雑さが必要になるためです。 OK、OK、Python の set 実装がハッシュであることはわかっていますが、これでもまだ遅すぎます。少なくともメモリ使用量は効率的ではありません。

体重を判断する通常の方法は何ですか?ブルームフィルター。簡単に言うと、やはりハッシュ法ですが、その特徴は、固定メモリ (URL の数に応じて増加しない) を使用して、URL がすでにセットに含まれているかどうかを O(1) の効率で判断できることです。残念ながら、無料のランチなどというものは存在しません。唯一の問題は、URL がセットに含まれていない場合、BF はその URL が閲覧されていないと 100% 確信できることです。ただし、この URL がセットに含まれている場合は、「この URL はすでに表示されているはずですが、2% の不確実性があります」と表示されます。割り当てるメモリが十分大きい場合、ここでの不確実性は非常に小さくなる可能性があることに注意してください。簡単なチュートリアル: 例によるブルームフィルター

この機能に注目してください。URL が一度閲覧されている場合、低い確率で繰り返し閲覧される可能性があります (何度閲覧しても疲れることはありません)。ただし、まだ閲覧されていない場合は、必ず閲覧されます (これは非常に重要です。そうしないと、一部の Web ページを見逃してしまいます!)。 [重要: この段落には問題があります。今は読み飛ばしてください]

さて、これで重量判定に対処する最速の方法に近づきました。もう 1 つのボトルネックは、マシンが 1 台しかないことです。帯域幅がどれほど大きくても、マシンが Web ページをダウンロードする速度がボトルネックである限り、この速度を上げることしかできません。 1 台のマシンでは不十分な場合は、多数のマシンを使用してください。もちろん、マルチスレッド (Python の場合はマルチプロセス) を使用して、各マシンが最大の効率に達していることを前提としています。

3) クラスターのクローリング
Douban をクローリングするとき、合計 100 台以上のマシンを使用して 1 か月間 24 時間稼働させました。 1 台のマシンしか使用しない場合、それを 100 か月間実行する必要があることを想像してください...

それでは、現在 100 台のマシンが利用できると仮定して、Python を使用して分散クローリングアルゴリズムを実装するにはどうすればよいでしょうか?

100 台のマシンのうち 99 台の計算能力が小さいマシンをスレーブと呼び、他の大きなマシンをマスターと呼びます。次に、上記のコードの url_queue を見て、このキューをこのマスターに配置できれば、マシン上ではすべてのスレーブが配置されます。スレーブは、Web ページのダウンロードを完了するたびに、マスターにクロールする新しい Web ページを要求します。スレーブは新しい Web ページをキャプチャするたびに、この Web ページ上のすべてのリンクをマスターのキューに送信します。同様に、ブルームフィルターもマスターに配置されますが、マスターはアクセスされていない URL のみをスレーブに送信します。ブルームフィルターはマスターのメモリに配置され、訪問先 URL はマスター上で実行されている Redis に配置されるため、すべての操作が O(1) であることが保証されます。 (少なくとも償却額は O(1) です。Redis のアクセス効率については、LINSERT – Redis を参照してください)

Python で実装する方法を検討してください:
各スレーブにscrapyをインストールすると、各マシンが有能なマシンになります対応するスレーブを取得し、マスターに Redis と rq をインストールして分散キューとして使用します。

コードは次のように書かれています

#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
    to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = "www.renmingribao.com"
while(True):
    if request == &#39;GET&#39;:
        if distributed_queue.size()>0:
            send(distributed_queue.get())
        else:
            break
    elif request == &#39;POST&#39;:
        bf.put(request.url)

さて、実際、ご想像のとおり、必要なものは誰かがすでに書いています: darkrho/scrapy-redis · GitHub

4) Outlook と後処理

上記とはいえ「シンプル」を多用していますが、実際に商用規模のクローラを実装するのは簡単ではありません。上記のコードを使用すると、大きな問題なく Web サイト全体をクロールできます。

ただし、

有効なストレージ (データベースの配置方法)

有効な重複判定 (ここではウェブページの重複判定を指します。人民日報との比較はしたくありません) などのフォローアップ処理が必要な場合は、そしてそれを盗用したダミン) 毎日の新聞を巡回しました)

効果的な情報抽出 (Web ページ「朝陽区中華路、フェンジン路」のすべての住所を抽出する方法など)。検索エンジンは通常、写真を保存する必要があるなど、すべての情報を保存する必要はありません。 ..

タイムリーな更新 (このページが更新される頻度を予測します)

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。