ホームページ >バックエンド開発 >Python チュートリアル >Python クローラー フレームワークとは何ですか?

Python クローラー フレームワークとは何ですか?

(*-*)浩
(*-*)浩オリジナル
2019-06-12 14:38:163924ブラウズ

今日は、より効率的な Python クローラー フレームワークを皆さんにお勧めします。みんなと共有しましょう。

Python クローラー フレームワークとは何ですか?

1.Scrapy

Scrapy は、Web サイトのデータをクロールし、構造データを抽出するために作成されたアプリケーション フレームワークです。データマイニング、情報処理、履歴データの保存などの一連のプログラムで使用できます。このフレームワークを使用すると、Amazon の商品情報などのデータを簡単にクロールできます。 (推奨される学習: Python ビデオ チュートリアル )

プロジェクト アドレス: https://scrapy.org/

2.PySpider

pyspider は、Python で実装された強力な Web クローラー システムです。スクリプトを作成し、関数をスケジュールし、ブラウザー インターフェイス上でリアルタイムでクロール結果を表示できます。バックエンドは、一般的に使用されるデータベースを使用してクロール結果を保存します。また、タスクやタスクを設定することもできます。タスクの優先順位を定期的に設定します。

プロジェクトアドレス: https://github.com/binux/pyspider

3.Crawley

Crawley は、対応する Web サイトのコンテンツをクロールできます高速で、リレーショナルおよび非リレーショナル データベースをサポートし、データを JSON、XML などにエクスポートできます。

プロジェクト アドレス: http://project.crawley-cloud.com/

4.Newspaper

新聞は、ニュースや情報を抽出するために使用できます。記事とコンテンツ分析。マルチスレッドの使用、10 を超える言語のサポートなど。

プロジェクトアドレス: https://github.com/codelucas/newspaper

5.Beautiful Soup

Beautiful Soup は、次のことができるツールです。 HTML または XML ファイルからデータを抽出するための Python ライブラリからダウンロードできます。お気に入りのコンバーターを使用して、慣例的なドキュメント ナビゲーション、検索、および変更方法が可能になります。Beautiful Soup を使用すると、数時間または数日の作業を節約できます。

プロジェクトアドレス: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

##6.Grab
# # Grab は、Web スクレイパーを構築するための Python フレームワークです。 Grab を使用すると、単純な 5 行のスクリプトから数百万の Web ページを処理する複雑な非同期 Web サイト スクレイパーまで、さまざまな複雑さの Web スクレイパーを構築できます。 Grab は、ネットワーク リクエストを実行し、HTML ドキュメントの DOM ツリーと対話するなど、受信したコンテンツを処理するための API を提供します。

#プロジェクト アドレス: http://docs.grablib.org/en/latest/#grab-spider-user-manual

#7.Cola

Cola は分散クローラー フレームワークであり、ユーザーは分散操作の詳細を意識することなく、特定の関数をいくつか記述するだけで済みます。タスクは複数のマシンに自動的に分散され、プロセス全体がユーザーに透過的に行われます。

プロジェクト アドレス: https://github.com/chineking/cola


Python 関連の技術記事の詳細については、

Python チュートリアル

列にアクセスして学習してください。 !

以上がPython クローラー フレームワークとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。