ホームページ  >  記事  >  バックエンド開発  >  Python でクローラーを作成するにはどのようなライブラリが使用されますか?

Python でクローラーを作成するにはどのようなライブラリが使用されますか?

silencement
silencementオリジナル
2019-06-21 15:34:327249ブラウズ

Python でクローラーを作成するにはどのようなライブラリが使用されますか?

Python クローラー (正式名は Python Web クローラー) は、特定のルールに従って World Wide Web 情報を自動的にキャプチャするプログラムまたはスクリプトであり、主に証券取引データや証券取引データをキャプチャするために使用されます。気象データ、Web サイトのユーザー データ、画像データなど、Python には Web クローラーの通常の機能をサポートするための、主に数種類のライブラリが多数組み込まれています。次の記事で紹介します。

1. Python クローラー ネットワーク ライブラリ

Python クローラー ネットワーク ライブラリには主に次のものが含まれます: urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、メカニズム、ソケット、Unirest for Python、hyper 、PySocks、treq、aiohttp など。

2. Python Web クローラー フレームワーク

Python Web クローラー フレームワークには主に、grab、scrapy、pyspider、cola、portia、restkit、demiurge などが含まれます。

3. HTML/XML パーサー

● lxml: C 言語で書かれた効率的な HTML/XML 処理ライブラリ。 XPathをサポートします。

# cssselect: DOM ツリーと CSS セレクターを解析します。

# Pyquery: DOM ツリーと jQuery セレクターを解析します。

##●BeautifulSoup: 純粋な Python で実装された非効率的な HTML/XML 処理ライブラリ。

##● html5lib: WHATWG 仕様に従って HTML/XML ドキュメントの DOM を生成します。この仕様は、現在のすべてのブラウザで使用されています。

# Feedparser: RSS/ATOM フィードを解析します。

##●MarkupSafe: XML/HTML/XHTML に安全なエスケープ文字列を提供します。

## ● xmltodict: XML の処理を​​ JSON のように扱えるようにする Python モジュール。

##● xhtml2pdf: HTML/CSS を PDF に変換します。

## ● もつれを解く: XML ファイルを Python オブジェクトに簡単に変換します。

4. テキスト処理

単純なテキストを解析して操作するためのライブラリです。

##● difflib: (Python 標準ライブラリ) は、差分比較の実行に役立ちます。

##● レーベンシュタイン: レーベンシュタイン距離と文字列の類似度をすばやく計算します。

## ● fuzzywuzzy: ファジー文字列マッチング。

##● esmre: 正規表現アクセラレータ。

##● ftfy: Unicode テキストを自動的に整理して断片化を軽減します。

5. 特定の形式ファイルの処理

特定のテキスト形式を解析して処理するためのライブラリ。

# tablib: データを XLS、CSV、JSON、YAML およびその他の形式にエクスポートするモジュール。

##●texttract: Word、PowerPoint、PDF などのさまざまなファイルからテキストを抽出します。

#●messytables: 乱雑な表形式データを解析するためのツール。

# 行: 多くの形式をサポートする共通のデータ インターフェイス (現在は CSV、HTML、XLS、TXT をサポートしています。将来的にはさらに多くの形式が提供される予定です)。

以上がPython でクローラーを作成するにはどのようなライブラリが使用されますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。