ホームページ  >  記事  >  バックエンド開発  >  Python クローラーのためにインストールする必要があるもの

Python クローラーのためにインストールする必要があるもの

藏色散人
藏色散人オリジナル
2019-07-05 10:28:2710865ブラウズ

Python クローラーのためにインストールする必要があるもの

世界のクローラーの 80% は Python に基づいて開発されており、クローラーのスキルを学習すると、その後のビッグ データ分析、マイニング、機械学習などに重要なデータ ソースを提供できます。

Python クローラーは関連ライブラリをインストールする必要があります:

Python クローラーに関連するライブラリ:

リクエスト ライブラリ、解析ライブラリ、ストレージ ライブラリ、ツール ライブラリ

1. リクエスト ライブラリ: urllib/re/requests

(1) urllib/re は Python にデフォルトで付属するライブラリで、次のコマンドで確認できます:

エラーメッセージは出力されず、環境が正常であることを示します

(2) インストールを要求します

2.1 CMD を開き、

pip3 install requests
## と入力します。 #2.2 インストールを待って確認します

## (3) Selenium のインストール (Web サイトへのアクセス動作のためにブラウザを駆動します)

3.1 CMD を開いて

と入力します
pip3 install selenium

3.2 chromedriver をインストールします

Web サイト: https://npm.taovao.org/

ダウンロードした圧縮パッケージを解凍し、exe を D:\Python3.6.0\Scripts\ に置きます

このパスは PATH 変数にのみ必要です

3.3 インストールが完了したら、確認してください

Enter キーを押してクロムブラウザ インターフェースがポップアップ表示されます

3.4 他のブラウザをインストールします

#インターフェースレス ブラウザ phantomjs

ダウンロード URL: http://phantomjs.org/

ダウンロード後、解凍してディレクトリ全体を配置します。 D:\Python3.6.0\Scripts\ に移動し、bin ディレクトリへのパスを PATH 変数に追加します。

Verification:

Open CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source

2. 解析ライブラリ:

2.1 lxml (XPATH)

CMD

pip3 install lxml

を開くか、https://pypi.python.org からダウンロードします。たとえば、lxml-4.1.1-cp36- cp36m-win_amd64.whl (md5)、まず whl ファイルをダウンロードします

pip3 install 文件名.whl

2.2 beautifulsoup

CMD を開くと、lxml

をインストールする必要があります。

pip3 install beautifulsoup4

検証

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)

2.3 pyquery (jquery構文に似ています)

CMDを開く

pip3 install pyquery

インストール結果を確認します

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result

#3. リポジトリ

3.1 pymysql (MySQL、リレーショナル データベースの操作)

インストール:

pip3 install pymysql

インストール後のテスト:

#3.2 pymongo (MongoDB の操作、キーと値)

インストール

pip3 install pymongo

検証

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})

3.3 redis (分散クローラー、クローリングキューの維持)

インストール:

pip3 install redis

検証:

4. ツールライブラリ

4.1 flask (WEBライブラリ)

pip3 install flask

4.2 Django (分散クローラメンテナンスシステム) )

pip3 install django

4.3 jupyter (Web ページ上で実行されるメモ帳、マークダウンをサポートし、Web ページ上でコードを実行できます)

pip3 install jupyter

検証:

CMD を開いた後

jupyter notebook

、Web ページ上でコードを直接実行できます メモ帳、コード ブロック、マークダウン ブロックを作成し、印刷をサポートします

[関連する推奨事項]

1.

Python クローラーライブラリと関連ツール

2.

Python クローラー入門チュートリアル

以上がPython クローラーのためにインストールする必要があるものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。