首頁 >後端開發 >Python教學 >python爬蟲需要安裝什麼

python爬蟲需要安裝什麼

藏色散人
藏色散人原創
2019-07-05 10:28:2710934瀏覽

 python爬蟲需要安裝什麼

世界上80%的爬蟲是基於Python開發的,學好爬蟲技能,可為後續的大數據分析、挖掘、機器學習等提供重要的資料來源。

python爬蟲需要安裝相關庫:

python爬蟲涉及的庫:

請求庫,解析庫,存儲庫,工具庫

1. 請求庫:urllib/re/requests

(1) urllib/re是python預設自帶的函式庫,可以透過以下指令進行驗證:

#沒有報錯訊息輸出,表示環境正常

(2) requests安裝

2.1 開啟CMD,輸入

pip3 install requests

2.2 等待安裝後,驗證

(3) selenium安裝(驅動瀏覽器進行網站存取行為)

3.1 開啟CMD,輸入

pip3 install selenium

3.2 安裝chromedriver

網址:https://npm.taobao.org/

把下載完成後的壓縮套件解壓縮,把exe放到D:\Python3.6.0\Scripts\

#這個路徑只要在PATH變數就可以

3.3 等待安裝完成後,驗證

回車後彈出chrome瀏覽器介面

3.4 安裝其他瀏覽器

無介面瀏覽器phantomjs

下載網址:http://phantomjs.org/

下載完成後解壓縮,把整個目錄放到D:\Python3.6.0\Scripts\,把bin目錄的路徑加入PATH變數

驗證:

開啟CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source

2. 解析函式庫:

2.1 lxml (XPATH)

開啟CMD

pip3 install lxml

或從https://pypi.python.org下載,例如,lxml-4.1.1-cp36- cp36m-win_amd64.whl (md5) ,先下載whl檔案

pip3 install 文件名.whl

2.2 beautifulsoup

#開啟CMD,需要先安裝好lxml

pip3 install beautifulsoup4

驗證

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)

#

pip3 install pyquery

# #2.3 pyquery(類似jquery語法)

開啟CMD

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result

驗證安裝結果

pip3 install pymysql

3. 儲存庫

3.1 pymysql(操作MySQL,關係型資料庫)

#安裝:

pip3 install pymongo

安裝後測試:

 

3.2 pymongo(操作MongoDB,key-value)

安裝

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})

驗證

#

pip3 install redis

 

3.3 redis(分散式爬蟲,維護爬取佇列)

安裝:

pip3 install flask

驗證:

4.工具庫

4.1 flask(WEB庫)###
pip3 install django
############ 4.2 Django(分散式爬蟲維護系統)###
pip3 install jupyter
#### 4.3 jupyter(執行在網頁端的記事本,支援markdown,可以在網頁上執行程式碼)###
jupyter notebook
### 驗證:######開啟CMD###rrreee###之後就可以在網頁直接建立記事本,程式碼區塊和Markdown區塊,支援列印######【相關推薦】#######1. ###python爬蟲庫以及相關利器#########2. ###python爬蟲入門教學#######

以上是python爬蟲需要安裝什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn