學習Python網路爬蟲都需要安裝哪些函式庫?
以下是Python爬蟲涉及的相關庫
#請求庫,解析庫,儲存庫,工具庫
1、請求庫:urllib/re/requests
(1) urllib/re是python預設自帶的函式庫,可以透過以下指令進行驗證:
沒有報錯訊息輸出,表示環境正常
(2) requests安裝
#2.1 開啟CMD,輸入pip3 install requests
2.2 等待安裝後,驗證
(3) selenium安裝(驅動瀏覽器進行網站存取行為)
3.1 開啟CMD,輸入 pip3 install selenium
#3.2 安裝chromedriver
網址:https://npm.taobao.org/
把下載完成後的壓縮包解壓縮,把exe放到D:\Python3.6.0 \Scripts\
這個路徑只要在PATH變數中就可以
3.3 等待安裝完成後,驗證
回車後彈出chrome瀏覽器介面
3.4 安裝其他瀏覽器
#無介面瀏覽器phantomjs
下載網址:http://phantomjs.org/
#下載完成後解壓縮,把整個目錄放到D:\Python3.6.0\Scripts\,把bin目錄的路徑加到PATH變數
驗證:
開啟CMD
#2. 解析函式庫:
2.1 lxml (XPATH)
開啟CMD輸入pip3 install lxml或從https://pypi.python.org下載,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下載whl文件,命令列執行pip3 install 檔案名稱.whl
2.2 beautifulsoup
開啟CMD,需要先安裝好lxml
pip3 install beautifulsoup4
以上是python 爬蟲安裝什麼包的詳細內容。更多資訊請關注PHP中文網其他相關文章!