搜尋
首頁後端開發Python教學詳解python爬蟲利器Selenium使用方法
詳解python爬蟲利器Selenium使用方法Mar 08, 2017 am 11:25 AM
python爬蟲

簡介:

用pyhon爬取動態頁面時普通的urllib2無法實現,例如下面的京東首頁,隨著滾動條的下拉會載入新的內容,而urllib2無法抓取這些內容,此時就需要今天的主角selenium。

詳解python爬蟲利器Selenium使用方法

Selenium是用於Web應用程式測試的工具。 Selenium測試直接運行在瀏覽器中,就像真正的使用者在操作一樣。支援的瀏覽器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取頁面也十分方便,只需要按照訪問步驟模擬人在操作就可以了,完全不用操心Cookie,Session的處理,它甚至可以幫助你輸入帳戶,密碼,然後點擊登陸按鈕,對於上面的滾動條,你只要讓瀏覽器滾到最低端,然後儲存頁面就可以了。以上的這些功能在應對一些反爬蟲機制時十分有用。接下來就開始我們的解說正文,帶領大家實現一個需要登入的動態網頁的爬取。

 案例實作:

使用selnium需要選擇一個呼叫的瀏覽器並下載好對應的驅動,在桌面版可以選擇Chrome, FireFox等,伺服器端可以使用PhantomJS,桌面版可以直接調出來瀏覽器觀察到變化,所以一般我們可以在桌面版用Chrome等調試好之後,將瀏覽器改為PhantomJS然後上傳到伺服器使其運行,這裡我們直接以PhantomJS做示範.

首先時導入模組:

 from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 from selenium import webdriver

##接下來時初始化一個瀏覽器,參數中可以指定載入網頁的一些屬性:

cap = webdriver.DesiredCapabilities.PHANTOMJS
cap["phantomjs.page.settings.resourceTimeout"] = 180
cap["phantomjs.page.settings.loadImages"] = False

driver = webdriver.PhantomJS(executable_path="/home/gaorong/phantomjs-2.1.1-linux-x86_64/bin/phantomjs", desired_capabilities=cap)

#上面初始了PhantomJS並設定了瀏覽器的路徑,載入屬性選擇了資源載入逾時時間和不載入圖片(我們只關心網頁文字)。在 這裡 還可以選擇其他設定。

 設定一些屬性,並下載一個網頁

#

driver.set_page_load_timeout(180)     
driver.get('http://www.php.cn/')
time.sleep(5)
driver.save_screenshot('./login.png')   #为便于调试,保存网页的截图

 

 由於伺服器端運作難免出錯,可以用save_screenshot儲存目前網頁的頁面以便於除錯。

接下來就是輸入帳號和密碼登陸,以取得網站的Cookies,以便於後面請求。

#输入username和password 
driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[1]").send_keys('*****')   
time.sleep(1)
print 'input user success!!!'

driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[2]").send_keys('****')
time.sleep(1)
print 'input password success!!!'

driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/button").click()
time.sleep(5)

 上面程式碼使用find_element_by_xpath取得輸入框的位置後輸入帳號和密碼並點選登陸鍵,可以看到一些都很方便。它會自動跳到下一個頁面,我們只需要sleep幾秒鐘等待它。

我們需要爬取的網頁資訊在某個特定的element裡,所以我們要判斷這個element是否出現:

try:
     element = WebDriverWait(driver, 10).until(
         EC.presence_of_element_located((By.CLASS_NAME, 'pulses'))
     )
     print 'find element!!!'        
 except:
     print 'not find element!!!'
     print traceback.format_exc()
     driver.quit()

上面判斷class為'pulse' 這個element是否出現,如果等待10s後還未出現,則selenum會爆出TimeoutError錯誤。

上面就進行了基本的初始化,然後就需要處理動態的內容了,這個網頁像京東一樣會隨著下拉自動出現內容,所以我們需要實作下拉捲軸:

print 'begin scroll to get info page...'
t1 = time.time()
n = 60   #这里可以控制网页滚动距离
for i in range(1,n+1):
    s = "window.scrollTo(0,document.body.scrollHeight/{0}*{1});".format(n,i)
    #输出滚动位置,网页大小,和时间
    print s, len(driver.page_source),time.time()-t1
    driver.execute_script(s)
    time.sleep(2)

其中driver.page_source就是要取得網頁文字。當滾動完畢後我們就可以呼叫它然後寫到一個檔案裡。這樣就完成這個的程序邏輯了。

進階:

用selenim可以應付常見的反爬蟲策略,因為相當於一個人在瀏覽網頁,但是對於驗證碼這些還需要做額外的處理,還有一點就是訪問速度不能過快,畢竟他需要調用一個瀏覽器,如果嫌他速度慢的話我們可以在必要的時候使用他,非必要時候可以使用requests庫進行操作。

這裡有兩篇部落格大家可以參考查閱:Python爬蟲利器五之Selenium用法 和 常用函數 


以上是詳解python爬蟲利器Selenium使用方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何解決Linux終端中查看Python版本時遇到的權限問題?如何解決Linux終端中查看Python版本時遇到的權限問題?Apr 01, 2025 pm 05:09 PM

Linux終端中查看Python版本時遇到權限問題的解決方法當你在Linux終端中嘗試查看Python的版本時,輸入python...

我如何使用美麗的湯來解析HTML?我如何使用美麗的湯來解析HTML?Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。 它詳細介紹了常見方法,例如find(),find_all(),select()和get_text(),以用於數據提取,處理不同的HTML結構和錯誤以及替代方案(SEL)

python對象的序列化和避難所化:第1部分python對象的序列化和避難所化:第1部分Mar 08, 2025 am 09:39 AM

Python 對象的序列化和反序列化是任何非平凡程序的關鍵方面。如果您將某些內容保存到 Python 文件中,如果您讀取配置文件,或者如果您響應 HTTP 請求,您都會進行對象序列化和反序列化。 從某種意義上說,序列化和反序列化是世界上最無聊的事情。誰會在乎所有這些格式和協議?您想持久化或流式傳輸一些 Python 對象,並在以後完整地取回它們。 這是一種在概念層面上看待世界的好方法。但是,在實際層面上,您選擇的序列化方案、格式或協議可能會決定程序運行的速度、安全性、維護狀態的自由度以及與其他系

Python中的數學模塊:統計Python中的數學模塊:統計Mar 09, 2025 am 11:40 AM

Python的statistics模塊提供強大的數據統計分析功能,幫助我們快速理解數據整體特徵,例如生物統計學和商業分析等領域。無需逐個查看數據點,只需查看均值或方差等統計量,即可發現原始數據中可能被忽略的趨勢和特徵,並更輕鬆、有效地比較大型數據集。 本教程將介紹如何計算平均值和衡量數據集的離散程度。除非另有說明,本模塊中的所有函數都支持使用mean()函數計算平均值,而非簡單的求和平均。 也可使用浮點數。 import random import statistics from fracti

如何使用TensorFlow或Pytorch進行深度學習?如何使用TensorFlow或Pytorch進行深度學習?Mar 10, 2025 pm 06:52 PM

本文比較了Tensorflow和Pytorch的深度學習。 它詳細介紹了所涉及的步驟:數據準備,模型構建,培訓,評估和部署。 框架之間的關鍵差異,特別是關於計算刻度的

用美麗的湯在Python中刮擦網頁:搜索和DOM修改用美麗的湯在Python中刮擦網頁:搜索和DOM修改Mar 08, 2025 am 10:36 AM

該教程建立在先前對美麗湯的介紹基礎上,重點是簡單的樹導航之外的DOM操縱。 我們將探索有效的搜索方法和技術,以修改HTML結構。 一種常見的DOM搜索方法是EX

如何使用Python創建命令行接口(CLI)?如何使用Python創建命令行接口(CLI)?Mar 10, 2025 pm 06:48 PM

本文指導Python開發人員構建命令行界面(CLIS)。 它使用Typer,Click和ArgParse等庫詳細介紹,強調輸入/輸出處理,並促進用戶友好的設計模式,以提高CLI可用性。

哪些流行的Python庫及其用途?哪些流行的Python庫及其用途?Mar 21, 2025 pm 06:46 PM

本文討論了諸如Numpy,Pandas,Matplotlib,Scikit-Learn,Tensorflow,Tensorflow,Django,Blask和請求等流行的Python庫,並詳細介紹了它們在科學計算,數據分析,可視化,機器學習,網絡開發和H中的用途

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用