很多初學python爬蟲的朋友們都會遇到python爬蟲翻頁的問題,我在這裡先介紹一種。
需要爬取的網站如圖所示
查詢的這種植物有四頁。當我們平常翻頁時,首先想到肯定是點擊頁面上的下一頁,寫爬蟲也是如此,想提取頁面上的連結進行訪問。但是這樣做很麻煩,而且效率很低。
翻頁的方式一般有兩種:
1、觀察網站翻頁時連結變化
2、如果寫爬蟲的請求方式是post方式請求,則需要觀察post的資料的變化是否有規律
今天講得是第一種方法
#如圖,當我點擊下一頁時,觀察到網址列的連結變化
在連結中我們可以驚訝的發現,有page關鍵字,而且剛好為2,我們試驗一下,將連結中page的值改為3,發現正常訪問,正好是第三頁。因此,我們找到了翻頁方式,更改連結中關鍵字的值。
因此翻頁流程步驟為:
1、取得總網頁數目
#2、利用for迴圈改變page的值,進行翻頁。
具體翻頁程式碼實作如下:
取得總頁碼
#網路請求方式
改變請求頭中的page數值
更多Python相關技術文章,請造訪Python教學欄位學習!
以上是python爬蟲怎麼實現翻頁的詳細內容。更多資訊請關注PHP中文網其他相關文章!