首頁 >後端開發 >Python教學 >request庫爬蟲是什麼?如何使用? (實例講解)

request庫爬蟲是什麼?如何使用? (實例講解)

青灯夜游
青灯夜游轉載
2018-10-22 16:04:333479瀏覽

request庫爬蟲是什麼?如何使用?這篇文章帶給大家的內容是介紹request庫爬蟲是什麼?如何使用?透過實例講解。有一定的參考價值,有需要的朋友可以參考一下,希望對你們有幫助。

利用request.get()返回response物件爬出單一京東頁面資訊

import requests
url = "https://item.jd.com/21508090549.html"
try:
	r = requests.get(url)
	r.raise_for_status()          #检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

 如果用上面的程式碼存取亞馬遜頁面,就會爬取到錯誤訊息,因為亞馬遜robots協定中定義了不允許非主流瀏覽器對頁面進行訪問,所以要對request訪問信息中的'user-agent'設置

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
	#kv = {'user-agent':'Mozilla/5.0'}#假装访问浏览器为Mozilla/5.0
	r = requests.get(url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

 利用代碼模仿百度/360搜索

需要在url上新增參數百度的'wd=..'/360是'q=...'

import requests
url = "http://www.baidu.com/s"
keyword="python"
try:
	kv = {'wd':key}
	r = requests.get(url,params=kv)
	print(r.request.url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(len(r.text))#由于信息量可能特别大,这里只输出长度
except:
	print("爬取失败")

 爬取並儲存圖片

r​​rreee

 總結:以上就是這篇文章的全部內容,希望能對大家的學習有所幫助。更多相關教學請造訪C#影片教學

以上是request庫爬蟲是什麼?如何使用? (實例講解)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:csdn.net。如有侵權,請聯絡admin@php.cn刪除