搜尋
首頁後端開發Python教學Python網路爬蟲requests函式庫怎麼使用

1. 什麼是網路爬蟲

簡單來說,就是建立一個程序,以自動化的方式從網路上下載、解析和組織資料。

就像我們瀏覽網頁的時候,對於我們感興趣的內容我們會複製粘貼到自己的筆記本中,方便下次閱讀瀏覽——網絡爬蟲幫我們自動完成這些內容

當然如果遇到一些無法複製貼上的網站——網路爬蟲就更能顯示它的力量了

為什麼需要網路爬蟲

當我們需要做一些資料分析的時候——而很多時候這些資料儲存在網頁中,手動下載需要花費的時間太長,這時候我們就需要網路爬蟲幫助我們自動爬取這些資料來(當然我們會過濾掉網頁上那些沒用的東西)

網路爬蟲的應用

存取和收集網路資料有十分廣泛的應用,其中許多屬於資料科學領域我們來看看下面這些例子:

淘寶網的賣家需要從海量的評價中尋找到有用的正面的和反面的信息,來幫助他進一步抓住顧客的心,分析顧客的購物心理有學者在twitter、微博等社交媒體上爬取資訊來建構一個資料集,從而建立一個識別憂鬱症和自殺念頭的預測模型——讓更多需要援助的人得到幫助——當然我們也需要考慮到隱私相關的問題——但這很酷不是嗎?

作為一名人工智慧工程師,他們從Ins上爬取志願者所展示的喜好的圖片,來訓練深度學習模型,從而預測給出的圖像是否會被志願者所喜好—&mdash ;手機製造商將這些模型納入他們的圖片應用程式中,推送給你。電商平台的資料科學家爬取用戶瀏覽商品的信息,進行分析和預測,以便推送給用戶他最想要了解和購買的商品

是的!網路爬蟲的應用十分廣泛,小到我們日常用來批量爬取一些高清的壁紙,圖片;大到人工智慧、深度學習、商業策略制定的資料來源等。

這個時代是資料的時代,資料就是「新油」

2. 網路傳輸協定HTTP

沒錯,講到網路爬蟲一定繞不開的就是這個HTTP,當然我們不需要像網路工程師那樣詳細的了解協定定義的方方面面,但是作為入門我們還是得具有一定的認識才行

國際標準化組織ISO維護了開放式通訊系統互聯參考模型OSI,而該模型將電腦通訊結構分為七層

  1. 實體層:包括乙太網路協定、USB協定、藍牙協定等

  2. 資料鏈路層:包含乙太網路協定

  3. 網路層:包含IP協定

  4. 傳輸層:包含TCP、UDP協定

  5. 會話層:包含用於開啟/關閉和管理會話的協定

  6. #表示層:包含保護格式也和翻譯資料的協定

  7. 應用程式層:包含HTTP和DNS網路服務協定

現在來看看HTTP請求和回應是什麼樣子的(因為後面會涉及自定義請求頭) 一般請求訊息由一下內容構成:

  • 請求行

  • 多個請求頭

  • #空行

  • 可選的訊息主體

#具體的請求訊息:

GET https://www.baidu.com/?tn=80035161_1_dg HTTP/1.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-GB;q=0.5,en;q=0.3
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362
Accept-Encoding: gzip, deflate, br
Host: www.baidu.com
Connection: Keep-Alive

這個是訪問百度時的請求,當然裡面的許多細節我們也不需要知道,因為python的request包會幫助我們完成我們的爬取

當然我們也能查看網頁對我們的請求返回的信息:

HTTP/1.1 200 OK //这边的状态码为200表示我们的请求成功
Bdpagetype: 2
Cache-Control: private
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html;charset=utf-8
Date: Sun, 09 Aug 2020 02:57:00 GMT
Expires: Sun, 09 Aug 2020 02:56:59 GMT
X-Ua-Compatible: IE=Edge,chrome=1
Transfer-Encoding: chunked

3. requests庫(不喜歡理論知識的同學們可以直接來這裡哦)

#我們知道其實python還預置了另外的處理HTTP的庫——urllib和urllib3,但requests函式庫學起來比較容易——程式碼比較簡潔易懂。當然當我們成功爬取下網頁時,將要將裡面我們感興趣的東西提取出來的時候, 我們會提到另一個十分有用的庫——美麗湯(Beautiful Soup)——這又是後話了

1. requests庫的安裝

這裡我們可以直接找到requests的.whl檔案安裝,也可以直接使用pip來安裝(當然如果有pycharm的同學可以直接從裡面的環境載入中下載)

2. 實戰

#下面我們開始正式爬取網頁

程式碼如下:

import requests
target = 'https://www.baidu.com/'
get_url = requests.get(url=target)
print(get_url.status_code)
print(get_url.text)

輸出結果

200 //返回状态码200表示请求成功
<!DOCTYPE html>//这里删除了很多内容,实际上输出的网页信息比这要多得多
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;
charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge>
<meta content=always name=referrer>
<link rel=stylesheet type=text/css 
src=//www.baidu.com/img/gs.gif> 
</p> </div> </div> </div> </body> </html>

上面五行程式碼做了很多事情,我們已經可以將網頁的HTML內容全部抓取

#第一行程式碼:載入requests函式庫第二行程式碼:給出需要爬取的網站第三行程式碼:使用requests進行請求一般的格式如下:

对象 = requests.get(url=你想要爬取的网站地址)

第四行程式碼:傳回請求的狀態碼第五行程式碼:輸出對應的內容主體

#當然我們也可以列印更多的內容

import requests

target = &#39;https://www.baidu.com/&#39;
get_url = requests.get(url=target)
# print(get_url.status_code)
# print(get_url.text)
print(get_url.reason)//返回状态
print(get_url.headers)
//返回HTTP响应中包含的服务器头的内容(和上面展示的内容差不多)
print(get_url.request)
print(get_url.request.headers)//返回请求中头的内容
OK
{&#39;Cache-Control&#39;: &#39;private, no-cache, no-store, proxy-revalidate, no-transform&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;, 
&#39;Content-Encoding&#39;: &#39;gzip&#39;, 
&#39;Content-Type&#39;: &#39;text/html&#39;, 
&#39;Date&#39;: &#39;Sun, 09 Aug 2020 04:14:22 GMT&#39;,
&#39;Last-Modified&#39;: &#39;Mon, 23 Jan 2017 13:23:55 GMT&#39;, 
&#39;Pragma&#39;: &#39;no-cache&#39;, 
&#39;Server&#39;: &#39;bfe/1.0.8.18&#39;, 
&#39;Set-Cookie&#39;: &#39;BDORZ=27315; max-age=86400; domain=.baidu.com; path=/&#39;, &#39;Transfer-Encoding&#39;: &#39;chunked&#39;}
<PreparedRequest [GET]>
{&#39;User-Agent&#39;: &#39;python-requests/2.22.0&#39;, 
&#39;Accept-Encoding&#39;: &#39;gzip, deflate&#39;, 
&#39;Accept&#39;: &#39;*/*&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;}

以上是Python網路爬蟲requests函式庫怎麼使用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:亿速云。如有侵權,請聯絡admin@php.cn刪除
Python與C:學習曲線和易用性Python與C:學習曲線和易用性Apr 19, 2025 am 12:20 AM

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

Python vs. C:內存管理和控制Python vs. C:內存管理和控制Apr 19, 2025 am 12:17 AM

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理,基于引用计数和垃圾回收,简化了程序员的工作。2.C 则要求手动管理内存,提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

科學計算的Python:詳細的外觀科學計算的Python:詳細的外觀Apr 19, 2025 am 12:15 AM

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能,提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

Python和C:找到合適的工具Python和C:找到合適的工具Apr 19, 2025 am 12:04 AM

選擇Python還是C 取決於項目需求:1)Python適合快速開發、數據科學和腳本編寫,因其簡潔語法和豐富庫;2)C 適用於需要高性能和底層控制的場景,如係統編程和遊戲開發,因其編譯型和手動內存管理。

數據科學和機器學習的Python數據科學和機器學習的PythonApr 19, 2025 am 12:02 AM

Python在數據科學和機器學習中的應用廣泛,主要依賴於其簡潔性和強大的庫生態系統。 1)Pandas用於數據處理和分析,2)Numpy提供高效的數值計算,3)Scikit-learn用於機器學習模型構建和優化,這些庫讓Python成為數據科學和機器學習的理想工具。

學習Python:2小時的每日學習是否足夠?學習Python:2小時的每日學習是否足夠?Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python:關鍵應用程序Web開發的Python:關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

Python vs.C:探索性能和效率Python vs.C:探索性能和效率Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境