簡單來說,就是建立一個程序,以自動化的方式從網路上下載、解析和組織資料。
就像我們瀏覽網頁的時候,對於我們感興趣的內容我們會複製粘貼到自己的筆記本中,方便下次閱讀瀏覽——網絡爬蟲幫我們自動完成這些內容
當然如果遇到一些無法複製貼上的網站——網路爬蟲就更能顯示它的力量了
當我們需要做一些資料分析的時候——而很多時候這些資料儲存在網頁中,手動下載需要花費的時間太長,這時候我們就需要網路爬蟲幫助我們自動爬取這些資料來(當然我們會過濾掉網頁上那些沒用的東西)
存取和收集網路資料有十分廣泛的應用,其中許多屬於資料科學領域我們來看看下面這些例子:
淘寶網的賣家需要從海量的評價中尋找到有用的正面的和反面的信息,來幫助他進一步抓住顧客的心,分析顧客的購物心理有學者在twitter、微博等社交媒體上爬取資訊來建構一個資料集,從而建立一個識別憂鬱症和自殺念頭的預測模型——讓更多需要援助的人得到幫助——當然我們也需要考慮到隱私相關的問題——但這很酷不是嗎?
作為一名人工智慧工程師,他們從Ins上爬取志願者所展示的喜好的圖片,來訓練深度學習模型,從而預測給出的圖像是否會被志願者所喜好—&mdash ;手機製造商將這些模型納入他們的圖片應用程式中,推送給你。電商平台的資料科學家爬取用戶瀏覽商品的信息,進行分析和預測,以便推送給用戶他最想要了解和購買的商品
是的!網路爬蟲的應用十分廣泛,小到我們日常用來批量爬取一些高清的壁紙,圖片;大到人工智慧、深度學習、商業策略制定的資料來源等。
這個時代是資料的時代,資料就是「新油」
沒錯,講到網路爬蟲一定繞不開的就是這個HTTP,當然我們不需要像網路工程師那樣詳細的了解協定定義的方方面面,但是作為入門我們還是得具有一定的認識才行
國際標準化組織ISO維護了開放式通訊系統互聯參考模型OSI,而該模型將電腦通訊結構分為七層
實體層:包括乙太網路協定、USB協定、藍牙協定等
資料鏈路層:包含乙太網路協定
網路層:包含IP協定
傳輸層:包含TCP、UDP協定
會話層:包含用於開啟/關閉和管理會話的協定
#表示層:包含保護格式也和翻譯資料的協定
應用程式層:包含HTTP和DNS網路服務協定
現在來看看HTTP請求和回應是什麼樣子的(因為後面會涉及自定義請求頭) 一般請求訊息由一下內容構成:
請求行
多個請求頭
#空行
可選的訊息主體
#具體的請求訊息:
GET https://www.baidu.com/?tn=80035161_1_dg HTTP/1.1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-GB;q=0.5,en;q=0.3 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362 Accept-Encoding: gzip, deflate, br Host: www.baidu.com Connection: Keep-Alive
這個是訪問百度時的請求,當然裡面的許多細節我們也不需要知道,因為python的request包會幫助我們完成我們的爬取
當然我們也能查看網頁對我們的請求返回的信息:
HTTP/1.1 200 OK //这边的状态码为200表示我们的请求成功 Bdpagetype: 2 Cache-Control: private Connection: keep-alive Content-Encoding: gzip Content-Type: text/html;charset=utf-8 Date: Sun, 09 Aug 2020 02:57:00 GMT Expires: Sun, 09 Aug 2020 02:56:59 GMT X-Ua-Compatible: IE=Edge,chrome=1 Transfer-Encoding: chunked
#我們知道其實python還預置了另外的處理HTTP的庫——urllib和urllib3,但requests函式庫學起來比較容易——程式碼比較簡潔易懂。當然當我們成功爬取下網頁時,將要將裡面我們感興趣的東西提取出來的時候, 我們會提到另一個十分有用的庫——美麗湯(Beautiful Soup)——這又是後話了
這裡我們可以直接找到requests的.whl檔案安裝,也可以直接使用pip來安裝(當然如果有pycharm的同學可以直接從裡面的環境載入中下載)
#下面我們開始正式爬取網頁
程式碼如下:
import requests target = 'https://www.baidu.com/' get_url = requests.get(url=target) print(get_url.status_code) print(get_url.text)
輸出結果
200 //返回状态码200表示请求成功 <!DOCTYPE html>//这里删除了很多内容,实际上输出的网页信息比这要多得多 <!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge> <meta content=always name=referrer> <link rel=stylesheet type=text/css src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>
上面五行程式碼做了很多事情,我們已經可以將網頁的HTML內容全部抓取
#第一行程式碼:載入requests函式庫第二行程式碼:給出需要爬取的網站第三行程式碼:使用requests進行請求一般的格式如下:
对象 = requests.get(url=你想要爬取的网站地址)
第四行程式碼:傳回請求的狀態碼第五行程式碼:輸出對應的內容主體
#當然我們也可以列印更多的內容
import requests target = 'https://www.baidu.com/' get_url = requests.get(url=target) # print(get_url.status_code) # print(get_url.text) print(get_url.reason)//返回状态 print(get_url.headers) //返回HTTP响应中包含的服务器头的内容(和上面展示的内容差不多) print(get_url.request) print(get_url.request.headers)//返回请求中头的内容
OK {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 09 Aug 2020 04:14:22 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:23:55 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'} <PreparedRequest [GET]> {'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
以上是Python網路爬蟲requests函式庫怎麼使用的詳細內容。更多資訊請關注PHP中文網其他相關文章!