爬蟲能取得什麼樣的資料和具體的解析方式-Python教學-PHP中文網

首頁

後端開發

Python教學

爬蟲能取得什麼樣的資料和具體的解析方式

爱喝马黛茶的安东尼

Jun 05, 2019 am 11:12 AM

python數據爬蟲

隨著網路的快速發展，越來越多的數據充斥著這個時代。而取得和處理資料就成為我們生活中不可或缺的部分，爬蟲也是應運而生。

眾多語言都能進行爬蟲，但基於python的爬蟲顯得更加簡潔，方便。爬蟲也成了python語言中不可或缺的一部分。那我們透過爬蟲可以獲得什麼樣的資料呢？又有什麼樣的解析方式呢？

在上一篇文章跟大家介紹的是爬蟲基本流程Request和Response的介紹，這篇帶給大家的是爬蟲可以取得什麼樣的資料和它的具體解析方式。

爬蟲能取得什麼樣的資料和具體的解析方式

能抓到什麼樣的資料？

網頁文字：如HTML 文檔，Ajax載入的Json格式文字等；

圖片，影片等：取得到的是二進位文件，儲存為圖片或影片格式；

其他只要能請求到的，都能取得。

示範

import requests
 
headers = {&#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36&#39;}
resp = requests.get(&#39;http://www.baidu.com/img/baidu_jgylogo3.gif&#39;,headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open(&#39;logo.gif&#39;,&#39;wb&#39;) as f:
    f.write(resp.content)
    print(&#39;Ok&#39;)

成功運作就可以看到列印出來的圖片的二進位數據，可儲存成功後列印的OK ，這時候我們打開資料夾就可以看到下載下來的圖片了。這幾行程式碼就簡單的示範了爬蟲保存檔案的過程。

解析方式有哪些？

直接處理，例如簡單的頁面文檔，只要去除一些空格的資料；

Json解析，處理Ajax載入的頁面；

正規表示式；

#BeautifulSoup函式庫；

##PyQuery；

XPath。

總結

## 看到這裡，大家是不是已經對爬蟲的基本運作方式有了清楚的認識了。當然，羅馬並不是一天建成的，只要累積了足夠的經驗，大家一定能成為爬蟲大神的。相信大家把我分享的相關資料看完，一定會成功的。

以上是爬蟲能取得什麼樣的資料和具體的解析方式的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：CSDN。如有侵權，請聯絡admin@php.cn刪除

您如何切成python陣列？May 01, 2025 am 12:18 AM

Python列表切片的基本語法是list[start:stop:step]。 1.start是包含的第一個元素索引，2.stop是排除的第一個元素索引，3.step決定元素之間的步長。切片不僅用於提取數據，還可以修改和反轉列表。

在什麼情況下，列表的表現比數組表現更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/刪除，2）儲存的二聚體和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何將Python數組轉換為Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，請考慮performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

當Python中存在列表時，使用數組的目的是什麼？May 01, 2025 am 12:04 AM

choosearraysoverlistsinpythonforbetterperformanceandmemoryfliceSpecificScenarios.1）largenumericaldatasets：arraysreducememoryusage.2）績效 - 臨界雜貨：arraysoffersoffersOffersOffersOffersPoostSfoostSforsssfortasssfortaskslikeappensearch orearch.3）testessenforcety：arraysenforce：arraysenforc