python爬蟲入門實戰之爬取網頁圖片-Python教學-PHP中文網

首頁

後端開發

Python教學

python爬蟲入門實戰之爬取網頁圖片

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 11, 2022 pm 12:06 PM

python

這篇文章為大家帶來了關於Python的相關知識，其中主要整理了爬取網頁圖片的相關問題，要想高效的獲取數據，爬蟲是非常好用的，而用python做爬蟲也十分簡單方便，下面透過一個簡單的小爬蟲程序來看一看寫爬蟲的基本過程，下面一起來看一下，希望對大家有幫助。

python爬蟲入門實戰之爬取網頁圖片

【相關推薦：Python3影片教學】

在現在這個資訊爆炸的時代，要想高效的獲取數據，爬蟲是非常好用的。而用python做爬蟲也十分簡單方便，下面透過一個簡單的小爬蟲程式來看一看寫爬蟲的基本過程：

準備工作

語言： python

IDE：pycharm

首先是要用到的函式庫，因為是剛入門最簡單的程序，我們主要就用到下面這兩：

import requests //用于请求网页
import re  //正则表达式，用于解析筛选网页中的信息

其中re是python自帶的，requests函式庫需要我們自己安裝，在命令列中輸入pip install requests即可。

然後隨便找一個網站，注意不要嘗試爬取隱私敏感信息，這裡找了個表情包網站：

註：此處表情包網站中的內容本來就可以免費下載，所以爬蟲只是簡化了我們一個個點的流程，注意不能爬取付費資源。

我們要做的就是透過爬蟲把這些表情包下載到我們電腦裡。

寫爬蟲程式

首先肯定要透過python造訪這個網站，程式碼如下：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)  //请求网页

其中之所以要加headers這一段是因為有些網頁會辨識到你是透過python請求的然後把你拒絕，所以我們要換個正常的請求頭。可以隨便找一個或f12從網路資訊複製一個。

然後我們要找到我們要爬取的圖片在網頁程式碼裡的位置，f12查看原始程式碼，找到表情符號如下：

接著建立符合規則，用正規表示式把中間那串替換掉，最簡單的就是.*?

t = '<img  src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="python爬蟲入門實戰之爬取網頁圖片" >'

像這樣。

然後就可以呼叫re庫裡的findall方法把相關內容爬下來了：

result = re.findall(t, response.text)

返回的內容是由字串組成的列表，最後我們經由爬到的地址通過python語句把圖片下來存到資料夾裡就行了。

程式碼

import requests
import re
import os

image = '表情包'
if not os.path.exists(image):
    os.mkdir(image)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
print(response.request.headers)
print(response.status_code)
t = '<img  src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="python爬蟲入門實戰之爬取網頁圖片" >'
result = re.findall(t, response.text)
for img in result:
    print(img)
    res = requests.get(img[0])
    print(res.status_code)
    s = img[0].split('.')[-1]  #截取图片后缀，得到表情包格式，如jpg ，gif
    with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
        file.write(res.content)

最後結果就是這個樣子：

【相關推薦：Python3影片教學】

以上是python爬蟲入門實戰之爬取網頁圖片的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：CSDN。如有侵權，請聯絡admin@php.cn刪除

Python的科學計算中如何使用陣列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何處理同一系統上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1）使用pyenv管理多個Python版本：安裝pyenv，設置全局和本地版本。 2）使用venv創建虛擬環境以隔離項目依賴。 3）使用Anaconda管理數據科學項目中的Python版本。 4）保留系統Python用於系統級任務。通過這些工具和策略，你可以有效地管理不同版本的Python，確保項目順利運行。

與標準Python陣列相比，使用Numpy數組的一些優點是什麼？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基於基於duetoc的iMplation，2）2）他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函數函數函數函數構成和穩定性構成和穩定性的操作，製造

陣列的同質性質如何影響性能？Apr 25, 2025 am 12:13 AM

數組的同質性對性能的影響是雙重的：1)同質性允許編譯器優化內存訪問，提高性能；2)但限制了類型多樣性，可能導致效率低下。總之，選擇合適的數據結構至關重要。

編寫可執行python腳本的最佳實踐是什麼？Apr 25, 2025 am 12:11 AM

到CraftCraftExecutablePythcripts，lollow TheSebestPractices：1）Addashebangline（＃！/usr/usr/bin/envpython3）tomakethescriptexecutable.2）setpermissionswithchmodwithchmod xyour_script.3）

Numpy數組與使用數組模塊創建的數組有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模塊與Python中的數組有何關係？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

See all articles