這篇文章為大家帶來了關於Python的相關知識,其中主要整理了爬取網頁圖片的相關問題,要想高效的獲取數據,爬蟲是非常好用的,而用python做爬蟲也十分簡單方便,下面透過一個簡單的小爬蟲程序來看一看寫爬蟲的基本過程,下面一起來看一下,希望對大家有幫助。
【相關推薦:Python3影片教學 】
在現在這個資訊爆炸的時代,要想高效的獲取數據,爬蟲是非常好用的。而用python做爬蟲也十分簡單方便,下面透過一個簡單的小爬蟲程式來看一看寫爬蟲的基本過程:
準備工作
語言: python
IDE:pycharm
首先是要用到的函式庫,因為是剛入門最簡單的程序,我們主要就用到下面這兩:
import requests //用于请求网页 import re //正则表达式,用于解析筛选网页中的信息
其中re是python自帶的,requests函式庫需要我們自己安裝,在命令列中輸入pip install requests即可。
然後隨便找一個網站,注意不要嘗試爬取隱私敏感信息,這裡找了個表情包網站:
註:此處表情包網站中的內容本來就可以免費下載,所以爬蟲只是簡化了我們一個個點的流程,注意不能爬取付費資源。
我們要做的就是透過爬蟲把這些表情包下載到我們電腦裡。
寫爬蟲程式
首先肯定要透過python造訪這個網站,程式碼如下:
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' } response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页
其中之所以要加headers這一段是因為有些網頁會辨識到你是透過python請求的然後把你拒絕,所以我們要換個正常的請求頭。可以隨便找一個或f12從網路資訊複製一個。
然後我們要找到我們要爬取的圖片在網頁程式碼裡的位置,f12查看原始程式碼,找到表情符號如下:
接著建立符合規則,用正規表示式把中間那串替換掉,最簡單的就是.*?
t = '<img src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="python爬蟲入門實戰之爬取網頁圖片" >'
像這樣。
然後就可以呼叫re庫裡的findall方法把相關內容爬下來了:
result = re.findall(t, response.text)
返回的內容是由字串組成的列表,最後我們經由爬到的地址通過python語句把圖片下來存到資料夾裡就行了。
程式碼
import requests import re import os image = '表情包' if not os.path.exists(image): os.mkdir(image) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' } response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) response.encoding = 'GBK' response.encoding = 'utf-8' print(response.request.headers) print(response.status_code) t = '<img src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="python爬蟲入門實戰之爬取網頁圖片" >' result = re.findall(t, response.text) for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)
最後結果就是這個樣子:
【相關推薦:Python3影片教學 】
以上是python爬蟲入門實戰之爬取網頁圖片的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Arraysinpython,尤其是Vianumpy,ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1)Heasuedfornumerericalicerationalation,dataAnalysis和Machinelearning.2)Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3)inthanypythonlists.3)andAreseNableAblequick

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1)使用pyenv管理多個Python版本:安裝pyenv,設置全局和本地版本。 2)使用venv創建虛擬環境以隔離項目依賴。 3)使用Anaconda管理數據科學項目中的Python版本。 4)保留系統Python用於系統級任務。通過這些工具和策略,你可以有效地管理不同版本的Python,確保項目順利運行。

numpyarrayshaveseveraladagesoverandastardandpythonarrays:1)基於基於duetoc的iMplation,2)2)他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory,尤其是WithlargedAtasets和3)效率化,效率化,矢量化函數函數函數函數構成和穩定性構成和穩定性的操作,製造

數組的同質性對性能的影響是雙重的:1)同質性允許編譯器優化內存訪問,提高性能;2)但限制了類型多樣性,可能導致效率低下。總之,選擇合適的數據結構至關重要。

到CraftCraftExecutablePythcripts,lollow TheSebestPractices:1)Addashebangline(#!/usr/usr/bin/envpython3)tomakethescriptexecutable.2)setpermissionswithchmodwithchmod xyour_script.3)

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata,而learthearrayModuleSutableforbasic,內存效率段

numpyArraySareAreBetterForHeAvyNumericalComputing,而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1)NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2)

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1)usectypestoInterfacewithClibrariesForperfermance.2)createc-stylec-stylec-stylarraysfornumericalcomputations.3)passarraystocfunctions foreforfunctionsforeffortions.however.however,However,HoweverofiousofmemoryManageManiverage,Pressiveo,Pressivero


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

WebStorm Mac版
好用的JavaScript開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能