沒想到python是如此強大,令人著迷,以前看見圖片總是一張一張複製粘貼,現在好了,學會python就可以用程序將一張張圖片,保存下來。以下這篇文章主要為大家介紹了利用Python3.6爬取搜狗圖片網頁中圖片的相關資料,需要的朋友可以參考下。
前言
最近幾天,研究了一下一直很好奇的爬蟲演算法。這裡寫一下最近幾天的點點心得。下面進入正文:
我們這裡以sogou作為爬取的物件。
首先我們進入搜狗圖片,進入壁紙分類(當然只是個例子Q_Q),因為如果需要爬取某網站資料,那麼就要初步的了解它…
進去後就是這個啦,然後F12進入開發人員選項,筆者用的是Chrome。
右鍵圖片>>檢查
發現我們需要的圖片src是在img標籤下的,於是先試著用Python 的requests提取該元件,進而取得img的src然後使用urllib.request.urlretrieve逐一下載圖片,從而達到批量獲取資料的目的,思路好了,下面應該告訴程式要爬取的url為http://pic.sogou.com/ pics/recommend?category=%B1%DA%D6%BD,此url來自進入分類後的網址列。明白了url地址我們來開始愉快的程式碼時間:
在寫這段爬蟲程式的時候,最好要逐步調試,確保我們的每一步操作正確,這也是程式猿應該有的好習慣。筆者不知道自己算不算個程式猿哈。線面我們來剖析該url所指向的網頁。
import requests import urllib from bs4 import BeautifulSoup res = requests.get('http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD') soup = BeautifulSoup(res.text,'html.parser') print(soup.select('img'))
output:
發現輸出內容並不包含我們要的圖片元素,而是只剖析到logo的img,這顯然不是我們想要的。也就是說需要的圖片資料不在url 即 http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD裡面。因此考慮可能該元素是動態的,細心的同學可能會發現,當在網頁內,向下滑動滑鼠滾輪,圖片是動態刷新出來的,也就是說,該網頁並不是一次加載出全部資源,而是動態載入資源。這也避免了因為網頁過於臃腫,而影響載入速度。下面痛苦的探索開始了,我們是要找到所有圖片的真正的url 筆者也是剛剛接觸,找這個不是太有經驗。最後找的位置F12>>Network>>XHR>>(點擊XHR下的文件)>>Preview。
發現,有點接近我們需要的元素了,點開all_items 發現下面是0 1 2 3...一個一個的貌似是圖片元素。試著打開一個url。發現真的是圖片的地址。找到目標之後。點選XHR下的Headers
得到第二行
Request URL:
http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category= %E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start=0&len=15&width=1536&height=864,試著去掉一些不必要的部分,技巧就是,刪除可能的部分之後,訪問不受影響。經筆者篩選。最後得到的url:http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start =0&len=15 字面意思,知道category後面可能為分類。 start為開始下標,len為長度,也即圖片的數量。好了,開始愉快的程式碼時間:
開發環境為Win7 Python 3.6,運作的時候Python需要安裝requests,
Python3.6 安裝requests 應該CMD敲入:
pip install requests
筆者在這裡也是邊調試邊寫,這裡把最終的程式碼貼出來:
import requests import json import urllib def getSogouImag(category,length,path): n = length cate = category imgs = requests.get('http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n)) jd = json.loads(imgs.text) jd = jd['all_items'] imgs_url = [] for j in jd: imgs_url.append(j['bthumbUrl']) m = 0 for img_url in imgs_url: print('***** '+str(m)+'.jpg *****'+' Downloading...') urllib.request.urlretrieve(img_url,path+str(m)+'.jpg') m = m + 1 print('Download complete!') getSogouImag('壁纸',2000,'d:/download/壁纸/')
程式跑起來的時候,筆者還是有點小激動的。來,感受一下:
At this point, the description of the programming process of the crawler program is completed. Overall, finding the URL where the element needs to be crawled is the key in many aspects of the crawler
以上是詳解Python爬取網頁中的搜狗圖片方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。

選擇Python還是C 取決於項目需求:1)如果需要快速開發、數據處理和原型設計,選擇Python;2)如果需要高性能、低延遲和接近硬件的控制,選擇C 。

通過每天投入2小時的Python學習,可以有效提升編程技能。 1.學習新知識:閱讀文檔或觀看教程。 2.實踐:編寫代碼和完成練習。 3.複習:鞏固所學內容。 4.項目實踐:應用所學於實際項目中。這樣的結構化學習計劃能幫助你係統掌握Python並實現職業目標。

在兩小時內高效學習Python的方法包括:1.回顧基礎知識,確保熟悉Python的安裝和基本語法;2.理解Python的核心概念,如變量、列表、函數等;3.通過使用示例掌握基本和高級用法;4.學習常見錯誤與調試技巧;5.應用性能優化與最佳實踐,如使用列表推導式和遵循PEP8風格指南。

Python適合初學者和數據科學,C 適用於系統編程和遊戲開發。 1.Python簡潔易用,適用於數據科學和Web開發。 2.C 提供高性能和控制力,適用於遊戲開發和系統編程。選擇應基於項目需求和個人興趣。

Python更適合數據科學和快速開發,C 更適合高性能和系統編程。 1.Python語法簡潔,易於學習,適用於數據處理和科學計算。 2.C 語法複雜,但性能優越,常用於遊戲開發和系統編程。

每天投入兩小時學習Python是可行的。 1.學習新知識:用一小時學習新概念,如列表和字典。 2.實踐和練習:用一小時進行編程練習,如編寫小程序。通過合理規劃和堅持不懈,你可以在短時間內掌握Python的核心概念。

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載
最受歡迎的的開源編輯器

禪工作室 13.0.1
強大的PHP整合開發環境