仅有的幸福2017-06-28 09:27:48
這個需求, 如果你會爬蟲其實很簡單, 不外乎幾個步驟:
首頁或有圖片的頁面, 透過正規或其他框架, 取得圖片的url
透過requests
庫或urllib
庫, 訪問上面圖片url的地址
以二進位的形式, 寫入本地硬碟
參考碼:
import re, requests
r = requests.get("http://...页面地址..")
p = re.compile(r'相应的正则表达式匹配')
image = p.findall(r.text)[0] # 通过正则获取所有图片的url
ir = requests.get(image) # 访问图片的地址
sz = open('logo.jpg', 'wb').write(ir.content) # 将其内容写入本地
print('logo.jpg', sz,'bytes')
更多詳情, 可以參考學習requests
官方文件: requests文件
女神的闺蜜爱上我2017-06-28 09:27:48
可以的,
爬蟲五個部分:
調度程序
url去重
下載器
網頁解析
資料存儲
對於下載圖片的思路是:
獲取圖片所在網頁內容,解析img標籤,得到圖片地址,然後便利圖片網址,下載每張圖片,將下載過的圖片地址保存在布隆過濾器中,避免重複下載,每次下載一張圖片時,通過網址檢查是否下載過,當圖片下載到本地後,可以將圖片路徑保存在資料庫中,圖片檔案保存在資料夾中,或直接將圖片儲存在資料庫中。
python使用request+beautifulsoup4
java使用jsoup