爬蟲｜Python爬取B站小姐圖片，學習的動力！-Python教學-PHP中文網

首頁

後端開發

Python教學

爬蟲｜Python爬取B站小姐圖片，學習的動力！

Python当打之年

Aug 09, 2023 pm 05:11 PM

python

本期介紹如何

用Python爬取B站小姐姐圖片

，希望對你有幫助。

1.網頁分析

###########直接開啟B站（bilibili）搜尋' #########小姐姐#########'：##########

一共有5#頁內容，以第2頁為例，F12開啟網頁原始碼：

#搜尋第一個title，我們可以找到對應的XHR請求，仔細分析發現所有的資料都存在於一個json格式的資料集裡，我們的目標就在result列表中。

檢查Headers如下：

爬蟲｜Python爬取B站小姐圖片，學習的動力！

這是一個get請求，請求參賽數有page和 #keyword兩個參賽，分別對應請求的頁碼和關鍵字。

多看幾頁找規律：

# 第一页
&#39;https://api.bilibili.com/x/web-interface/search/all/v2?context=&page=1&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&tids=0&highlight=1&single_column=0&#39;
# 第二页
&#39;https://api.bilibili.com/x/web-interface/search/type?context=&page=2&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&search_type=video&tids=0&highlight=1&single_column=0&#39;
# 第三页
&#39;https://api.bilibili.com/x/web-interface/search/type?context=&page=3&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&search_type=video&tids=0&highlight=1&single_column=0&#39;

可以看到除了第1頁不一樣外，其他幾頁url中只有page參數不一樣#，那我們試試看第1頁也用其他頁的url請求一下，結果會發現同樣可以出來想要的結果（自己試試看）。

#結論：所有頁url只有page參數不一樣，其他一致。

2. 数据爬取

2.1 导入模块

# 导包
import re
import time
import json
import random
import requests
from fake_useragent import UserAgent

2.2 获取页面信息

根据分析的url请求数据：

# 获取页面信息
def get_datas(url,headers):
    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = chardet.detect(r.content)[&#39;encoding&#39;] 
    datas = json.loads(r.text)
    return datas

2.3 获取具体图片信息

# 获取图片链接信息
def get_hrefs(datas):
    titles,hrefs = [],[]
    for data in datas[&#39;data&#39;][&#39;result&#39;]:
        # 标题
        title = data[&#39;title&#39;]
        # 时长
        duration = data[&#39;duration&#39;]
        # 播放量
        video_review =data[&#39;video_review&#39;]
        # 发布时间
        date_rls = data[&#39;pubdate&#39;]
        pubdate = time.strftime(&#39;%Y-%m-%d %H:%M&#39;, time.localtime(date_rls))
        # 作者
        author = data[&#39;author&#39;]
        # 图片链接
        link_pic = data[&#39;pic&#39;]
        href_pic = &#39;https:&#39; + link_pic
        
        titles.append(title)
        hrefs.append(href_pic)
        
        return titles, hrefs

代码解析了视频标题，时长，播放量，发布时间，作者，图片链接等参数，这里我们只取标题和图片链接，其他参数可根据需要自行增，删。

2.4 保存图片

# 保存图片
def download_jpg(titles, hrefs):
    path = "D:/B站小姐姐/"
    if not os.path.exists(path):
        os.mkdir(path)
    for i in range(len(hrefs)):
        title_t = titles[i].replace(&#39;/&#39;,&#39;&#39;).replace(&#39;，&#39;,&#39;&#39;).replace(&#39;?&#39;,&#39;&#39;)
     title_t = title_t.replace(&#39; &#39;,&#39;&#39;).replace(&#39;|&#39;,&#39;&#39;).replace(&#39;。&#39;,&#39;&#39;)
        filename = &#39;{}{}.jpg&#39;.format(path,title_t)
        with open(filename, &#39;wb&#39;) as f:
            req = requests.get(url=hrefs[i], headers=headers)
            f.write(req.content)
            time.sleep(random.uniform(1.5,3.4))

这里我们用标题作为图片名称进行存储，需要注意文件名称不能包含特殊符号，这里过滤了” / ，。｜“等4种（每天视频有增删，可能有出入，需要自己调整，也可以不使用标题做名称）。

3. 結果

部分圖片：

爬蟲｜Python爬取B站小姐圖片，學習的動力！

以上是爬蟲｜Python爬取B站小姐圖片，學習的動力！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：Python当打之年。如有侵權，請聯絡admin@php.cn刪除

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。