집 >백엔드 개발 >파이썬 튜토리얼 >크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다!

크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다!

Python当打之年앞으로: 2023-08-09 17:11:321141검색

이번 호에서는 Python을 사용하여 B 스테이션의 여성들의 사진을 크롤링하는 방법을 소개하겠습니다.

1. 웹 분석

다이렉트 오픈 B역(빌리빌리)에서 '여동생'을 검색하세요. '：

크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다!

총 5페이지의 콘텐츠가 있습니다. 2페이지를 예로, F12를 눌러 웹 페이지 소스 코드를 엽니다.

첫 번째 제목을 검색하면 해당 XHR 요청을 찾을 수 있습니다. 주의 깊게 분석한 결과 모든 데이터가 json 형식의 데이터 세트에 존재하고 대상이

result

목록에 있음을 알 수 있습니다.

다음과 같이 헤더를 확인하세요.

이것은

크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다! get 요청

이며 요청의 항목 수는

페이지입니다.

그리고 keywordtwo 항목은 각각 요청한 페이지 번호와 키워드에 해당합니다. 패턴을 찾으려면 몇 페이지를 더 확인하세요.

# 第一页
&#39;https://api.bilibili.com/x/web-interface/search/all/v2?context=&page=1&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&tids=0&highlight=1&single_column=0&#39;
# 第二页
&#39;https://api.bilibili.com/x/web-interface/search/type?context=&page=2&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&search_type=video&tids=0&highlight=1&single_column=0&#39;
# 第三页
&#39;https://api.bilibili.com/x/web-interface/search/type?context=&page=3&order=totalrank&keyword=%E5%B0%8F%E5%A7%90%E5%A7%90&duration=0&tids_2=&from_source=&from_spmid=333.337&platform=pc&__refresh__=true&_extra=&search_type=video&tids=0&highlight=1&single_column=0&#39;

첫 번째 페이지를 제외하고 다른 페이지의 URL에서는 페이지 매개변수만 다른 것을 볼 수 있습니다 그럼 한번 시도해 보겠습니다페이지 1도 다른 페이지의 URL을 사용하여 요청한 결과입니다. 원하는 결과를 얻을 수 있습니다(직접 시도해 보세요).

결론: 모든 페이지 URL에 대해 페이지 매개변수만 다르고 나머지는 동일합니다.

2. 数据爬取

2.1 导入模块

# 导包
import re
import time
import json
import random
import requests
from fake_useragent import UserAgent

2.2 获取页面信息

根据分析的url请求数据：

# 获取页面信息
def get_datas(url,headers):
    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = chardet.detect(r.content)[&#39;encoding&#39;] 
    datas = json.loads(r.text)
    return datas

2.3 获取具体图片信息

# 获取图片链接信息
def get_hrefs(datas):
    titles,hrefs = [],[]
    for data in datas[&#39;data&#39;][&#39;result&#39;]:
        # 标题
        title = data[&#39;title&#39;]
        # 时长
        duration = data[&#39;duration&#39;]
        # 播放量
        video_review =data[&#39;video_review&#39;]
        # 发布时间
        date_rls = data[&#39;pubdate&#39;]
        pubdate = time.strftime(&#39;%Y-%m-%d %H:%M&#39;, time.localtime(date_rls))
        # 作者
        author = data[&#39;author&#39;]
        # 图片链接
        link_pic = data[&#39;pic&#39;]
        href_pic = &#39;https:&#39; + link_pic
        
        titles.append(title)
        hrefs.append(href_pic)
        
        return titles, hrefs

代码解析了视频标题，时长，播放量，发布时间，作者，图片链接等参数，这里我们只取标题和图片链接，其他参数可根据需要自行增，删。

2.4 保存图片

# 保存图片
def download_jpg(titles, hrefs):
    path = "D:/B站小姐姐/"
    if not os.path.exists(path):
        os.mkdir(path)
    for i in range(len(hrefs)):
        title_t = titles[i].replace(&#39;/&#39;,&#39;&#39;).replace(&#39;，&#39;,&#39;&#39;).replace(&#39;?&#39;,&#39;&#39;)
     title_t = title_t.replace(&#39; &#39;,&#39;&#39;).replace(&#39;|&#39;,&#39;&#39;).replace(&#39;。&#39;,&#39;&#39;)
        filename = &#39;{}{}.jpg&#39;.format(path,title_t)
        with open(filename, &#39;wb&#39;) as f:
            req = requests.get(url=hrefs[i], headers=headers)
            f.write(req.content)
            time.sleep(random.uniform(1.5,3.4))

这里我们用标题作为图片名称进行存储，需要注意文件名称不能包含特殊符号，这里过滤了” / ，。｜“等4种（每天视频有增删，可能有出入，需要自己调整，也可以不使用标题做名称）。

3. 결과

일부 사진:

크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다!

위 내용은 크롤러｜파이썬은 B 스테이션의 소녀들의 사진을 크롤링하여 학습 동기를 부여합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python json

성명：

이 기사는 Python当打之年에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：팁 | 99.9%의 사람들이 실수를 한다는 몇 가지 Python 팁!다음 기사：팁 | 99.9%의 사람들이 실수를 한다는 몇 가지 Python 팁!