Python Web クローラーを使用して Bilibili からビデオ選択コンテンツを取得する方法を段階的に説明します。-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python Web クローラーを使用して Bilibili のビデオ選択コンテンツを取得する方法を段階的に説明します (ソースコードが添付されています)。

Go语言进阶学习

Jul 25, 2023 pm 02:25 PM

pythonウェブクローラー

1. 背景の紹介

Bilibili に関して言えば、第一印象はビデオです。私と同じように、ウェブクローラーテクノロジーを使用したいと考えている友人がたくさんいると思います。ステーション B からビデオを取得しますが、ステーション B からのビデオを取得するのは実際にはそれほど簡単ではありません。Guan はステーション B からビデオを取得する方法に関するもので、以前は次の場所で入手できました。この導入は、you-get ライブラリを通じて実装されています。興味のある友人はこの記事を読むことができます: You-Get はとても強力です！。

## 自宅の近くでは、Bilibili でよく勉強している友人が、特にこのようなビデオを数十、さらには数百本連載しているブロガーによく遭遇するかもしれません。プログラミング言語に関する継続的なチュートリアル、コース、ツールの使用方法などを選択すると、次の図に示すように一連の選択が表示されます。

Python Web クローラーを使用して Bilibili のビデオ選択コンテンツを取得する方法を段階的に説明します (ソースコードが添付されています)。

もちろんこれらの選択範囲は肉眼でも見ることができます。 Justプログラムで実装すると、想像ほど単純ではないかもしれません。したがって、この記事の目的は、Python Web クローラーテクノロジを通じて、Selenium ライブラリに基づいてビデオの選択を取得することです。

2. 具体的な実装

この記事で使用するライブラリは Selenium です。ユーザーのログインをシミュレートするためのライブラリは遅いように感じますが、Web クローラーの分野では今でもよく使用されており、ログインのシミュレートやデータの取得に繰り返し使用されています。以下は、ビデオ選択コレクションを実装するためのすべてのコードです。ご自身で実践してみてください。

# coding: utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait


class Item:
    page_num = ""
    part = ""
    duration = ""


    def __init__(self, page_num, part, duration):
        self.page_num = page_num
        self.part = part
        self.duration = duration


    def get_second(self):
        str_list = self.duration.split(":")
        sum = 0
        for i, item in enumerate(str_list):
            sum += pow(60, len(str_list) - i - 1) * int(item)


        return sum


def get_bilili_page_items(url):
    options = webdriver.ChromeOptions()
    options.add_argument(&#39;--headless&#39;)  # 设置无界面
    options.add_experimental_option(&#39;excludeSwitches&#39;, [&#39;enable-automation&#39;])
    # options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2,
    #                                           "profile.managed_default_content_settings.flash": 0})


    browser = webdriver.Chrome(options=options)
    # browser = webdriver.PhantomJS()
    print("正在打开网页...")
    browser.get(url)


    print("等待网页响应...")
    # 需要等一下，直到页面加载完成
    wait = WebDriverWait(browser, 10)
    wait.until(EC.visibility_of_element_located((By.XPATH, &#39;//*[@class="list-box"]/li/a&#39;)))


    print("正在获取网页数据...")
    list = browser.find_elements_by_xpath(&#39;//*[@class="list-box"]/li&#39;)
    # print(list)
    itemList = []


    second_sum = 0


    # 2.循环遍历出每一条搜索结果的标题
    for t in list:
        # print("t text:",t.text)
        element = t.find_element_by_tag_name(&#39;a&#39;)
        # print("a text:",element.text)
        arr = element.text.split(&#39;\n&#39;)
        print(" ".join(arr))
        item = Item(arr[0], arr[1], arr[2])
        second_sum += item.get_second()
        itemList.append(item)


    print("总数量:", len(itemList))
    # browser.page_source


    print("总时长/分钟:", round(second_sum / 60, 2))
    print("总时长/小时:", round(second_sum / 3600.0, 2))


    browser.close()


    return itemList




get_bilili_page_items("https://www.bilibili.com/video/BV1Eb411u7Fw")

ここで使用されるセレクターは xpath です。ビデオの例は、Station の「Advanced Mathematics」の同済版です。 B 完全な教育ビデオ (ソングハオ先生) のビデオ選択他のビデオ選択を取得したい場合は、上記のコードの最後の行にある URL リンクを変更するだけです。

三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题，如下图所示。

Python Web クローラーを使用して Bilibili のビデオ選択コンテンツを取得する方法を段階的に説明します (ソースコードが添付されています)。

这个是因为谷歌驱动版本问题导致的，只需要根据提示，去下载对应的驱动版本即可，驱动下载链接：

https://chromedriver.storage.googleapis.com/index.html

Python Web クローラーを使用して Bilibili のビデオ選択コンテンツを取得する方法を段階的に説明します (ソースコードが添付されています)。

以上がPython Web クローラーを使用して Bilibili のビデオ選択コンテンツを取得する方法を段階的に説明します (ソースコードが添付されています)。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はGo语言进阶学习で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか？Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか？Apr 02, 2025 am 07:12 AM

Python 3.6のピクルスファイルのロードレポートエラー：modulenotFounderror：nomodulenamed ...

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、