Python クローラーはビデオをクロールできますか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーはビデオをクロールできますか?

爱喝马黛茶的安东尼

Jun 19, 2019 am 10:16 AM

python爬虫類

Web クローラーは Web スパイダーとも呼ばれ、特定のルールに従って Web 上の必要なコンテンツをクロールするスクリプトプログラムを指します。ご存知のとおり、各 Web ページには通常、他の Web ページへの入り口が含まれており、Web クローラーは 1 つの URL を使用して他の URL に順番に入力し、必要なコンテンツを取得します。

Python クローラーはビデオをクロールできますか?

##クローラの構造

クローラスケジューラ (入口)

url マネージャー (クロールされていない URL とクロールされた URL の管理に使用)

Web ページダウンローダー (分析用に Web ページコンテンツをダウンロードするために使用)

Web ページパーサー (ダウンロードされた Web ページを解析し、新しい URL と必要なコンテンツを取得するために使用)

#Web ページ出力ツール (取得したコンテンツをファイル形式で出力するために使用します)

#最初のステップ

Web ページのソースコードを分析します。例: http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97、右クリックしてソースコードを表示します。一般に、ビデオには mp4 という接尾辞が付いています。検索すると見つかりませんが、いくつかの接尾辞が付いています。 Meipaiビデオなどを直接見ることができます。

関連する推奨事項: 「

Python ビデオチュートリアル

」

2 番目のステップ

パケットをキャプチャし、リクエストを分析して返します。これは、強力なクロム、または上記の例で右クリック -> [要素の検査] -> [ネットワーク] を選択し、F5 キーで Web ページを更新することによっても実現できます

リクエストが多いことが分かりましたリクエストは1つずつしか解析できません実は動画形式はmp4、flv、aviです一度に見ることができますブラウザにコピーして開いてください案の定、それが私たちが望むダウンロードリンクです。

#3 番目のステップ

#ダウンロードリンクとビデオリンクのルールを分析します。つまり、http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97 と xxx.mp4 の関係です。これも Web ページのソースコードを分析する必要があります。実際、上記の .m3u8 接尾辞が付いたリンクに注目してください。m3u8 はインデックスプレーンテキストファイルを記録します。これを開くと、再生ソフトウェアは再生しませんが、ファイルのネットワークアドレスを使用してオンラインで再生し、ファイルを開いて、必要なダウンロードリンクが実際にそのファイルに記録されていることを確認します。さらに、.m3u8 接尾辞のリンクは Web ページのソースコード内にあります。

概要

最初の 3 つのステップを分析した後、次のアイデアが得られました。ビデオダウンロードリンクの取得 Web ページのソースコードから .m3u8 サフィックスが付いたリンクを取得し、ファイルをダウンロードし、そこからビデオダウンロードリンクを取得して、最後にビデオをダウンロードします。

ソースコード

#coding=utf-8
import os
import re
import urllib2
import urllib
from common import Common
class SinaVideo():
 
    URL_PIRFIX = "http://us.sinaimg.cn/"
    def getM3u8(self,html):
        reg = re.compile(r&#39;list=([\s\S]*?)&fid&#39;)
        result = reg.findall(html)
        return result[0]
 
 
    def getName(self,url):
         return url.split(&#39;=&#39;)[1]
 
    def getSinavideoUrl(self,filepath):
        f = open(filepath,&#39;r&#39;)
        lines = f.readlines()
        f.close()
        for line in lines:
            if line[0] !=&#39;#&#39;:
                return line
 
    def download(self,url,filepath):
        #获取名称
        name = self.getName(url)
        html = Common.getHtml(url)
        m3u8 = self.getM3u8(html)
        Common.download(urllib.unquote(m3u8),filepath,name + &#39;.m3u8&#39;)
        url = self.URL_PIRFIX + self.getSinavideoUrl(filepath+name+&#39;.m3u8&#39;)
        Common.download(url,filepath,name+&#39;.mp4&#39;)

#common.py
#coding=utf-8
import urllib2
import os
import re
 
 
class Common():
    #  获取网页源码
    @staticmethod
    def getHtml(url):
        html = urllib2.urlopen(url).read()
        print  "[+]获取网页源码:"+url
        return html
 
    # 下载文件
    @staticmethod
    def download(url,filepath,filename):
        headers = {
            &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8&#39;,
            &#39;Accept-Charset&#39;: &#39;UTF-8,*;q=0.5&#39;,
            &#39;Accept-Encoding&#39;: &#39;gzip,deflate,sdch&#39;,
            &#39;Accept-Language&#39;: &#39;en-US,en;q=0.8&#39;,
            &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H) 
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.114 Mobile Safari/537.36&#39;
        }
        request = urllib2.Request(url,headers = headers);
        response = urllib2.urlopen(request)
        path = filepath + filename
        with open(path,&#39;wb&#39;) as output:
            while True:
                buffer = response.read(1024*256);
                if not buffer:
                    break
                # received += len(buffer)
                output.write(buffer)
 
        print "[+]下载文件成功:"+path
 
    @staticmethod
    def isExist(filepath):
        return os.path.exists(filepath)
 
    @staticmethod
    def createDir(filepath):
         os.makedirs(filepath,0777)

メソッドの呼び出し:

url = "http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97"sinavideo = SinaVideo()        
sinavideo.download(url,""/Users/cheng/Documents/PyScript/res/"")

結果:

以上がPython クローラーはビデオをクロールできますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。