python爬蟲可以爬影片嗎-Python教學-PHP中文網

首頁

後端開發

Python教學

python爬蟲可以爬影片嗎

爱喝马黛茶的安东尼

Jun 19, 2019 am 10:16 AM

python爬蟲

網路爬蟲又稱為網路蜘蛛，是指依照某種規則在網路上爬取所需內容的腳本程式。眾所周知，每個網頁通常包含其他網頁的入口，而網路爬蟲則透過一個網址依序進入其他網址取得所需內容。

python爬蟲可以爬影片嗎

爬蟲結構

爬蟲排程程序（程式的入口，用於啟動整個程式）

url管理員（用於管理未爬取得url及已經爬取過的url）

#網頁下載器（用於下載網頁內容用於分析）

網頁解析器（用於解析下載的網頁，取得新的url和所需內容）

網頁輸出器（用來把取得到的內容以檔案的形式輸出）

第一步

分析網頁原始碼。例如：http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97，右鍵查看源碼，一般影片都是mp4後綴，搜尋發現沒有，但是有的直接就能看到了例如美拍的影片。

相關推薦：《python影片教學》

第二步

抓包，分析請求和回傳。這個也可以透過強大的chrome實現，還是上面的例子，右鍵->審查元素->NetWork，然後F5刷新網頁

##發現有很多請求，只能一條一條的分析了，其實視頻格式就是那幾種mp4，flv，avi了，一下就能看到了，複製到瀏覽器中打開，果然就是我們想要的下載鏈接了。

第三步驟

分析下載連結和影片連結的法則。即http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97與xxx.mp4的關係。這個又需要分析網頁源碼了，其實可以注意上面那個以.m3u8後綴的鏈接,m3u8記錄了一個索引純文本文件，打開它時播放軟體並不是播放它，而是根據它的索引找到對應的音視頻文件的網路位址進行線上播放,打開看，裡面確實記錄著我們想要的下載連結。而且.m3u8字尾的連結就在網頁源碼中。

總結

#經過前三個步驟的分析，取得影片下載連結的思路就是先從網頁源碼中獲取.m3u8後綴的鏈接，下載該文件，從裡面得到視頻下載鏈接，最後下載視頻就好了

源碼

#coding=utf-8
import os
import re
import urllib2
import urllib
from common import Common
class SinaVideo():
 
    URL_PIRFIX = "http://us.sinaimg.cn/"
    def getM3u8(self,html):
        reg = re.compile(r&#39;list=([\s\S]*?)&fid&#39;)
        result = reg.findall(html)
        return result[0]
 
 
    def getName(self,url):
         return url.split(&#39;=&#39;)[1]
 
    def getSinavideoUrl(self,filepath):
        f = open(filepath,&#39;r&#39;)
        lines = f.readlines()
        f.close()
        for line in lines:
            if line[0] !=&#39;#&#39;:
                return line
 
    def download(self,url,filepath):
        #获取名称
        name = self.getName(url)
        html = Common.getHtml(url)
        m3u8 = self.getM3u8(html)
        Common.download(urllib.unquote(m3u8),filepath,name + &#39;.m3u8&#39;)
        url = self.URL_PIRFIX + self.getSinavideoUrl(filepath+name+&#39;.m3u8&#39;)
        Common.download(url,filepath,name+&#39;.mp4&#39;)

#common.py
#coding=utf-8
import urllib2
import os
import re
 
 
class Common():
    #  获取网页源码
    @staticmethod
    def getHtml(url):
        html = urllib2.urlopen(url).read()
        print  "[+]获取网页源码:"+url
        return html
 
    # 下载文件
    @staticmethod
    def download(url,filepath,filename):
        headers = {
            &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8&#39;,
            &#39;Accept-Charset&#39;: &#39;UTF-8,*;q=0.5&#39;,
            &#39;Accept-Encoding&#39;: &#39;gzip,deflate,sdch&#39;,
            &#39;Accept-Language&#39;: &#39;en-US,en;q=0.8&#39;,
            &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H) 
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.114 Mobile Safari/537.36&#39;
        }
        request = urllib2.Request(url,headers = headers);
        response = urllib2.urlopen(request)
        path = filepath + filename
        with open(path,&#39;wb&#39;) as output:
            while True:
                buffer = response.read(1024*256);
                if not buffer:
                    break
                # received += len(buffer)
                output.write(buffer)
 
        print "[+]下载文件成功:"+path
 
    @staticmethod
    def isExist(filepath):
        return os.path.exists(filepath)
 
    @staticmethod
    def createDir(filepath):
         os.makedirs(filepath,0777)

呼叫方式：

url = "http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97"sinavideo = SinaVideo()        
sinavideo.download(url,""/Users/cheng/Documents/PyScript/res/"")

結果：

以上是python爬蟲可以爬影片嗎的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。