搜尋
首頁後端開發Python教學Python編寫簡單網頁爬蟲抓取視頻

Python編寫簡單網頁爬蟲抓取視頻

Apr 18, 2018 pm 03:34 PM
python爬蟲網路

從上一篇文章的評論中看出似乎很多童鞋都比較關注爬蟲的源代碼。所有本文就使用Python編寫簡單網路爬蟲抓取影片下載資源做了很詳細的記錄,幾乎每一步都介紹給大家,希望對大家能有所幫助

#我第一次接觸爬蟲這東西是在今年的5月份,當時寫了一個博客搜尋引擎,所用到的爬蟲也挺智能的,起碼比電影來了這個站用到的爬蟲水平高多了!

回到用Python寫爬蟲的話題。

Python一直是我主要使用的腳本語言,沒有之一。 Python的語言簡潔靈活,標準函式庫功能強大,平常可以當計算器,文字編碼轉換,圖片處理,批次下載,批次處理文字等。總之我很喜歡,也越用越上手,這麼好用的一個工具,一般人我不告訴他。 。 。

因為其強大的字串處理能力,以及urllib2,cookielib,re,threading這些模組的存在,用Python來寫爬蟲就簡直易於反掌了。簡單到什麼程度呢。我當時跟某同學說,我寫電影來了用到的幾個爬蟲以及數據整理的一堆零零散散的腳本代碼行數總共不超過1000行,寫電影來了這個網站也只有150來行代碼。因為爬蟲的程式碼在另外一台64位元的黑蘋果上,所以就不列出來,只列一下VPS上網站的程式碼,tornadoweb框架寫的Python編寫簡單網頁爬蟲抓取視頻

[xiaoxia@307232 movie_site]$ wc -l *.py template/*
  156 msite.py
   92 template/base.html
   79 template/category.html
   94 template/id.html
   47 template/index.html
   77 template/search.html

下面直接show一下爬蟲的編寫流程。 以下內容僅供交流學習使用,沒有其他的意思。

以某灣的最新影片下載資源為例,其網址是

http://某piratebay.se/browse/200

因為網頁裡面有大量廣告,只貼一下正文部分內容:

對於一個python爬蟲,下載這個頁面的原始碼,一行程式碼足以。這裡用到urllib2函式庫。

>>> import urllib2
>>> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()
>>> print 'size is', len(html)
size is 52977

當然,也可以用os模組裡的system函數呼叫wget指令來下載網頁內容,對於掌握了wget或是curl工具的同學是很方便的。

使用Firebug觀察網頁結構,可以知道正文部分html是一個table。每一個資源就是一個tr標籤。

而對於每一個資源,需要擷取的資訊有:

1、影片分類
2、資源名稱
3、資源連結
4、資源大小
5、上傳時間

就這麼多就夠了,如果有需要,還可以增加。

先提取一段tr標籤裡的程式碼來觀察一下。

<tr>
  <td>
   <center>
    <a>视频</a><br>
    (<a>电视</a>)
   </center>
  </td>
  <td>
<p>   <a>The Walking Dead Season 3 Episodes 1-3 HDTV-x264</a>
</p>
<a><img  src="/static/imghwm/default1.png" data-src="//static.某piratebay.se/img/icon-magnet.gif" class="lazy" alt="Python編寫簡單網頁爬蟲抓取視頻" ></a>   <a><img  class="dl lazy" src="/static/imghwm/default1.png" data-src="//static.某piratebay.se/img/dl.gif" alt="Python編寫簡單網頁爬蟲抓取視頻" ></a><img  src="/static/imghwm/default1.png" data-src="//static.某piratebay.se/img/11x11p.png" class="lazy" alt="Python編寫簡單網頁爬蟲抓取視頻" ><img  src="/static/imghwm/default1.png" data-src="//static.某piratebay.se/img/11x11p.png" class="lazy" alt="Python編寫簡單網頁爬蟲抓取視頻" >
   <font>已上传 <b>3 分钟前</b>, 大小 2 GiB, 上传者 <a>paridha</a></font>
  </td>
  <td>0</td>
  <td>0</td>
 </tr>

下面用正規表示式來提取html程式碼中的內容。對正規表示式不了解的同學,可以去 http://docs.python.org/2/library/re.html 去了解。

為何要用正規表示式而不用其他一些解析HTML或DOM樹的工具是有原因的。我之前試過用BeautifulSoup3來提取內容,後來發覺速度實在是慢死了啊,一秒鐘能夠處理100個內容,已經是我電腦的極限了。 。 。而換了正規表示式,編譯後處理內容,速度上直接把它秒殺了!

提取這麼多內容,我的正規表示式要如何寫呢?

根據我以往的經驗,「.*?」或「. ?」這個東西是很好使的。 不過也要注意一些小問題,實際用到的時候就會知道Python編寫簡單網頁爬蟲抓取視頻

對於上面的tr標籤程式碼,我首先需要讓我的表達式匹配到的符號是

表示內容的開始,當然也可以是別的,只要不要錯過需要的內容即可。然後我要配對的內容是下面這個,取得影片分類。

(電視)

接著我要匹配資源連結了,

...

再到其他資源訊息,

font class="detDesc">已上傳3 分鐘前, 大小2 GiB, 上傳者

#最後符合

#

大功告成!

當然,最後的符合可以不需要在正規表示式裡表示出來,只要開始位置定位正確了,後面取得資訊的位置也就正確了。

對正規表示式比較了解的朋友,可能知道怎麼寫了。我Show一下我寫的表達式處理過程,

就这么简单,结果出来了,自我感觉挺欢喜的。

当然,这样设计的爬虫是有针对性的,定向爬取某一个站点的内容。也没有任何一个爬虫不会对收集到的链接进行筛选。通常可以使用BFS(宽度优先搜索算法)来爬取一个网站的所有页面链接。

完整的Python爬虫代码,爬取某湾最新的10页视频资源:

# coding: utf8
import urllib2
import re
import pymongo
db = pymongo.Connection().test
url = &#39;http://某piratebay.se/browse/200/%d/3&#39;
find_re = re.compile(r&#39;<tr>.+?\(.+?">(.+?)</a>.+?class="detLink".+?">(.+?)</a>.+?<a href="(magnet:.+?)" .+?已上传 <b>(.+?)</b>, 大小 (.+?),&#39;, re.DOTALL)
# 定向爬去10页最新的视频资源
for i in range(0, 10):
    u = url % (i)
    # 下载数据
    html = urllib2.urlopen(u).read()
    # 找到资源信息
    for x in find_re.findall(html):
        values = dict(
            category = x[0],
            name = x[1],
            magnet = x[2],
            time = x[3],
            size = x[4]
        )
        # 保存到数据库
        db.priate.save(values)
print &#39;Done!&#39;

以上代码仅供思路展示,实际运行使用到mongodb数据库,同时可能因为无法访问某湾网站而无法得到正常结果。

所以说,电影来了网站用到的爬虫不难写,难的是获得数据后如何整理获取有用信息。例如,如何匹配一个影片信息跟一个资源,如何在影片信息库和视频链接之间建立关联,这些都需要不断尝试各种方法,最后选出比较靠谱的。

曾有某同学发邮件想花钱也要得到我的爬虫的源代码。
要是我真的给了,我的爬虫就几百来行代码,一张A4纸,他不会说,坑爹啊!!!……

都说现在是信息爆炸的时代,所以比的还是谁的数据挖掘能力强 Python編寫簡單網頁爬蟲抓取視頻

好吧,那么问题来了学习挖掘机(数据)技术到底哪家强?Python編寫簡單網頁爬蟲抓取視頻Python編寫簡單網頁爬蟲抓取視頻Python編寫簡單網頁爬蟲抓取視頻

相关推荐:

Python编写的通知栏脚本启动工具

python编写图形界面如何利用aardio实现

以上是Python編寫簡單網頁爬蟲抓取視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python:深入研究彙編和解釋Python:深入研究彙編和解釋May 12, 2025 am 12:14 AM

pythonisehybridmodeLofCompilation和interpretation:1)thepythoninterpretercompilesourcecececodeintoplatform- interpententbybytecode.2)thepythonvirtualmachine(pvm)thenexecutecutestestestestestesthisbytecode,ballancingEaseofuseEfuseWithPerformance。

Python是一種解釋或編譯語言,為什麼重要?Python是一種解釋或編譯語言,為什麼重要?May 12, 2025 am 12:09 AM

pythonisbothinterpretedAndCompiled.1)它的compiledTobyTecodeForportabilityAcrosplatforms.2)bytecodeisthenInterpreted,允許fordingfordforderynamictynamictymictymictymictyandrapiddefupment,儘管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

對於python中的循環時循環與循環:解釋了關鍵差異對於python中的循環時循環與循環:解釋了關鍵差異May 12, 2025 am 12:08 AM

在您的知識之際,而foroopsareideal insinAdvance中,而WhileLoopSareBetterForsituations則youneedtoloopuntilaconditionismet

循環時:實用指南循環時:實用指南May 12, 2025 am 12:07 AM

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance,而WhileLoopSareSareDestrationsDepportonAcondition.1)ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2)whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond

Python:它是真正的解釋嗎?揭穿神話Python:它是真正的解釋嗎?揭穿神話May 12, 2025 am 12:05 AM

pythonisnotpuroly interpred; itosisehybridablectofbytecodecompilationandruntimeinterpretation.1)PythonCompiLessourceceCeceDintobyTecode,whitsthenexecececected bytybytybythepythepythepythonvirtirtualmachine(pvm).2)

與同一元素的Python串聯列表與同一元素的Python串聯列表May 11, 2025 am 12:08 AM

concatenateListSinpythonWithTheSamelements,使用:1)operatoTotakeEpduplicates,2)asettoremavelemavphicates,or3)listcompreanspherensionforcontroloverduplicates,每個methodhasdhasdifferentperferentperferentperforentperforentperforentperfornceandordorimplications。

解釋與編譯語言:Python的位置解釋與編譯語言:Python的位置May 11, 2025 am 12:07 AM

pythonisanterpretedlanguage,offeringosofuseandflexibilitybutfacingperformancelanceLimitationsInCricapplications.1)drightingedlanguageslikeLikeLikeLikeLikeLikeLikeLikeThonexecuteline-by-line,允許ImmediaMediaMediaMediaMediaMediateFeedBackAndBackAndRapidPrototypiD.2)compiledLanguagesLanguagesLagagesLikagesLikec/c thresst

循環時:您什麼時候在Python中使用?循環時:您什麼時候在Python中使用?May 11, 2025 am 12:05 AM

Useforloopswhenthenumberofiterationsisknowninadvance,andwhileloopswheniterationsdependonacondition.1)Forloopsareidealforsequenceslikelistsorranges.2)Whileloopssuitscenarioswheretheloopcontinuesuntilaspecificconditionismet,usefulforuserinputsoralgorit

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具