搜尋
首頁後端開發Python教學Python爬蟲取得美劇的網站

Python爬蟲取得美劇的網站

Mar 18, 2017 am 11:46 AM
python

本文由碼農網 – 蕭豪原創,轉載請看清文末的轉載要求,歡迎參與我們的付費投稿計畫!

一直有愛看美劇的習慣,一方面鍛鍊一下英文聽力,一方面打發一下時間。之前是能在影片網站上面線上看的,可是自從廣電總局的限制令之後,進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是,身為一個宅diao的我又怎甘心沒劇追呢,所以網上隨便查了一下就找到一個能用迅雷下載的美劇下載網站【天天美劇】,各種資源隨便下載,最近迷上的BBC的高畫質紀錄片,大自然美得不要不要的。

雖說找到了資源網站可以下載了,但是每次都要打開瀏覽器,輸入網址,找到該美劇,然後點擊鏈接才能下載。時間長了就覺得過程好繁瑣,有時候網站連結還會打不開,會有點麻煩。正好一直在學習Python爬蟲,所以今天就心血來潮來寫了個爬蟲,抓取該網站上所有美劇鏈接,並保存在文本文檔中,想要哪部劇就直接打開復制鏈接到迅雷就可以下載啦。

其實一開始打算寫那種發現一個url,使用requests打開抓取下載鏈接,從主頁開始爬完全站。但是,好多重複鏈接,還有其網站的url不是我想的那麼規則,寫了半天也沒有寫出我想要的那種發散式的爬蟲,也許是自己火候還不到吧,繼續努力。 。 。

後來發現,其電視劇連結都是在文章裡面,然後文章url後面有個數字編號,就像這樣的http://cn163.net/archives/24016/,所以機智的我又用了之前寫過的爬蟲經驗,解決方法就是自動產生url,其後面的數字不是可以變的嗎,而且每部劇的都是唯一的,所以嘗試了一下大概有多少篇文章,然後用range函數直接連續生成數來構造url。

但是很多url是不存在的,所以會直接掛掉,別擔心,我們用的可是requests,其自帶的status_code就是用來判斷請求返回的狀態的,所以只要是返回的狀態碼是404的我們都把它跳過,其他的都進去爬取鏈接,這就解決了url的問題了。

以下就是上述步驟的實作程式碼。

def get_urls(self):
    try:
        for i in range(2015,25000):
            base_url='http://cn163.net/archives/'
            url=base_url+str(i)+'/'
            if requests.get(url).status_code == 404:
                continue
            else:
                self.save_links(url)
    except Exception,e:
        pass

其餘的就進行的很順利了,網上找到前人寫的類似的爬蟲,但是只是爬取一篇文章的,所以藉鑑了一下其正則表達式。自己用了BeautifulSoup還沒有正規效果好,所以果斷棄了,學海無涯啊。但效果也不是那麼理想,有一半左右的連結不能正確抓取,還需繼續優化。

#  -*- coding:utf-8 -*-
import requests 
import re
import sys
import threading
import time
reload(sys)
sys.setdefaultencoding('utf-8')
class Archives(object):

    def save_links(self,url):
        try:

            data=requests.get(url,timeout=3)
            content=data.text
            link_pat='"(ed2k://\|file\|[^"]+?\.(S\d+)(E\d+)[^"]+?1024X\d{3}[^"]+?)"'
            name_pat=re.compile(r&#39;<h2 id="">(.*?)</h2>&#39;,re.S)
            links = set(re.findall(link_pat,content))
            name=re.findall(name_pat,content)
            links_dict = {}
            count=len(links)
        except Exception,e:
            pass
        for i in links:
            links_dict[int(i[1][1:3]) * 100 + int(i[2][1:3])] = i#把剧集按s和e提取编号
        try:
            with open(name[0].replace(&#39;/&#39;,&#39; &#39;)+&#39;.txt&#39;,&#39;w&#39;) as f:
                print name[0]
                for i in sorted(list(links_dict.keys())):#按季数+集数排序顺序写入
                    f.write(links_dict[i][0] + &#39;\n&#39;)
            print "Get links ... ", name[0], count
        except Exception,e:
            pass

    def get_urls(self):
        try:
            for i in range(2015,25000):
                base_url=&#39;http://cn163.net/archives/&#39;
                url=base_url+str(i)+&#39;/&#39;
                if requests.get(url).status_code == 404:
                    continue
                else:
                    self.save_links(url)
        except Exception,e:
            pass
    def main(self):
        thread1=threading.Thread(target=self.get_urls())
        thread1.start()
        thread1.join()
    if __name__ == &#39;__main__&#39;:
    start=time.time()
    a=Archives()
    a.main()
    end=time.time()
    print end-start

完整版代碼,其中還用到了多線程,但是感覺沒什麼用,因為Python的GIL的緣故吧,看似有兩萬多部劇,本以為要很長時間才能抓取完成,但是除去url錯誤的和沒配對到的,總共抓取時間20分鐘不到。搞得我本來還想用Redis在兩台Linux上爬取,但是折騰了一番之後感覺沒必要,所以就這樣吧,後面需要更大數據的時候再去弄。

還有過程中遇到一個很折磨我的問題是檔案名稱的保存,必須在此抱怨一下,txt文字格式的檔案名稱能有空格,但是不能有斜線、反斜線、括號等。就是這個問題,一早上的時間都花在這上面的,一開始我以為是抓取數據的錯誤,後面查了半天才發現是爬取的劇名中帶有斜杠,這可把我坑苦了。

以上是Python爬蟲取得美劇的網站的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
您如何切成python陣列?您如何切成python陣列?May 01, 2025 am 12:18 AM

Python列表切片的基本語法是list[start:stop:step]。 1.start是包含的第一個元素索引,2.stop是排除的第一個元素索引,3.step決定元素之間的步長。切片不僅用於提取數據,還可以修改和反轉列表。

在什麼情況下,列表的表現比數組表現更好?在什麼情況下,列表的表現比數組表現更好?May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin:1)DynamicsizicsizingandFrequentInsertions/刪除,2)儲存的二聚體和3)MemoryFeliceFiceForceforseforsparsedata,butmayhaveslightperformancecostsinclentoperations。

如何將Python數組轉換為Python列表?如何將Python數組轉換為Python列表?May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist,usEthelist()constructororageneratorexpression.1)intimpthearraymoduleandcreateanArray.2)USELIST(ARR)或[XFORXINARR] to ConconverTittoalist,請考慮performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

當Python中存在列表時,使用數組的目的是什麼?當Python中存在列表時,使用數組的目的是什麼?May 01, 2025 am 12:04 AM

choosearraysoverlistsinpythonforbetterperformanceandmemoryfliceSpecificScenarios.1)largenumericaldatasets:arraysreducememoryusage.2)績效 - 臨界雜貨:arraysoffersoffersOffersOffersOffersPoostSfoostSforsssfortasssfortaskslikeappensearch orearch.3)testessenforcety:arraysenforce:arraysenforc

說明如何通過列表和數組的元素迭代。說明如何通過列表和數組的元素迭代。May 01, 2025 am 12:01 AM

在Python中,可以使用for循環、enumerate和列表推導式遍歷列表;在Java中,可以使用傳統for循環和增強for循環遍歷數組。 1.Python列表遍歷方法包括:for循環、enumerate和列表推導式。 2.Java數組遍歷方法包括:傳統for循環和增強for循環。

什麼是Python Switch語句?什麼是Python Switch語句?Apr 30, 2025 pm 02:08 PM

本文討論了版本3.10中介紹的Python的新“匹配”語句,該語句與其他語言相同。它增強了代碼的可讀性,並為傳統的if-elif-el提供了性能優勢

Python中有什麼例外組?Python中有什麼例外組?Apr 30, 2025 pm 02:07 PM

Python 3.11中的異常組允許同時處理多個異常,從而改善了並發方案和復雜操作中的錯誤管理。

Python中的功能註釋是什麼?Python中的功能註釋是什麼?Apr 30, 2025 pm 02:06 PM

Python中的功能註釋將元數據添加到函數中,以進行類型檢查,文檔和IDE支持。它們增強了代碼的可讀性,維護,並且在API開發,數據科學和圖書館創建中至關重要。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。