搜尋
首頁後端開發Python教學Python爬蟲取得美劇的網站
Python爬蟲取得美劇的網站Mar 18, 2017 am 11:46 AM
python

本文由碼農網 – 蕭豪原創,轉載請看清文末的轉載要求,歡迎參與我們的付費投稿計畫!

一直有愛看美劇的習慣,一方面鍛鍊一下英文聽力,一方面打發一下時間。之前是能在影片網站上面線上看的,可是自從廣電總局的限制令之後,進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是,身為一個宅diao的我又怎甘心沒劇追呢,所以網上隨便查了一下就找到一個能用迅雷下載的美劇下載網站【天天美劇】,各種資源隨便下載,最近迷上的BBC的高畫質紀錄片,大自然美得不要不要的。

雖說找到了資源網站可以下載了,但是每次都要打開瀏覽器,輸入網址,找到該美劇,然後點擊鏈接才能下載。時間長了就覺得過程好繁瑣,有時候網站連結還會打不開,會有點麻煩。正好一直在學習Python爬蟲,所以今天就心血來潮來寫了個爬蟲,抓取該網站上所有美劇鏈接,並保存在文本文檔中,想要哪部劇就直接打開復制鏈接到迅雷就可以下載啦。

其實一開始打算寫那種發現一個url,使用requests打開抓取下載鏈接,從主頁開始爬完全站。但是,好多重複鏈接,還有其網站的url不是我想的那麼規則,寫了半天也沒有寫出我想要的那種發散式的爬蟲,也許是自己火候還不到吧,繼續努力。 。 。

後來發現,其電視劇連結都是在文章裡面,然後文章url後面有個數字編號,就像這樣的http://cn163.net/archives/24016/,所以機智的我又用了之前寫過的爬蟲經驗,解決方法就是自動產生url,其後面的數字不是可以變的嗎,而且每部劇的都是唯一的,所以嘗試了一下大概有多少篇文章,然後用range函數直接連續生成數來構造url。

但是很多url是不存在的,所以會直接掛掉,別擔心,我們用的可是requests,其自帶的status_code就是用來判斷請求返回的狀態的,所以只要是返回的狀態碼是404的我們都把它跳過,其他的都進去爬取鏈接,這就解決了url的問題了。

以下就是上述步驟的實作程式碼。

def get_urls(self):
    try:
        for i in range(2015,25000):
            base_url='http://cn163.net/archives/'
            url=base_url+str(i)+'/'
            if requests.get(url).status_code == 404:
                continue
            else:
                self.save_links(url)
    except Exception,e:
        pass

其餘的就進行的很順利了,網上找到前人寫的類似的爬蟲,但是只是爬取一篇文章的,所以藉鑑了一下其正則表達式。自己用了BeautifulSoup還沒有正規效果好,所以果斷棄了,學海無涯啊。但效果也不是那麼理想,有一半左右的連結不能正確抓取,還需繼續優化。

#  -*- coding:utf-8 -*-
import requests 
import re
import sys
import threading
import time
reload(sys)
sys.setdefaultencoding('utf-8')
class Archives(object):

    def save_links(self,url):
        try:

            data=requests.get(url,timeout=3)
            content=data.text
            link_pat='"(ed2k://\|file\|[^"]+?\.(S\d+)(E\d+)[^"]+?1024X\d{3}[^"]+?)"'
            name_pat=re.compile(r&#39;<h2 id="">(.*?)</h2>&#39;,re.S)
            links = set(re.findall(link_pat,content))
            name=re.findall(name_pat,content)
            links_dict = {}
            count=len(links)
        except Exception,e:
            pass
        for i in links:
            links_dict[int(i[1][1:3]) * 100 + int(i[2][1:3])] = i#把剧集按s和e提取编号
        try:
            with open(name[0].replace(&#39;/&#39;,&#39; &#39;)+&#39;.txt&#39;,&#39;w&#39;) as f:
                print name[0]
                for i in sorted(list(links_dict.keys())):#按季数+集数排序顺序写入
                    f.write(links_dict[i][0] + &#39;\n&#39;)
            print "Get links ... ", name[0], count
        except Exception,e:
            pass

    def get_urls(self):
        try:
            for i in range(2015,25000):
                base_url=&#39;http://cn163.net/archives/&#39;
                url=base_url+str(i)+&#39;/&#39;
                if requests.get(url).status_code == 404:
                    continue
                else:
                    self.save_links(url)
        except Exception,e:
            pass
    def main(self):
        thread1=threading.Thread(target=self.get_urls())
        thread1.start()
        thread1.join()
    if __name__ == &#39;__main__&#39;:
    start=time.time()
    a=Archives()
    a.main()
    end=time.time()
    print end-start

完整版代碼,其中還用到了多線程,但是感覺沒什麼用,因為Python的GIL的緣故吧,看似有兩萬多部劇,本以為要很長時間才能抓取完成,但是除去url錯誤的和沒配對到的,總共抓取時間20分鐘不到。搞得我本來還想用Redis在兩台Linux上爬取,但是折騰了一番之後感覺沒必要,所以就這樣吧,後面需要更大數據的時候再去弄。

還有過程中遇到一個很折磨我的問題是檔案名稱的保存,必須在此抱怨一下,txt文字格式的檔案名稱能有空格,但是不能有斜線、反斜線、括號等。就是這個問題,一早上的時間都花在這上面的,一開始我以為是抓取數據的錯誤,後面查了半天才發現是爬取的劇名中帶有斜杠,這可把我坑苦了。

以上是Python爬蟲取得美劇的網站的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
详细讲解Python之Seaborn(数据可视化)详细讲解Python之Seaborn(数据可视化)Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

详细了解Python进程池与进程锁详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

Python自动化实践之筛选简历Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

归纳总结Python标准库归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于标准库总结的相关问题,下面一起来看一下,希望对大家有帮助。

Python数据类型详解之字符串、数字Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

分享10款高效的VSCode插件,总有一款能够惊艳到你!!分享10款高效的VSCode插件,总有一款能够惊艳到你!!Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

详细介绍python的numpy模块详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。

python中文是什么意思python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器