這篇文章講解編寫Python爬蟲抓取暴走漫畫上gif圖片的實例代碼,示例代碼為Python3,利用到了urllib模組、request模組和BeautifulSoup模組,需要的朋友可以參考下
本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀賞。爬蟲用的是python3.3開發的,主要用到了urllib、request和BeautifulSoup模組。
urllib模組提供了從萬維網中獲取資料的高層接口,當我們用urlopen()打開一個URL時,就相當於我們用Python內建的open()打開一個檔案。但不同的是,前者接收一個URL作為參數,並且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket,所以理所當然地沒辦法進行seek操作),而後者接收的是一個本地檔名。
Python的BeautifulSoup模組,可以幫助你實現HTML和XML的解析
先說一下,一般寫網頁爬蟲,即抓取網頁的html源碼等內容,然後分析,提取相應的內容。
這種分析html內容的工作,如果只是用普通的正規表示式re模組去一點點匹配的話,對於內容簡單點的網頁分析,還是基本夠用。
但是對於工作量很大,要解析內容很繁雜的html,那麼用re模組,就會發現無法實現,或很難實現。
而使用beautifulsoup模組去幫你實現分析html源碼的工作的話,你就會發現,事情變得如此簡單,大大提高了分析html源碼的效率。
註:BeautifulSoup是第三方函式庫,我使用的是bs4。 urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲原始碼如下
# -*- coding: utf-8 -*- import urllib.request import bs4,os page_sum = 1 #设置下载页数 path = os.getcwd() path = os.path.join(path,'暴走GIF') if not os.path.exists(path): os.mkdir(path) #创建文件夹 url = "http://baozoumanhua.com/gif/year" #url地址 headers = { #伪装浏览器 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' ' Chrome/32.0.1700.76 Safari/537.36' } for count in range(page_sum): req = urllib.request.Request( url = url+str(count+1), headers = headers ) print(req.full_url) content = urllib.request.urlopen(req).read() soup = bs4.BeautifulSoup(content) # BeautifulSoup img_content = soup.findAll('img',attrs={'style':'width:460px'}) url_list = [img['src'] for img in img_content] #列表推导 url title_list = [img['alt'] for img in img_content] #图片名称 for i in range(url_list.__len__()) : imgurl = url_list[i] filename = path + os.sep +title_list[i] + ".gif" print(filename+":"+imgurl) #打印下载信息 urllib.request.urlretrieve(imgurl,filename) #下载图片
#在第15行可以修改下載頁數,將此檔案儲存為baozougif.py,使用指令python baozougif.py運行後在同目錄下會產生「暴走GIF」的資料夾,所有的圖片會自動下載到該目錄。
以上是講解寫Python爬蟲抓暴走漫畫上gif圖片的實例碼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

Python3.6環境下加載Pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

如何解決jieba分詞在景區評論分析中的問題?當我們在進行景區評論分析時,往往會使用jieba分詞工具來處理文�...

如何使用正則表達式匹配到第一個閉合標籤就停止?在處理HTML或其他標記語言時,常常需要使用正則表達式來�...

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com(https://cn.investing.com/news/latest-news)的新聞數據時,常常�...


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1
強大的PHP整合開發環境

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版
中文版,非常好用