首頁 >後端開發 >Python教學 >講解寫Python爬蟲抓暴走漫畫上gif圖片的實例碼

講解寫Python爬蟲抓暴走漫畫上gif圖片的實例碼

高洛峰
高洛峰原創
2017-03-10 13:53:082534瀏覽

這篇文章講解編寫Python爬蟲抓取暴走漫畫上gif圖片的實例代碼,示例代碼為Python3,利用到了urllib模組、request模組和BeautifulSoup模組,需要的朋友可以參考下

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀賞。爬蟲用的是python3.3開發的,主要用到了urllib、request和BeautifulSoup模組。

urllib模組提供了從萬維網中獲取資料的高層接口,當我們用urlopen()打開一個URL時,就相當於我們用Python內建的open()打開一個檔案。但不同的是,前者接收一個URL作為參數,並且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket,所以理所當然地沒辦法進行seek操作),而後者接收的是一個本地檔名。

Python的BeautifulSoup模組,可以幫助你實現HTML和XML的解析
先說一下,一般寫網頁爬蟲,即抓取網頁的html源碼等內容,然後分析,提取相應的內容。
這種分析html內容的工作,如果只是用普通的正規表示式re模組去一點點匹配的話,對於內容簡單點的網頁分析,還是基本夠用。
但是對於工作量很大,要解析內容很繁雜的html,那麼用re模組,就會發現無法實現,或很難實現。
而使用beautifulsoup模組去幫你實現分析html源碼的工作的話,你就會發現,事情變得如此簡單,大大提高了分析html源碼的效率。
註:BeautifulSoup是第三方函式庫,我使用的是bs4。 urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲原始碼如下

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推导 url
  title_list = [img['alt'] for img in img_content]  #图片名称

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下载信息
    urllib.request.urlretrieve(imgurl,filename)    #下载图片

#在第15行可以修改下載頁數,將此檔案儲存為baozougif.py,使用指令python baozougif.py運行後在同目錄下會產生「暴走GIF」的資料夾,所有的圖片會自動下載到該目錄。

以上是講解寫Python爬蟲抓暴走漫畫上gif圖片的實例碼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn