搜尋

首頁  >  問答  >  主體

網頁爬蟲 - 部落格園部落格中的圖片怎麼用python爬取下來?

寫了一小段程式碼,爬取部落格園部落格中的圖片,這段程式碼對部分連結有效,還有一部分連結一爬就報錯,這是什麼原因呢?

#coding=utf-8

import urllib
import re
from lxml import etree

#解析地址
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#获取地址并建树
url = "http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html"
html = getHtml(url)
html = html.decode("utf-8")
tree = etree.HTML(html)

#保存图片至本地
reg = r'src="(.*?)" alt'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
x = 0
for imgurl in imglist:
    urllib.urlretrieve(imgurl, '%s.jpg' % x)
    x += 1

如圖,可以正確爬取圖片

#若把url換上

url = "http://www.cnblogs.com/baronzhang/p/6861258.html"

則立刻報錯

#求解決,謝謝!

某草草某草草2754 天前913

全部回覆(1)我來回復

  • 我想大声告诉你

    我想大声告诉你2017-05-18 10:47:39

    錯誤提示已經很明顯了,你去看下網頁源代碼,匹配到的第一張圖片是一個GIF格式的,並且還是相對路徑,所以你是下載不到的,故提示IOerror,就算你下載到了,因為你指定了格式為JPG,你也打不開。 因此你需要做的就是判斷和篩選

    for imgurl in imglist:
        if "gif" not in imgurl:
            urllib.urlretrieve(imgurl, '%s.jpg' % x)
            x += 1
    

    看下我增加的地方,當然這只是最簡單的判斷,但可以保證你第二個程序不會報錯,也是給你一個思路!

    回覆
    0
  • 取消回覆