網頁爬蟲 - 部落格園部落格中的圖片怎麼用python爬取下來？

Question

寫了一小段程式碼，爬取部落格園部落格中的圖片，這段程式碼對部分連結有效，還有一部分連結一爬就報錯，這是什麼原因呢？ {代碼...} 如圖，可以正確爬取圖片 若把url換成 {代碼...} 則立刻報錯 求解決，謝謝！

我想大声告诉你 · Answer

錯誤提示已經很明顯了，你去看下網頁源代碼，匹配到的第一張圖片是一個GIF格式的，並且還是相對路徑，所以你是下載不到的，故提示IOerror，就算你下載到了，因為你指定了格式為JPG，你也打不開。因此你需要做的就是判斷和篩選

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

看下我增加的地方，當然這只是最簡單的判斷，但可以保證你第二個程序不會報錯，也是給你一個思路！