网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

Question

写了一小段代码，爬取博客园博客中的图片，这段代码对部分链接有效，还有一部分链接一爬就报错，这是什么原因呢？ {代码...} 如图，可以正确爬取图片 若把url换为 {代码...} 则立马报错 求解决，谢谢！

我想大声告诉你 · Answer

错误提示已经很明显了，你去看下网页源代码，匹配到的第一张图片是一个GIF格式的，并且还是相对路径，所以你是下载不到的，故提示IOerror，就算你下载到了，因为你指定了格式为JPG，你也打不开。因此你需要做的就是判断和筛选

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

看下我增加的地方，当然这只是最简单的判断，但可以保证你第二个程序不会报错，也是给你一个思路！