Webcrawler – Wie crawle ich die Bilder im Blog Park-Blog mit Python?

Question

Ich habe einen kleinen Code geschrieben, um die Bilder im Blog Park zu crawlen. Dieser Code ist für einige Links wirksam, aber einige Links melden Fehler, sobald sie gecrawlt werden. {code...} Wie in der Abbildung gezeigt, kann das Bild korrekt gecrawlt werden, wenn die URL in {code...} geändert wird. Bitte beheben Sie den Fehler.

我想大声告诉你 · Answer

错误提示已经很明显了，你去看下网页源代码，匹配到的第一张图片是一个GIF格式的，并且还是相对路径，所以你是下载不到的，故提示IOerror，就算你下载到了，因为你指定了格式为JPG，你也打不开。因此你需要做的就是判断和筛选

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

看下我增加的地方，当然这只是最简单的判断，但可以保证你第二个程序不会报错，也是给你一个思路！

Webcrawler – Wie crawle ich die Bilder im Blog Park-Blog mit Python?

Antworte allen(1)Ich werde antworten