Web crawler - Comment explorer les images du blog Blog Park en utilisant Python ?

Question

J'ai écrit un petit morceau de code pour explorer les images du blog Blog Park. Ce code est efficace pour certains liens, mais certains liens signalent des erreurs dès qu'ils sont explorés. Quelle en est la raison ? {code...} Comme le montre la figure, l'image peut être explorée correctement. Si l'URL est modifiée en {code...}, une erreur sera signalée immédiatement. Veuillez la résoudre, merci !

我想大声告诉你 · Answer

Le message d'erreur est déjà très évident. Si vous regardez le code source de la page Web, la première image correspondante est au format GIF, et il s'agit toujours d'un chemin relatif, vous ne pouvez donc pas la télécharger, donc cela provoque IOerror, même si vous l'avez téléchargé, parce que vous avez spécifié le format JPG, vous ne pouvez pas l'ouvrir. Il ne vous reste plus qu'à juger et filtrer

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

Regardez ce que j'ai ajouté. Bien sûr, ce n'est que le jugement le plus simple, mais cela peut garantir que votre deuxième programme ne signalera pas d'erreur, et cela vous donne aussi une idée !

Web crawler - Comment explorer les images du blog Blog Park en utilisant Python ?

répondre à tous(1)je répondrai