Maison  >  Article  >  développement back-end  >  Crawler Python : explorez les images Baidu via des mots-clés

Crawler Python : explorez les images Baidu via des mots-clés

高洛峰
高洛峰original
2017-02-20 10:06:372547parcourir

Outils utilisés : Python2.7

framework scrapy

sublime text3

One. Construire python (version Windows)

1. Installez python2.7 --- Entrez ensuite python dans cmd Si l'interface est la suivante, l'installation est réussie

Crawler Python : explorez les images Baidu via des mots-clés

.

2. Intégrez le framework Scrapy----Entrez la ligne de commande : pip install Scrapy

Crawler Python : explorez les images Baidu via des mots-clés

L'interface d'installation réussie est la suivante :

Crawler Python : explorez les images Baidu via des mots-clés

Échec Il existe de nombreuses situations, par exemple :

Crawler Python : explorez les images Baidu via des mots-clés

Solution :

D'autres erreurs peuvent être recherchées sur Baidu.

Deux. Commencez la programmation.

Le code python est le suivant :

Crawler Python : explorez les images Baidu via des mots-clés

Commentaires du code : Deux modules urllib, re sont introduits. Définissez deux fonctions. La première fonction consiste à obtenir l'intégralité des données de la page Web cible. La deuxième fonction consiste à obtenir l'image cible dans la page Web cible, à parcourir la page Web et à trier les images acquises à partir de 0.

Remarque : points de connaissance du module :

Crawler Python : explorez les images Baidu via des mots-clés

Rendu d'image d'exploration :

Crawler Python : explorez les images Baidu via des mots-clés

image Par défaut , le chemin d'enregistrement se trouve dans le même répertoire que le fichier .py créé.

2. Explorez les images Baidu avec des mesures anti-crawler. Comme les photos Baidu, etc.

Par exemple, la recherche par mot-clé "package émoticônes" https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=�����&fr= ala&ori_query= Emoticon pack&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

Les images sont chargées de manière continue et les 30 images les plus prioritaires sont explorées en premier.

Le code est le suivant :

Crawler Python : explorez les images Baidu via des mots-clés

Commentaires du code : importez 4 modules, et le module os est utilisé pour spécifier le chemin de sauvegarde. Les deux premières fonctions sont les mêmes que ci-dessus. La troisième fonction utilise une instruction if et une tryException.

Le processus d'exploration est le suivant :

Crawler Python : explorez les images Baidu via des mots-clés

Résultats de l'exploration :

Crawler Python : explorez les images Baidu via des mots-clés

Remarque : écrivez python code Faites attention à l'alignement et ne mélangez pas les tabulations et les espaces, car il est facile de signaler des erreurs.

Pour plus de robots d'exploration Python : explorer les images Baidu à l'aide de mots-clés, veuillez faire attention au site Web PHP chinois pour les articles connexes !

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn