Maison > Article > développement back-end > Crawler Python : explorez les images Baidu via des mots-clés
Outils utilisés : Python2.7
framework scrapy
sublime text3
One. Construire python (version Windows)
1. Installez python2.7 --- Entrez ensuite python dans cmd Si l'interface est la suivante, l'installation est réussie
.2. Intégrez le framework Scrapy----Entrez la ligne de commande : pip install Scrapy
L'interface d'installation réussie est la suivante :
Échec Il existe de nombreuses situations, par exemple :
Solution :
D'autres erreurs peuvent être recherchées sur Baidu.
Deux. Commencez la programmation.
Le code python est le suivant :
Commentaires du code : Deux modules urllib, re sont introduits. Définissez deux fonctions. La première fonction consiste à obtenir l'intégralité des données de la page Web cible. La deuxième fonction consiste à obtenir l'image cible dans la page Web cible, à parcourir la page Web et à trier les images acquises à partir de 0.
Remarque : points de connaissance du module :
Rendu d'image d'exploration :
image Par défaut , le chemin d'enregistrement se trouve dans le même répertoire que le fichier .py créé.
2. Explorez les images Baidu avec des mesures anti-crawler. Comme les photos Baidu, etc.
Par exemple, la recherche par mot-clé "package émoticônes" https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=�����&fr= ala&ori_query= Emoticon pack&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
Les images sont chargées de manière continue et les 30 images les plus prioritaires sont explorées en premier.
Le code est le suivant :
Commentaires du code : importez 4 modules, et le module os est utilisé pour spécifier le chemin de sauvegarde. Les deux premières fonctions sont les mêmes que ci-dessus. La troisième fonction utilise une instruction if et une tryException.
Le processus d'exploration est le suivant :
Résultats de l'exploration :
Remarque : écrivez python code Faites attention à l'alignement et ne mélangez pas les tabulations et les espaces, car il est facile de signaler des erreurs.
Pour plus de robots d'exploration Python : explorer les images Baidu à l'aide de mots-clés, veuillez faire attention au site Web PHP chinois pour les articles connexes !