Maison >développement back-end >Tutoriel Python >Web scraping avec sélénium

Web scraping avec sélénium

Susan Sarandonoriginal: 2025-01-23 18:11:17606parcourir

Ce texte est déjà bien organisé et rédigé dans un portugais correct. La seule suggestion serait d'améliorer la clarté sur certains points et d'ajouter un peu plus de contexte pour le lecteur qui n'est pas familier avec le web scraping et le site de l'IBGE. Une version révisée suit :

Web scraping com selenium

Automatisation de la collecte de données sur l'inflation IBGE avec Selenium et Python

Ce tutoriel montre comment automatiser la collecte de données d'inflation de l'IBGE (Institut brésilien de géographie et de statistique) à l'aide de la bibliothèque Selenium en Python. L'objectif est d'extraire des données sur la variation en pourcentage de l'IPCA (Broad National Consumer Price Index) du site SIDRA (IBGE Automatic Recovery System).

Étapes de la collecte de données

Avant de commencer, assurez-vous que Python est installé sur votre système, ainsi que le gestionnaire de packages pip.

1. Préparation de l'environnement

1.1 Créer le projet :

Créez un nouveau dossier pour votre projet. À l'intérieur, créez un fichier Jupyter Notebook (.ipynb) ou un fichier Python (.py). Jupyter Notebook facilite la visualisation et l'exécution du code étape par étape.

1.2 Installation des bibliothèques :

Ouvrez votre terminal ou votre invite de commande, accédez à votre dossier de projet et exécutez les commandes suivantes pour installer les bibliothèques nécessaires :

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

Créer un environnement virtuel (recommandé) pour isoler les dépendances de ce projet :

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

Après avoir activé l'environnement virtuel, exécutez à nouveau les commandes d'installation de la bibliothèque. Pour enregistrer les dépendances dans un fichier requirements.txt, utilisez :

<code class="language-bash">pip freeze > requirements.txt</code>

Cela permet de reproduire facilement l'environnement sur un autre ordinateur.

1.3 Téléchargement du pilote Chrome :

Téléchargez la version de ChromeDriver compatible avec votre version de Google Chrome. Vous pouvez trouver le lien de téléchargement sur le site officiel de ChromeDriver en recherchant la version correspondant à votre version de Chrome (rendez-vous sur chrome://settings/help pour vérifier votre version). Après le téléchargement, décompressez le fichier et rappelez-vous où il a été enregistré.

2. Configuration du pilote Chrome

2.1 Ajouter au CHEMIN (Windows) :

Pour faciliter l'utilisation de ChromeDriver, ajoutez le chemin de votre dossier d'installation ChromeDriver à la variable d'environnement PATH. Suivez les étapes :

Recherchez « variables d'environnement » dans le menu Démarrer.
Cliquez sur "Modifier les variables d'environnement système".
Dans la section "Variables système", sélectionnez "Chemin" et cliquez sur "Modifier".
Cliquez sur "Nouveau" et ajoutez le chemin complet du dossier où se trouve le ChromeDriver (ex : C:caminhoparachromedriver).
Enregistrez les modifications et redémarrez le terminal ou l'invite de commande.

2.2 Vérification :

Pour vérifier si ChromeDriver est correctement configuré, ouvrez votre terminal et tapez :

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

La version de ChromeDriver devrait être affichée.

3. Script Python pour l'automatisation

Le code Python ci-dessous utilise Selenium pour accéder à la page SIDRA, sélectionner les données et extraire les informations de variation en pourcentage IPCA. N'oubliez pas de remplacer 'C:\caminho\para\chromedriver.exe' par le chemin correct pour votre ChromeDriver.

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

4. Exécution et résultats

Exécutez le script Python. Si tout est configuré correctement, le script :

Accédez à la page SIDRA.
Sélectionnez toutes les données.
Extraire les valeurs de changement en pourcentage.
Imprimez les valeurs sur la console.
Enregistrez le HTML de la page dans un fichier pagina_carregada.html (utile pour le débogage).

Les données extraites peuvent être traitées ultérieurement, par exemple pour créer des graphiques ou des rapports.

Considérations finales

Ce tutoriel fournit une base pour automatiser la collecte de données IBGE. N'oubliez pas que la structure du site peut changer, nécessitant des ajustements du code XPath. Il est important de surveiller les modifications apportées à votre site et de mettre à jour votre script si nécessaire. De plus, respectez les conditions d'utilisation du site Internet de l'IBGE lors de la collecte de données.

Cette version améliore la clarté, ajoute des informations importantes sur la configuration de l'environnement et fournit une introduction plus complète pour les utilisateurs ayant moins d'expérience en matière de web scraping. La structure a également été légèrement réorganisée pour une meilleure fluidité.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python chrome html pip console windows jupyter ar prompt Web Scraping Prompt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Arrêtez simplement d'écrire des fonctions Python comme celle-ci !Article suivant：Arrêtez simplement d'écrire des fonctions Python comme celle-ci !

Articles Liés

Voir plus