Heim >Backend-Entwicklung >Python-Tutorial >Web Scraping mit Selen

Web Scraping mit Selen

Susan Sarandon
Susan SarandonOriginal
2025-01-23 18:11:17514Durchsuche

Dieser Text ist bereits gut organisiert und in korrektem Portugiesisch verfasst. Der einzige Vorschlag wäre, die Klarheit in einigen Punkten zu verbessern und etwas mehr Kontext für den Leser hinzuzufügen, der mit Web Scraping und der IBGE-Website nicht vertraut ist. Es folgt eine überarbeitete Version:

Web scraping com selenium


Automatisierung der IBGE-Inflationsdatenerfassung mit Selenium und Python

Dieses Tutorial zeigt, wie man die Erfassung von Inflationsdaten vom IBGE (Brasilianisches Institut für Geographie und Statistik) mithilfe der Selenium-Bibliothek in Python automatisiert. Ziel ist es, Daten zur prozentualen Variation des IPCA (Broad National Consumer Price Index) von der SIDRA-Website (IBGE Automatic Recovery System) zu extrahieren.


Schritte zur Datenerfassung

Bevor Sie beginnen, stellen Sie sicher, dass Python zusammen mit dem Paketmanager auf Ihrem System installiert ist pip.


1. Umgebungsvorbereitung

1.1 Erstellen Sie das Projekt:

Erstellen Sie einen neuen Ordner für Ihr Projekt. Erstellen Sie darin eine Jupyter Notebook-Datei (.ipynb) oder eine Python-Datei (.py). Jupyter Notebook macht es einfach, Code Schritt für Schritt anzuzeigen und auszuführen.

1.2 Installation von Bibliotheken:

Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung, navigieren Sie zu Ihrem Projektordner und führen Sie die folgenden Befehle aus, um die erforderlichen Bibliotheken zu installieren:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

Erstellen Sie eine virtuelle Umgebung (empfohlen), um die Abhängigkeiten dieses Projekts zu isolieren:

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

Führen Sie nach der Aktivierung der virtuellen Umgebung die Bibliotheksinstallationsbefehle erneut aus. Um Abhängigkeiten in einer requirements.txt-Datei zu speichern, verwenden Sie:

<code class="language-bash">pip freeze > requirements.txt</code>

Dadurch können Sie die Umgebung problemlos auf einem anderen Computer reproduzieren.

1.3 ChromeDriver-Download:

Laden Sie die Version von ChromeDriver herunter, die mit Ihrer Google Chrome-Version kompatibel ist. Sie finden den Download-Link auf der offiziellen ChromeDriver-Website, indem Sie nach der Version suchen, die Ihrer Chrome-Version entspricht (gehen Sie zu chrome://settings/help, um Ihre Version zu überprüfen). Entpacken Sie die Datei nach dem Herunterladen und merken Sie sich, wo sie gespeichert wurde.


2. ChromeDriver-Konfiguration

2.1 Zum PATH hinzufügen (Windows):

Um die Verwendung von ChromeDriver zu vereinfachen, fügen Sie den Pfad Ihres ChromeDriver-Installationsordners zur Umgebungsvariablen PATH hinzu. Befolgen Sie die Schritte:

  1. Suchen Sie im Startmenü nach „Umgebungsvariablen“.
  2. Klicken Sie auf „Systemumgebungsvariablen bearbeiten“.
  3. Wählen Sie im Abschnitt „Systemvariablen“ „Pfad“ aus und klicken Sie auf „Bearbeiten“.
  4. Klicken Sie auf „Neu“ und fügen Sie den vollständigen Pfad des Ordners hinzu, in dem sich der ChromeDriver befindet (z. B. C:caminhoparachromedriver).
  5. Speichern Sie die Änderungen und starten Sie das Terminal oder die Eingabeaufforderung neu.

2.2 Überprüfung:

Um zu überprüfen, ob ChromeDriver richtig konfiguriert ist, öffnen Sie Ihr Terminal und geben Sie Folgendes ein:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

ChromeDriver-Version sollte angezeigt werden.


3. Python-Skript für die Automatisierung

Der folgende Python-Code verwendet Selenium, um auf die SIDRA-Seite zuzugreifen, die Daten auszuwählen und die Informationen zur prozentualen IPCA-Variation zu extrahieren. Denken Sie daran, 'C:\caminho\para\chromedriver.exe' durch den richtigen Pfad für Ihren ChromeDriver zu ersetzen.

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

4. Ausführung und Ergebnisse

Führen Sie das Python-Skript aus. Wenn alles richtig konfiguriert ist, wird das Skript:

  1. Greifen Sie auf die SIDRA-Seite zu.
  2. Alle Daten auswählen.
  3. Prozentsatzänderungswerte extrahieren.
  4. Drucken Sie die Werte auf der Konsole aus.
  5. Speichern Sie den HTML-Code der Seite in einer Datei pagina_carregada.html (nützlich zum Debuggen).

Die extrahierten Daten können weiterverarbeitet werden, beispielsweise um Grafiken oder Berichte zu erstellen.


Abschließende Überlegungen

Dieses Tutorial bietet eine Grundlage für die Automatisierung der IBGE-Datenerfassung. Bedenken Sie, dass sich die Site-Struktur ändern kann und Anpassungen des XPath-Codes erforderlich sind. Es ist wichtig, Änderungen an Ihrer Website zu überwachen und Ihr Skript bei Bedarf zu aktualisieren. Beachten Sie außerdem bei der Datenerhebung die Nutzungsbedingungen der IBGE-Website.

Diese Version verbessert die Übersichtlichkeit, fügt wichtige Informationen zur Umgebungskonfiguration hinzu und bietet eine umfassendere Einführung für Benutzer mit weniger Web-Scraping-Erfahrung. Auch die Struktur wurde für eine bessere Fließfähigkeit leicht umgestaltet.

Das obige ist der detaillierte Inhalt vonWeb Scraping mit Selen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn