Heim >Backend-Entwicklung >Python-Tutorial >So erstellen Sie ein Einsteigerprojekt in der Datenanalyse
Hallo, heute erstellen wir ein erstes Projekt für Sie, Anfänger im Datenbereich, damit Sie mit der Erstellung eines coolen Portfolios beginnen können und über alle notwendigen Tools verfügen, mit denen Sie arbeiten können Daten!
Dieses Projekt zeigt, dass Sie, selbst wenn Sie ein Anfänger in Python sind, immer Bibliotheken finden können, um komplexere Aufgaben auszuführen, die Sie noch nicht von Grund auf erledigen können (manche Dinge sind es nicht einmal wert, sie von Grund auf zu erledigen). entweder) . Zunächst ist es wichtig, dass Sie über erste Kenntnisse in Python und SQL sowie ein wenig Tableau-Kenntnisse verfügen, um das Dashboard zu erstellen. Es ist nicht erforderlich, dass Sie ein Experte sind, aber wenn Sie die Grundlagen dieser Tools kennen, können Sie dem Projekt leichter folgen. Sie können jedoch den gesamten Artikel lesen und auch versuchen, ihn zu reproduzieren, da ich versuchen werde, ihn im zu erklären Der einfachste Weg, damit Sie jetzt mit der Erstellung Ihres ersten Dashboards beginnen können!
Sollen wir anfangen?
Der erste Schritt besteht darin, Ihre Entwicklungsumgebung auf Ihrem Computer zu konfigurieren. Die Anforderungen für dieses Projekt sind:
Ich entwickle dieses Projekt in einer Windows 11-Umgebung, daher können einige Dinge je nach Betriebssystem oder Windows-Version variieren, aber nichts weicht zu sehr von dem ab, was ich hier präsentieren werde.
Beginnen wir mit Python. Gehen Sie zu https://www.python.org/downloads/ und laden Sie die neueste Version des Installationsprogramms herunter. Starten Sie nach der Installation Ihren PC neu, um Fehler zu vermeiden (wie es mir passiert ist, hahah) und die Sprache ohne Probleme in der Befehlszeile verwenden zu können.
Gehen Sie dann mit MySQL zur Website https://dev.mysql.com/downloads/mysql/ und laden Sie das MySQL Community Server-Installationsprogramm herunter. Befolgen Sie einfach die Standardinstallation und alles wird perfekt funktionieren.
Gehen Sie jetzt mit Tableau Public zu https://www.tableau.com/pt-br/products/public/download und erstellen Sie Ihr Konto, um den Download zu starten. Die Erstellung eines Kontos ist auch für die Veröffentlichung Ihres ersten Dashboards erforderlich und auch für Ihr Portfolio sehr wichtig!
Ein weiteres Tool, das nicht notwendig, aber sehr gut zu haben ist, ist Git und ein Github-Konto. Ich habe meinen gesamten Code mit Commits und Kommentaren hier abgelegt und es ist großartig, Github als Portfolio Ihres Codes zu verwenden, aber wenn Sie Git nicht kennen, ist es in Ordnung und Ihr Projekt wird genauso funktionieren.
Wenn Sie alles konfiguriert haben, gehen Sie in das Verzeichnis, in dem Sie Ihre Anwendung ablegen werden, und nehmen Sie dann einige weitere Konfigurationen vor. Sie benötigen einige Python-Bibliotheken, die Sie im Projekt verwenden können. Ich erkläre Ihnen, was jede einzelne tut und wie Sie sie installieren.
Die erste Bibliothek, die wir verwenden werden, ist BeautifulSoup. Die Daten, die wir für dieses Projekt benötigen, befinden sich im Internet und wir müssen einen Prozess namens Web Scraping durchführen, um sie zu sammeln. BeautifulSoup wird uns bei diesem Prozess unterstützen, indem es uns Tools zur Verfügung stellt, die diese Sammlung erleichtern.
Um es zu installieren, gehen Sie einfach zum Terminal und geben Sie
ein
pip install beautifulsoup4
und... das war's! Die Installation von Abhängigkeiten in Python ist sehr einfach!
Die zweite Bibliothek, die wir verwenden werden, sind Anfragen. Wenn wir mit Webseiten arbeiten wollen, brauchen wir etwas, das uns hilft, CRUD-Aktionen mit APIs durchzuführen, also ist dies unsere Wahl. Auch hier einfach mit
im Terminal installieren
pip install requests
Wir werden auch bewährte Praktiken implementieren und Umgebungsvariablen verwenden (damit niemand unsere Passwörter, Benutzernamen und andere vertrauliche Informationen in unserem Code entdeckt), daher benötigen wir os und dotenv. os muss bereits standardmäßig in Python installiert sein, dotenv jedoch nicht, es ist also der übliche Prozess
pip install dotenv
Und zu guter Letzt brauchen wir eine Bibliothek, um eine Verbindung zu unserer MySQL-Datenbank herzustellen, also verwenden wir mysql.connector
pip install mysql-connector-python
Sobald wir die Entwicklungsumgebung konfiguriert haben, fahren Sie einfach mit dem unterhaltsamsten Teil des Prozesses fort, dem PROGRAMMIEREN!!
Wir werden ein Projekt erstellen, das (in Bezug auf den Code) in zwei Teile unterteilt ist: Web-Scraping und Datenbankmanipulation. Daher beginnen wir mit der Erstellung der Web-Scraping-Datei, in der sich auch der Hauptcode befindet Gehen Sie weiter, und dann erstellen wir eine Datei, um unsere Datenbankmanipulationsfunktionen zu platzieren. Dies hilft uns nicht nur bei der Pflege des Codes, sondern auch bei seiner Wiederverwendung.
Erstellen Sie eine Datei mit dem Namen web_scrapper.py im Anwendungsverzeichnis.
Als nächstes importieren wir unsere Abhängigkeiten, die wir zuvor installiert haben.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Von dotenv benötigen wir nur die Funktion „load_dotenv“ und importieren sie daher nur.
Lassen Sie uns zunächst über die Struktur unseres Codes nachdenken und Schritt für Schritt aufschreiben, was die einzelnen Dinge tun sollen, damit alles besser organisiert ist. Wir möchten, dass unser Code die folgenden Aktionen ausführt:
Lassen Sie uns die einzelnen Schritte durchgehen. Der erste Teil, den wir erstellen und testen möchten, ist die Erstellung des Web-Scrapers. Der beste Weg ist also, damit zu beginnen!
Wir werden eine Website verwenden, die für solche Dinge erstellt wurde, https://www.scrapethissite.com/. Dort finden Sie verschiedene Arten von Seiten, um Web Scraping zu üben. Wir interessieren uns besonders für das Einsteigermodell, also lasst uns eine Anfrage für diese Seite stellen:
pip install beautifulsoup4
Hier verwenden wir die Methode „requests get“, die dem Lesen von CRUD entspricht. Sie gibt die Webseite zurück und speichert sie vollständig in der von uns erstellten Variablen „page_countries_area_population“.
Anschließend muss BeautifulSoup den HTML-Code der Seite analysieren, damit die von uns benötigten Informationen gefunden werden können. Dazu erstellen wir eine Variable namens Suppe, rufen BeautifulSoup auf und übergeben ihr den Text der von uns erstellten Variablen
pip install requests
Dadurch wird die Seite mit den Parse- und BeautifulSoup-Methoden zurückgegeben, die innerhalb der von uns erstellten Variablen damit verknüpft sind, was unsere Arbeit erleichtert.
Jetzt müssen wir die Informationen identifizieren, die wir von der Seite entfernen möchten. Dazu müssen wir die Webseite untersuchen und die Elemente und ihre Muster im HTML-Dokument identifizieren. In diesem Fall sehen wir, dass sich die Ländernamen in einem h3-Tag und in der Klasse „country-name“ befinden, also verwenden wir dies, um die Ländernamen zu erhalten
pip install dotenv
Hier rufen wir die Suppe auf, die wir zuvor erstellt haben, und rufen die Funktion „findAll“ auf, die alle Instanzen von Ländernamen für uns abruft. Der erste Parameter ist das HTML-Element, nach dem wir suchen, und der zweite wären seine Attribute, da sie möglicherweise andere H3-Tags haben, die nicht ausgewählt werden sollen. In diesem Fall übergeben wir die Klasse „Ländername“, um die Elemente zu identifizieren wir wollen.
Wir wiederholen den Vorgang für die Einwohnerzahl und die Fläche jedes Landes
pip install mysql-connector-python
Bevor wir diese Daten an die Datenbank übergeben, bereinigen wir sie und belassen sie in einem Format, das verhindert, dass unerwünschte Dinge damit eintreten. Dazu erstelle ich eine Liste von Tupeln zum Speichern der Daten, bevor ich sie an die Datenbank übergebe, da dies den Vorgang vereinfacht. Bevor wir sie hinzufügen, müssen wir jedoch auch Leerzeichen aus den Ländernamen entfernen.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Und damit haben wir bereits die Daten, die wir brauchen! Diese erste Aufgabe können wir von unserer Liste streichen!
Im zweiten Teil dieses Artikels werde ich Ihnen zeigen, wie Sie eine Datenbank mit Python manipulieren und unser Projekt abschließen?
Das obige ist der detaillierte Inhalt vonSo erstellen Sie ein Einsteigerprojekt in der Datenanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!