Die Pandas-Bibliothek ist eines der am häufigsten verwendeten Datenverarbeitungs- und Analysetools in Python. Sie bietet einen umfangreichen Satz an Datenstrukturen und Funktionen, mit denen große Datensätze effizient verarbeitet und analysiert werden können. In diesem Artikel wird ausführlich erläutert, wie Sie die Pandas-Bibliothek importieren und verwenden, und es werden spezifische Codebeispiele aufgeführt.
1. Importieren der Pandas-Bibliothek
Das Importieren der Pandas-Bibliothek ist sehr einfach. Sie müssen nur eine Zeile Importanweisungen in den Code einfügen:
import pandas as pd
Diese Codezeile importiert die gesamte Pandas-Bibliothek und benennt sie Das ist pd , was die herkömmliche Art ist, die Pandas-Bibliothek zu verwenden.
2. Pandas-Datenstruktur
Die Pandas-Bibliothek bietet zwei Hauptdatenstrukturen: Series und DataFrame.
- Serien
Serien sind eindimensional beschriftete Arrays, die jeden Datentyp (Ganzzahlen, Gleitkommazahlen, Zeichenfolgen usw.) aufnehmen können, ähnlich wie NumPy-Arrays mit Indizes. Eine Serie kann auf folgende Weise erstellt werden:
data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
Dieser Code gibt die folgenden Ergebnisse aus:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
Series hat den Index links und den Wert rechts. Sie können Indizes verwenden, um auf Elemente in einer Serie zuzugreifen und diese zu bearbeiten.
- DataFrame
DataFrame ist eine zweidimensionale tabellarische Datenstruktur, ähnlich wie Tabellen in relationalen Datenbanken. Ein DataFrame kann erstellt werden durch:
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 26, 27],
'score': [90, 92, 85]}
df = pd.DataFrame(data)
print(df)
this The Das Code-Snippet gibt die folgenden Ergebnisse aus:
name age score
0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
Die Spaltennamen des DataFrame sind oben aufgeführt und jede Spalte kann unterschiedliche Datentypen haben. Auf Daten in einem DataFrame kann mithilfe von Spaltennamen und Zeilenindizes zugegriffen und diese bearbeitet werden.
3. Lesen und Schreiben von Daten
Die Pandas-Bibliothek unterstützt das Lesen von Daten aus einer Vielzahl von Datenquellen, einschließlich CSV, Excel, SQL-Datenbanken usw. Sie können die folgenden Methoden zum Lesen und Schreiben von Daten verwenden:
- CSV-Dateien lesen
df = pd.read_csv('data.csv')
Unter diesen ist data.csv die zu lesende CSV-Datei. Verwenden Sie read_csv( )-Methode Daten aus einer CSV-Datei können als DataFrame gelesen werden.
- Excel-Datei lesen
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
Dabei ist data.xlsx die zu lesende Excel-Datei, und der Parameter sheet_name gibt den Namen des Arbeitsblatts an gelesen werden.
- SQL-Datenbank lesen
sqlite3 importieren
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, conn)
Dazu gehört auch „database.db“. be Die gelesene SQL-Datenbankdatei, Tabellenname ist der Name der zu lesenden Tabelle, und die Methode read_sql() kann verwendet werden, um die SQL-Abfrage auszuführen und das Ergebnis als DataFrame zu lesen.
- Daten schreiben
df.to_csv('output.csv')
Mit der Methode to_csv() können Sie die Daten im DataFrame in eine CSV-Datei schreiben.
4. Datenbereinigung und -transformation
Die Pandas-Bibliothek bietet eine Fülle von Funktionen und Methoden zur Datenbereinigung und -transformation, einschließlich der Verarbeitung fehlender Werte, Datenfilterung, Datensortierung usw.
- Verarbeitung fehlender Werte
df.dropna(): Zeilen oder Spalten mit fehlenden Werten löschen
df.fillna(value): Fehlende Werte mit angegebenen Werten füllen
df.interpolate(): Basierend auf linearer Interpolation bei bekannten Werten Füllen fehlender Werte
- Datenfilterung
df[df['age'] > 25]: Zeilen mit einem Alter größer als 25 filtern
df[(df['age'] > 25) & (df[' Score'] > ; 90)]: Zeilen mit einem Alter über 25 und einem Score über 90 filtern. sort_index(): Nach Index sortieren 5. Datenanalyse und Statistik - Die Pandas-Bibliothek bietet eine Fülle statistischer Funktionen und Methoden, die für Datenanalysen und Berechnungen verwendet werden können.
Beschreibende Statistik
df.describe(): Berechnen Sie die beschreibende Statistik jeder Spalte, einschließlich Mittelwert, Standardabweichung, Minimalwert, Maximalwert usw.
Datenaggregation- df.groupby('name').sum() :Gruppieren Sie nach Namen und berechnen Sie die Summe jeder Gruppe (): Berechnen Sie die Kovarianz zwischen Spalten
- Die oben genannten sind nur einige der Funktionen und Verwendungszwecke der Pandas-Bibliothek. Eine detailliertere Verwendung finden Sie in der offiziellen Pandas-Dokumentation. Durch die flexible Nutzung der von der Pandas-Bibliothek bereitgestellten Funktionen können Datenverarbeitung und -analyse effizient durchgeführt und nachfolgende maschinelle Lern- und Data-Mining-Arbeiten umfassend unterstützt werden.
Das obige ist der detaillierte Inhalt vonAusführliche Erklärung zum Importieren und Verwenden der Pandas-Bibliothek. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!