Heim >Backend-Entwicklung >Python-Tutorial >Datenmanipulation von CSV-Dateien mit Pandas: Schritte und Tipps

Datenmanipulation von CSV-Dateien mit Pandas: Schritte und Tipps

王林
王林Original
2024-01-10 11:54:351376Durchsuche

Datenmanipulation von CSV-Dateien mit Pandas: Schritte und Tipps

Schritte und Techniken für die Verwendung von Pandas zum Lesen von CSV-Dateien zur Datenbearbeitung

Einführung:
Bei der Datenanalyse und -verarbeitung ist es häufig erforderlich, Daten aus CSV-Dateien zu lesen und weitere Vorgänge und Analysen durchzuführen. Pandas ist eine leistungsstarke Python-Bibliothek, die eine Reihe von Tools zur Datenverarbeitung und -analyse bereitstellt und die Verarbeitung und Bearbeitung von CSV-Dateien vereinfacht. In diesem Artikel werden die Schritte und Techniken zum Lesen von CSV-Dateien basierend auf Pandas vorgestellt und spezifische Codebeispiele bereitgestellt.

1. Importieren Sie die Pandas-Bibliothek.
Bevor Sie die Pandas-Bibliothek verwenden, müssen Sie die Bibliothek zuerst importieren. Dies können wir durch den folgenden Code erreichen:

Pandas als PD importieren

2. CSV-Dateien lesen
Das Lesen von CSV-Dateien ist eine wichtige Funktion von Pandas. Pandas bietet die Funktion read_csv(), die eine CSV-Datei in ein DataFrame-Objekt einlesen kann, um nachfolgende Datenoperationen und -analysen zu erleichtern. Das Folgende ist ein einfaches Codebeispiel zum Lesen einer CSV-Datei:

data = pd.read_csv('file.csv')

Im obigen Code ist „file.csv“ der Pfad zu der CSV-Datei, die Sie lesen möchten . Nach dem Lesen werden die Daten in einem DataFrame-Objekt namens data gespeichert.

3. Sehen Sie sich die Daten an
Nachdem wir die CSV-Datei gelesen haben, können wir die Funktion head() verwenden, um die ersten paar Zeilen der Daten anzuzeigen. Dies ist sehr hilfreich, um die Struktur der Daten und die Notwendigkeit einer Datenbereinigung zu verstehen. Das Folgende ist ein Codebeispiel zum Anzeigen von Daten:

print(data.head())

Dieser Code gibt die ersten fünf Datenzeilen in data aus.

4. Datenverarbeitung und -betrieb
pandas bietet eine Fülle von Funktionen und Methoden zur Verarbeitung und Bedienung von Daten. Im Folgenden werden einige häufig verwendete Datenverarbeitungstechniken vorgestellt.

4.1 Datenfilterung
Wir können die von Pandas bereitgestellte bedingte Filterfunktion verwenden, um die benötigten Daten schnell herauszufiltern. Wenn wir beispielsweise die Daten finden möchten, deren „Stadt“ „Peking“ ist, können wir den folgenden Code verwenden:

filtered_data = data[data['city'] == 'Peking']

In der Der obige Code data['City'] == 'Peking' gibt einen booleschen Wert Series zurück, der angibt, ob jede Datenzeile die Bedingungen erfüllt. Anschließend verwenden wir diese boolesche Reihe als Index, um die Daten herauszufiltern, die die Bedingungen erfüllen, und sie in filtered_data zu speichern.

4.2 Datensortierung
pandas bietet die Funktion sort_values() zum Sortieren von Daten. Das Folgende ist ein Codebeispiel zum Sortieren von Daten in absteigender Reihenfolge nach der Spalte „Umsätze“:

sorted_data = data.sort_values(by='sales', aufsteigend=False)

Der obige Code sortiert die Daten nach Spalte „Sales“ Sortieren Sie in absteigender Reihenfolge und speichern Sie die sortierten Ergebnisse in sorted_data.

4.3 Datengruppierung und -aggregation
pandas bietet die Funktionen groupby() und agg(), mit denen Datengruppierungs- und Aggregationsvorgänge problemlos implementiert werden können. Das Folgende ist ein Codebeispiel, um Daten nach der Spalte „Stadt“ zu gruppieren und den Gesamtumsatz jeder Stadt zu berechnen:

grouped_data = data.groupby('City').agg({'Sales':'sum'})

Der obige Code gruppiert die Daten nach der Spalte „Stadt“ und berechnet mit der Funktion agg() den Gesamtumsatz jeder Gruppe (Stadt). Die Ergebnisse werden in grouped_data gespeichert.

5. Datenausgabe
Nach der Verarbeitung der Daten können wir die Daten in eine CSV-Datei oder andere Formatdateien ausgeben. Verwenden Sie die Funktion to_csv() von Pandas, um das DataFrame-Objekt als CSV-Datei auszugeben. Das Folgende ist ein Codebeispiel, das gruppierte_Daten als CSV-Datei ausgibt:

grouped_data.to_csv('grouped_data.csv')

Der obige Code gibt gruppierte_Daten als CSV-Datei mit dem Namen „grouped_data.csv“ aus.

Fazit:
In diesem Artikel werden die grundlegenden Schritte und gängigen Techniken für die Verwendung von Pandas zum Lesen von CSV-Dateien zur Datenbearbeitung vorgestellt und spezifische Codebeispiele bereitgestellt. Wenn Sie diese Fähigkeiten beherrschen, können Sie CSV-Dateien problemlos lesen und verarbeiten sowie schnell Datenanalysen und Datenoperationen durchführen. Durch die Verwendung der Pandas-Bibliothek kann die Effizienz der Datenverarbeitung erheblich verbessert und die Datenanalyse komfortabler und effizienter gestaltet werden.

Das obige ist der detaillierte Inhalt vonDatenmanipulation von CSV-Dateien mit Pandas: Schritte und Tipps. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn