Heim  >  Artikel  >  Backend-Entwicklung  >  Lesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch

Lesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch

王林
王林Original
2024-01-09 09:26:071496Durchsuche

Lesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch

Pandas ist ein leistungsstarkes Datenanalysetool, das verschiedene Arten von Datendateien problemlos lesen und verarbeiten kann. Unter diesen sind CSV-Dateien eines der gebräuchlichsten und am häufigsten verwendeten Datendateiformate. In diesem Artikel wird erläutert, wie Sie mit Pandas CSV-Dateien lesen und Datenanalysen durchführen, und es werden spezifische Codebeispiele bereitgestellt.

1. Importieren Sie die erforderlichen Bibliotheken
Zuerst müssen wir die Pandas-Bibliothek und andere verwandte Bibliotheken importieren, die möglicherweise benötigt werden, wie unten gezeigt:

import pandas as pd

2. Lesen Sie die CSV-Datei
Verwenden Sie dazu die Funktion read_csv() von Pandas Lesen Sie die CSV-Datei. In der Funktion müssen wir den Pfad zur CSV-Datei als Parameter angeben, ein Beispiel ist wie folgt:

data = pd.read_csv('data.csv')

Im obigen Code gehen wir davon aus, dass der Name der CSV-Datei data.csv ist und in der abgelegt wird dasselbe Verzeichnis wie die Python-Codedatei. Sie können den Pfad entsprechend der tatsächlichen Situation ändern.

3. Verstehen Sie die Daten
Bevor wir die Daten analysieren, müssen wir zunächst die Grundsituation der Daten verstehen. Pandas bietet verschiedene Methoden, die uns helfen, schnell relevante Informationen zu den Daten zu erhalten.

  1. Zeigen Sie die ersten paar Zeilen der Daten an
    Wir können die Funktion head() verwenden, um die ersten paar Zeilen der Daten anzuzeigen. Das Beispiel sieht wie folgt aus:
rrree
  1. Zeigen Sie die grundlegenden Informationen der Daten an.
    Verwenden Sie die Funktion info(). Sie können die grundlegenden Informationen der Daten anzeigen, einschließlich des Datentyps jeder Spalte, der Anzahl der Nicht-Null-Werte usw.:
print(data.head())
  1. Sehen Sie sich die an Statistische Zusammenfassung der Daten
    Verwenden Sie die Funktion „beschreiben()“, um die statistische Zusammenfassung der Daten zu erhalten, einschließlich Anzahl, Durchschnitt, Standarddifferenz, Minimalwert, 25 %, Median, 75 %, Maximalwert usw.:
print(data.info())

IV. Datenanalyse
Vor der Analyse der Daten müssen wir möglicherweise eine Vorverarbeitung der Daten durchführen, z. B. die Verarbeitung fehlender Werte, die Behandlung von Ausreißern usw. Hierbei wird davon ausgegangen, dass die Daten vorverarbeitet wurden und keine fehlenden Werte oder Ausreißer in den Daten vorhanden sind.

Im Folgenden finden Sie Beispiele für einige häufig verwendete Datenanalyseoperationen:

  1. Berechnen Sie die Summe einer bestimmten Spalte.
    Verwenden Sie die Funktion sum(), um die Summe einer bestimmten Spalte zu berechnen. Das Beispiel lautet wie folgt:
rrree

Im obigen Code verwenden wir „column_name“ mit dem Namen der tatsächlich zu berechnenden Spalte.

  1. Berechnen Sie den Durchschnitt einer bestimmten Spalte.
    Verwenden Sie die Funktion „mean()“, um den Durchschnitt einer bestimmten Spalte zu berechnen. Das Beispiel lautet wie folgt:
print(data.describe())
  1. Berechnen Sie die Maximal- und Minimalwerte einer bestimmten Spalte Verwenden Sie die Funktionen max() und min(). Die Maximal- und Minimalwerte einer bestimmten Spalte können separat berechnet werden. Das Beispiel lautet wie folgt:
  2. total = data['column_name'].sum()
    print('The total is:', total)
    Zählen Sie die eindeutigen Werte einer bestimmten Spalte.
  1. Verwenden Sie die unique()-Funktion zum Zählen der eindeutigen Werte einer bestimmten Spalte. Das Beispiel sieht wie folgt aus:
  2. average = data['column_name'].mean()
    print('The average is:', average)
5. Ergebnisse speichern

Wenn wir die Ergebnisse der Analyse speichern müssen, können wir die Funktion to_csv() verwenden um die Ergebnisse als CSV-Datei zu speichern. Das Beispiel sieht wie folgt aus:

max_value = data['column_name'].max()
min_value = data['column_name'].min()
print('The maximum value is:', max_value)
print('The minimum value is:', min_value)

Im obigen Code speichern wir die Ergebnisse der Analyse als result.csv-Datei.

6. Zusammenfassung

In diesem Artikel wird erläutert, wie Sie mit Pandas CSV-Dateien lesen und Datenanalysen durchführen. Wir haben zuerst die erforderlichen Bibliotheken importiert, dann die CSV-Datei über die Funktion read_csv() gelesen und die Funktionen head(), info() und beschreiben() verwendet, um die Grundsituation der Daten zu verstehen. Als Nächstes stellen wir einige Beispiele für Datenanalysevorgänge bereit, darunter die Berechnung der Summe, des Durchschnitts, des Maximal- und Minimalwerts einer Spalte sowie das Zählen der eindeutigen Werte einer Spalte. Abschließend haben wir auch vorgestellt, wie man die Ergebnisse der Analyse als CSV-Datei speichert. Ich hoffe, dieser Artikel kann Ihnen dabei helfen, sich bei der Verwendung von Pandas für die Datenanalyse besser zurechtzufinden.

Das Obige ist eine Einführung, wie Pandas CSV-Dateien liest und Datenanalysen durchführt. Ich hoffe, es wird Ihnen hilfreich sein!

Das obige ist der detaillierte Inhalt vonLesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn