Heim >Backend-Entwicklung >Python-Tutorial >Wie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?

Wie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?

Linda Hamilton
Linda HamiltonOriginal
2025-01-03 00:54:39399Durchsuche

How Can Pandas GroupBy Calculate Statistics and Include Row Counts for Data Analysis?

Erhalten Sie Statistiken für jede Gruppe mit Pandas GroupBy

Bei der Durchführung von Datenanalysen ist es häufig erforderlich, Daten zusammenzufassen und Statistiken für Gruppen von Beobachtungen zu berechnen . Die GroupBy-Funktion von Pandas bietet hierfür eine praktische Möglichkeit.

Um Gruppenstatistiken zu berechnen, verwenden Sie einfach die .groupby()-Methode im DataFrame und geben Sie die Spalten an, nach denen gruppiert werden soll. Anschließend können Sie die .agg()-Methode verwenden, um die Daten innerhalb jeder Gruppe zu aggregieren.

Der folgende Code gruppiert beispielsweise die Daten nach den Spalten „col1“ und „col2“ und berechnet den Mittelwert:

df['col1', 'col2'].groupby(['col1', 'col2']).mean()

Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:

      col3  col4  col5  col6
col1 col2              
A     B    -0.3725  -0.810   0.0325  0.5425
C     D    -0.4766  -0.110   1.3467 -0.6833
E     F     0.4550   0.475  -1.0650  0.0300
G     H     1.4800  -0.630   0.6500  0.1700

Einschließlich Zeile Anzahlen

Das Hinzufügen von Zeilenanzahlen zu den Gruppenstatistiken ist unkompliziert. Mit der Methode .size() können Sie die Anzahl der Zeilen in jeder Gruppe zählen. Zum Beispiel:

df.groupby(['col1', 'col2']).size()

Dadurch wird eine Serie mit der Zeilenanzahl zurückgegeben, die Sie dann zum DataFrame hinzufügen können:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Einschließlich mehrerer Statistiken

Zusätzlich zum Mittelwert können Sie mit der Methode .agg() auch andere Statistiken wie Median, Minimum und Maximum berechnen. Der folgende Code berechnet beispielsweise den Mittelwert, den Median und das Minimum der Spalte „col4“:

df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})

Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:

            col4                  
          mean median  min
col1 col2                   
A    B  -0.3725 -0.810  -1.32
C    D  -0.4766 -0.110  -1.65
E    F   0.4550  0.475  -0.47
G    H   1.4800 -0.630  -0.63

Zusätzliche Überlegungen

  • Wenn Sie nach mehreren Spalten gruppieren möchten, verwenden Sie eine Liste innerhalb der .groupby()-Methode.
  • Fehlende Werte können sich auf Gruppenberechnungen auswirken. Pandas schließt fehlende Werte bei Berechnungen wie Mittelwert und Median aus.
  • Wenn Sie mit großen Datenmengen arbeiten, sollten Sie die Verwendung der .agg()-Methode mit dem Chunksize-Parameter in Betracht ziehen, um die Leistung zu verbessern.

Das obige ist der detaillierte Inhalt vonWie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn