Heim  >  Artikel  >  Backend-Entwicklung  >  Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?

Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?

Susan Sarandon
Susan SarandonOriginal
2024-10-25 03:17:02528Durchsuche

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

Erhalten einer Häufigkeitszählung basierend auf mehreren Datenrahmenspalten

In einem bestimmten Datenrahmen, in dem jede Zeile aus mehreren Spalten besteht, ist dies häufig erforderlich um zu bestimmen, wie häufig doppelte Zeilen auftreten. Diese Aufgabe kann mit der Pandas-Bibliothek von Python gelöst werden.

Lösung

Die Funktion pandas groupby() ermöglicht das Gruppieren von Zeilen basierend auf bestimmten Spalten. Um die Häufigkeit doppelter Zeilen zu zählen, können wir nach den gewünschten Spalten gruppieren und die Funktion size() verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>

Dieser Code generiert ein pandas.Series-Objekt mit den Gruppenschlüsseln als Index und der Häufigkeit gelten als Werte. Um ihn in einen Datenrahmen umzuwandeln, können wir die Funktion „reset_index()“ verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

In diesem Beispiel enthält der resultierende Datenrahmen Spalten für „Gruppe“, „Größe“ und „Zeit“. „Zeit“ stellt die Häufigkeitsanzahl dar.

Ein alternativer Ansatz besteht darin, das Argument as_index=False in groupby() zu verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

Dadurch wird direkt ein Datenrahmen generiert, ohne dass weitere Schritte erforderlich sind Indexmanipulation.

Durch die Verwendung dieser Techniken können Sie ganz einfach eine Häufigkeitszählung basierend auf mehreren Spalten in einem Datenrahmen erhalten und wertvolle Einblicke in die Verteilung von Daten gewinnen.

Das obige ist der detaillierte Inhalt vonWie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn