Heim >Backend-Entwicklung >Python-Tutorial >Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?
Erhalten einer Häufigkeitszählung basierend auf mehreren Datenrahmenspalten
In einem bestimmten Datenrahmen, in dem jede Zeile aus mehreren Spalten besteht, ist dies häufig erforderlich um zu bestimmen, wie häufig doppelte Zeilen auftreten. Diese Aufgabe kann mit der Pandas-Bibliothek von Python gelöst werden.
Lösung
Die Funktion pandas groupby() ermöglicht das Gruppieren von Zeilen basierend auf bestimmten Spalten. Um die Häufigkeit doppelter Zeilen zu zählen, können wir nach den gewünschten Spalten gruppieren und die Funktion size() verwenden:
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>
Dieser Code generiert ein pandas.Series-Objekt mit den Gruppenschlüsseln als Index und der Häufigkeit gelten als Werte. Um ihn in einen Datenrahmen umzuwandeln, können wir die Funktion „reset_index()“ verwenden:
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>
In diesem Beispiel enthält der resultierende Datenrahmen Spalten für „Gruppe“, „Größe“ und „Zeit“. „Zeit“ stellt die Häufigkeitsanzahl dar.
Ein alternativer Ansatz besteht darin, das Argument as_index=False in groupby() zu verwenden:
<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
Dadurch wird direkt ein Datenrahmen generiert, ohne dass weitere Schritte erforderlich sind Indexmanipulation.
Durch die Verwendung dieser Techniken können Sie ganz einfach eine Häufigkeitszählung basierend auf mehreren Spalten in einem Datenrahmen erhalten und wertvolle Einblicke in die Verteilung von Daten gewinnen.
Das obige ist der detaillierte Inhalt vonWie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!