Heim >Backend-Entwicklung >Python-Tutorial >Wie füge ich gruppierten Daten in Pandas effizient eine sequentielle Zählerspalte hinzu?
Sequentielle Zählerspalte zu Gruppen in Pandas DataFrame hinzufügen
Im Zusammenhang mit der Datenverarbeitung gibt es eine häufige Aufgabe, einen sequentiellen Zähler hinzuzufügen Spalte zu Gruppen innerhalb eines Pandas-Datenrahmens. Ein Ansatz besteht darin, eine Callback-Funktion zu verwenden, wie Sie es demonstriert haben:
def callback(x): x['seq'] = range(1, x.shape[0] + 1) return x
Diese Methode funktioniert zwar, kann aber umständlich sein und erfordert die Definition einer separaten Funktion. Eine prägnantere und elegantere Lösung ist die Verwendung der Methode cumcount():
df.groupby(['c1', 'c2']).cumcount()
Diese Methode berechnet die kumulative Anzahl für jede Gruppe und weist effektiv jeder Zeile innerhalb einer Gruppe eine fortlaufende Nummer zu. Betrachten Sie beispielsweise den folgenden Datenrahmen:
index | c1 | c2 | v1 |
---|---|---|---|
0 | A | X | 3 |
1 | A | X | 5 |
2 | A | Y | 7 |
3 | A | Y | 1 |
4 | B | X | 3 |
5 | B | X | 1 |
6 | B | X | 3 |
7 | B | Y | 1 |
8 | C | X | 7 |
9 | C | Y | 4 |
10 | C | Y | 1 |
11 | C | Y | 6 |
Die Anwendung von cumcount() auf diesen Datenrahmen, gruppiert nach c1 und c2, würde Folgendes ergeben:
index | c1 | c2 | v1 | seq |
---|---|---|---|---|
0 | A | X | 3 | 1 |
1 | A | X | 5 | 2 |
2 | A | Y | 7 | 1 |
3 | A | Y | 1 | 2 |
4 | B | X | 3 | 1 |
5 | B | X | 1 | 2 |
6 | B | X | 3 | 3 |
7 | B | Y | 1 | 1 |
8 | C | X | 7 | 1 |
9 | C | Y | 4 | 1 |
10 | C | Y | 1 | 2 |
11 | C | Y | 6 | 3 |
Die Reihenfolge wird stattdessen bei 1 begonnen von 0, fügen Sie einfach 1 zum cumcount()-Ergebnis hinzu:
df.groupby(['c1', 'c2']).cumcount() + 1
Das obige ist der detaillierte Inhalt vonWie füge ich gruppierten Daten in Pandas effizient eine sequentielle Zählerspalte hinzu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!