Heim >Backend-Entwicklung >Python-Tutorial >Wie unterscheiden sich „Anwenden' und „Transformieren', wenn zwei Spalten subtrahiert und der Mittelwert in einem Pandas DataFrame berechnet werden?
Subtrahieren Sie zwei Spalten und ermitteln Sie den Mittelwert mit „Anwenden vs. Transformieren“
Betrachten Sie den folgenden Datenrahmen:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],</p> <pre class="brush:php;toolbar:false"> 'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C': np.random.randn(8), 'D': np.random.randn(8)}) A B C D
0 foo eins 0,162003 0,087469
1 bar eins -1,156319 -1,526272
2 foo zwei 0,833892 -1,666304
3 bar drei -2,026673 -0,322057
4 foo zwei 0,411452 -0,954371
5 bar zwei 0,765878 -0,095968
6 foo eins -0,654890 0,678091
7 foo three -1,789842 -1,130922
Anwenden vs. Transformieren
Der folgende Befehl wendet auf jeden eine Lambda-Funktion an Gruppe in der Datenrahmen:
df.groupby('A').apply(lambda x: (x['C'] - x['D']))
Dies gibt einen Datenrahmen mit derselben Form wie der ursprüngliche Datenrahmen zurück, wobei jede Zelle das Ergebnis der auf die entsprechende Gruppe angewendeten Lambda-Funktion enthält.
Der folgende Befehl transformiert jede Gruppe im Datenrahmen:
df.groupby('A').transform(lambda x: (x['C'] - x['D']).mean())
Dies gibt eine Reihe mit derselben Form wie der ursprüngliche Datenrahmen zurück, wobei jede Zelle den Mittelwert der Differenz zwischen den Spalten C und D enthält für die entsprechende Gruppe.
Warum die verschiedenen Befehle funktionieren
Die Apply- und Transform-Methoden verhalten sich unterschiedlich, da sie auf unterschiedliche Eingabeobjekte angewendet werden.
Dieser Unterschied in der Eingabe bedeutet, dass „Anwenden“ zum Durchführen von Berechnungen für die gesamte Gruppe verwendet werden kann, während „Transformieren“ nur zum Durchführen von Berechnungen für einzelne Spalten verwendet werden kann.
Einen einzelnen Wert mit transform zurückgeben
Es ist wichtig zu beachten, dass die an transform übergebene Lambda-Funktion für jeden einen einzelnen Wert zurückgeben muss Gruppe. Wenn die Lambda-Funktion einen DataFrame, eine Serie oder einen anderen nichtskalaren Wert zurückgibt, wird ein Fehler ausgelöst.
Aus diesem Grund schlägt der folgende Befehl fehl:
df.groupby('A').transform(lambda x: (x['C'] - x['D']))
Der Lambda Funktion gibt einen DataFrame zurück, der kein einzelner Wert ist.
Schlussfolgerung
gelten und transform sind zwei leistungsstarke Methoden, mit denen Groupby-Operationen für Datenrahmen durchgeführt werden können. Es ist wichtig, den Unterschied zwischen diesen beiden Methoden zu verstehen, um sie effektiv nutzen zu können.
Das obige ist der detaillierte Inhalt vonWie unterscheiden sich „Anwenden' und „Transformieren', wenn zwei Spalten subtrahiert und der Mittelwert in einem Pandas DataFrame berechnet werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!