在groupby 操作中將多個函數應用於多個欄位是資料分析中的常見任務。 Pandas 提供了多種方法來執行此任務,包括使用函數字典或套用傳回多個系列的自訂函數。
對於Series groupby 對象,您可以應用使用以輸出列名作為鍵的字典的多個函數:
group = pd.groupby("column")
group['column'].agg({'func1': np.mean, 'func2': np.std})
但是,此方法不能在DataFrame 上使用groupby 物件。
apply 方法可讓您套用對群組資料執行多項計算的自訂函數。函數應傳回包含結果的系列,使用索引來標記新列。
def func(group_data): return pd.Series({ 'func1': group_data['column1'].mean(), 'func2': group_data['column2'].std(), }) group.apply(func)
您也可以定義一個自訂聚合函數,該函數利用傳遞給apply 方法的DataFrame 的:
def agg_func(group_data): return group_data.agg({'column1': np.mean, 'column2': np.std}) group.agg(agg_func)
對於函數依賴groupby 物件中的其他列,您可以使用ix方法來存取這些列。但是,請注意,此方法已棄用,應替換為loc:
def func(group_data): return group_data.mean().ix['column1']
根據複雜程度,可以使用多種方法來實現對pandas groupby 物件執行複雜聚合以及所應用功能的依賴性。透過利用 apply 方法或建立自訂聚合函數,您可以有效率地執行這些操作並將結果合併到單一 DataFrame 中。
以上是如何將多個函數應用於 Pandas 中的多個 Groupby 欄位?的詳細內容。更多資訊請關注PHP中文網其他相關文章!