在 Pandas 中,您可以執行多層分組和聚合來計算複雜的統計資料。一項常見任務是計算由多個其他列定義的組內的一列的平均值。
考慮以下DataFrame:
cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6
計算每個叢集中每個組織的平均時間,您可以按叢集和組織將DataFrame 進行分組:
df.groupby(['cluster', 'org'], as_index=False).mean()
這將產生按群集和組織分組的DataFrame,併計算每組的平均時間:
cluster org time 0 1 a 12.333333 1 1 c 23.0 2 2 h 34.0 3 2 d 74.0 4 3 w 6.0
如果您只需要每個集群內的平均時間,則可以僅按集群分組:
df.groupby('cluster').mean()
這將產生一個DataFrame,其中計算每個集群的平均時間:
cluster time 0 1 12.333333 1 2 54.0 2 3 6.0
或者,您可以對多列組合['cluster', 'org'] 使用groupby方法,然後計算時間平均值:
df.groupby(['cluster', 'org']).mean()['time']
這將產生一個包含以下內容的 Series為群集和組織的每個組合計算的平均時間。
以上是如何計算熊貓多組內的平均值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!