在Pandas DataFrame 中以群組平均值填滿缺失值
在資料操作任務中,常會遇到表示為NaN 的缺失值。為了解決這個問題,一種方法是用特定組內計算的平均值來填入這些缺失值。
考慮範例資料框:
name | value |
---|---|
A | 1 |
A | NaN |
B | NaN |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | NaN |
C | 3 |
我們的目標是取代 NaN具有對應群組平均值「值」的值。為了實現這一點,我們可以利用transform()方法:
mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean())) df["value"] = mean_values
執行後,資料幀被更新:
name | value |
---|---|
A | 1 |
A | 1 |
B | 2 |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | 3 |
C | 3 |
每個NaN值都被替換為其各自的組別平均值,保留資料的完整性以便進一步分析。
以上是如何使用組別平均值估算 Pandas DataFrame 中的缺失值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!