區分Pandas 的「大小」和「計數」以進行分組運算
使用pandas 的groupby() 函數時,了解以下內容至關重要: “尺寸”和“數量”之間的區別。這些函數在應用於群組計數時看似會產生類似的結果,但有一個細微的差異可能會影響您的資料分析。
「count」函數專門計算群組中非空值的數量。這意味著如果組中存在任何缺失值(NaN 或 None),它們將被排除在計數之外。此行為可確保您在計算群組計數時僅考慮有效觀測值。
另一方面,「size」函數計算組中觀測值的總數,包括那些缺失值的觀測值。這意味著有效和無效的觀察值都會被計算在內,讓您更全面地了解該組的大小。
為了說明這種差異,請考慮以下範例:
df = pd.DataFrame({'a': [0, 0, 1, 2, 2, 2], 'b': [1, 2, 3, 4, np.NaN, 4], 'c': np.random.randn(6)}) print(df.groupby(['a'])['b'].count()) print(df.groupby(['a'])['b'].size())
輸出將為:
a 0 2 1 1 2 2 Name: b, dtype: int64 a 0 2 1 1 2 3 dtype: int64
如您所見,「count」函數排除了“a=2”組中的NaN 值,而“尺寸”功能包括它。當您的資料集包含缺失資料並且您需要對其進行適當處理以進行分析時,這種區別至關重要。
以上是Pandas GroupBy:什麼時候該使用「size」和「count」?的詳細內容。更多資訊請關注PHP中文網其他相關文章!