了解Pandas 中大小和計數之間的差異
在Pandas 中,groupby 操作為資料探索和聚合提供了強大的工具。常用的 groupby 操作包括計數和大小。了解它們的差異對於有效分析數據至關重要。
計數與大小
計數操作將組內非空值的數量計數。相反,大小運算對所有值進行計數,包括 NaN 值。當處理包含缺失值的資料集時,這種差異變得很明顯。
例如,考慮以下DataFrame:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
如果我們按列“a”分組並將計數應用於列“b” ':
print(df.groupby(['a'])['b'].count())
我們得到以下輸出:
a 0 2 1 1 2 2 Name: b, dtype: int64
這表示有組0 的兩個非空值,組1 的一個,組2 的兩個非空值。
另一方面,如果我們使用大小:
print(df.groupby(['a'])['b'].size())
我們得到:
a 0 2 1 1 2 3 dtype: int64
在這種情況下,結果包括第2 組中的NaN值,顯示size 佔了所有
因此,根據特定上下文和所需分析在數量和大小之間進行選擇變得至關重要。如果您希望從計數中排除空值,請使用 count。如果您需要考慮所有值,無論它們是否存在,請使用大小。
以上是Pandas GroupBy:什麼時候應該使用 `count()` 和 `size()`?的詳細內容。更多資訊請關注PHP中文網其他相關文章!