找出DataFrame欄位中的值頻率
在資料分析中,經常需要統計特定資料列中值的出現頻率資料框的。為了實現這一點,pandas 提供了多種函數。
一個常見的方法是使用 value_counts() 方法。例如,給定DataFrame:
category | |
---|---|
cat | a |
cat | b |
cat | a |
使用value_counts() 傳回唯一值及其頻率:
df = pd.DataFrame({'category': ['cat a', 'cat b', 'cat a']}) df['category'].value_counts()
輸出:
category | freq |
---|---|
cat a | 2 |
cat b | 1 |
另一種方法就是使用groupby()和count()函數。此方法按感興趣的列對DataFrame 進行分組,併計算組內每個值的出現次數:
df.groupby('category').count()
輸出:
category | count |
---|---|
cat a | 2 |
cat b | 1 |
最後,將頻率加回原始DataFrame,可以使用Transform()函數建立一個包含頻率的新欄位:
df['freq'] = df.groupby('category')['category'].transform('count')
這會產生以下結果DataFrame:
category | freq | |
---|---|---|
cat | a | 2 |
cat | b | 1 |
cat | a | 2 |
利用這些方法,資料分析師可以有效分析DataFrame 欄位中位數的頻率,為決策提供有價值的見解。
以上是如何有效計算 Pandas DataFrame 列中的值頻率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!