ホームページ >バックエンド開発 >Python チュートリアル >Pandas GroupBy: `size` と `count` をいつ使用する必要がありますか?
グループ化操作における Pandas の「サイズ」と「カウント」の区別
パンダの groupby() 関数を使用する場合、 「サイズ」と「個数」の区別。これらの関数は、グループ数に適用すると同様の結果を生成するように見えますが、データ分析に影響を与える可能性のある微妙な違いがあります。
「count」関数は、特にグループ内の null 以外の値の数をカウントします。これは、グループ内に欠損値 (NaN または None) がある場合、それらはカウントから除外されることを意味します。この動作により、グループ数を計算するときに有効な観測値のみを考慮することが保証されます。
一方、「size」関数は、欠損値を含むグループ内の観測値の合計数をカウントします。これは、有効な観測値と無効な観測値の両方がカウントされることを意味し、グループのサイズをより広範に把握できます。
この違いを説明するために、次の例を考えてみましょう。
df = pd.DataFrame({'a': [0, 0, 1, 2, 2, 2], 'b': [1, 2, 3, 4, np.NaN, 4], 'c': np.random.randn(6)}) print(df.groupby(['a'])['b'].count()) print(df.groupby(['a'])['b'].size())
出力は次のようになります。 :
a 0 2 1 1 2 2 Name: b, dtype: int64 a 0 2 1 1 2 3 dtype: int64
ご覧のとおり、「count」関数はグループ「a=2」内の NaN 値を除外しますが、 「size」関数にはそれが含まれています。データセットに欠損データが含まれており、分析のためにそれを適切に処理する必要がある場合、この区別は非常に重要です。
以上がPandas GroupBy: `size` と `count` をいつ使用する必要がありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。