ホームページ >バックエンド開発 >Python チュートリアル >Pandas GroupBy: `count()` と `size()` をいつ使用する必要がありますか?

Pandas GroupBy: `count()` と `size()` をいつ使用する必要がありますか?

Patricia Arquette
Patricia Arquetteオリジナル
2024-12-02 02:35:11578ブラウズ

Pandas GroupBy: When Should I Use `count()` vs. `size()`?

Pandas のサイズとカウントの違いを理解する

Pandas では、groupby 操作はデータ探索と集計のための強力なツールを提供します。一般的に使用される groupby 演算には、count と size があります。データを効果的に分析するには、これらの区別を理解することが重要です。

カウントとサイズ

カウント操作は、グループ内の非 null 値の数をカウントします。対照的に、size 操作は NaN 値を含むすべての値をカウントします。この違いは、欠損値を含むデータセットを操作するときに明らかになります。

たとえば、次の DataFrame を考えてみましょう:

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})

列 'a' でグループ化し、列 'b に count を適用するとします。 ':

print(df.groupby(['a'])['b'].count())

次の出力が得られます:

a
0    2
1    1
2    2
Name: b, dtype: int64

これは次のことを示していますグループ 0 には null 以外の値が 2 つ、グループ 1 には 1 つ、グループ 2 には 2 つあることがわかります。

一方、size を使用すると、

print(df.groupby(['a'])['b'].size())

が得られます。 :

a
0    2
1    1
2    3
dtype: int64

この場合、結果にはグループ 2 の NaN 値が含まれており、サイズがすべての値を占めることを示しています。

したがって、特定のコンテキストと必要な分析に基づいて、カウントとサイズのどちらかを選択することが重要になります。カウントから null 値を除外したい場合は、count を使用します。値の有無に関係なく、すべての値を考慮する必要がある場合は、size を使用します。

以上がPandas GroupBy: `count()` と `size()` をいつ使用する必要がありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。