ホームページ >バックエンド開発 >Python チュートリアル >GroupBy を使用してパンダでグループごとの統計を計算する方法

GroupBy を使用してパンダでグループごとの統計を計算する方法

Patricia Arquette
Patricia Arquetteオリジナル
2024-12-19 21:26:11989ブラウズ

How to Calculate Group-Wise Statistics in Pandas Using GroupBy?

Pandas GroupBy を使用してデータフレームのグループごとの統計を取得する方法

データを操作するとき、特定のデータに基づいてデータを要約して分析できると便利なことがよくあります。グループ化基準。データ操作と分析のための強力な Python ライブラリである Pandas は、GroupBy 機能を通じてこれを行うための便利な方法を提供します。

クイックアンサー

各グループ内の行数を取得するには、.size を利用します。 () メソッド。シリーズを返します。

df.groupby(['col1','col2']).size()

これを DataFrame フォームに変換するには、次のようにします。採用:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

または、各グループの行数とその他の統計を計算するには、次のアプローチを使用できます。

df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})

詳細な例

としましょう。列col1からcol4を持つdfという名前のデータフレームがあります。説明のために、グループごとの行数を計算してみましょう。

df.groupby(['col1', 'col2']).size()

出力には、col1 値とcol2 値の一意の組み合わせごとに行数が表示されます。

これらの数を列を DataFrame に追加するには、.reset_index(name='counts') メソッドを利用できます。

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

追加の統計の結果

グループ化されたデータに対して複数の統計を計算したい場合は、agg() メソッドを使用できます。たとえば、col3 の平均と数、col4 の中央値、最小値、および数を計算するには、次を使用します。

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})

これにより、col1 の一意の組み合わせごとに、要求された統計情報を含むデータフレームが返されます。

結論

Pandas GroupBy は、特定の基準に基づいてデータを分析するための強力なツールです。適切な方法と集計を利用することで、グループごとの統計を効率的に取得して洞察を得て、データをより徹底的に理解できます。

以上がGroupBy を使用してパンダでグループごとの統計を計算する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。