ホームページ >バックエンド開発 >Python チュートリアル >Pandas データフレーム内の ID グループの組み合わせ内の用語の出現を効率的にカウントするにはどうすればよいですか?

Pandas データフレーム内の ID グループの組み合わせ内の用語の出現を効率的にカウントするにはどうすればよいですか?

How to Efficiently Count Term Occurrences within ID-Group Combinations in a Pandas DataFrame?

パンダデータフレームで groupby 値のカウントを実行するにはどうすればよいですか?

「id」列と「group」列でデータフレームをグループ化し、それぞれのカウントを計算する必要があります。「id」値と「group」値の一意のペアごとに、「term」列の一意の値。つまり、各 ID グループの組み合わせで各用語がどのくらいの頻度で出現するかを決定する必要があります。

これは、pandas の groupby 関数と size 関数を使用して実現できます。

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

これは次のようになります。 ID とグループをインデックスとして、用語を列として持つテーブル。

この方法は非常に効率的です。大規模なデータセットであっても。 1,000,000 行のデータフレームの場合、上記のコードの実行には約 6 秒しかかかりません。

以上がPandas データフレーム内の ID グループの組み合わせ内の用語の出現を効率的にカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る