ホームページ >バックエンド開発 >Python チュートリアル >Pandas DataFrame 内のグループ内の用語の出現を効率的にカウントするにはどうすればよいですか?

Pandas DataFrame 内のグループ内の用語の出現を効率的にカウントするにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-12 17:11:14638ブラウズ

How to Efficiently Count Term Occurrences within Groups in a Pandas DataFrame?

Pandas データフレーム内の用語数によるグループ化

問題:

次のデータフレームが与えられたとします。次の列: id、group、および term。目標は、ID とグループの一意の組み合わせごとに各用語の出現数を判断することです。

解決策:

ループの使用を避けるには、groupby とPandas のサイズ関数:

groupby 関数は、指定された列 (id、group、および一方、size 関数は各組み合わせの出現をカウントします。 unstack 関数は、カウントが行列状に配置された、より視覚的に魅力的なテーブルを生成します。

結果は、最初の 2 つのレベルが ID とグループの組み合わせを表し、3 番目のレベルが複数のインデックス列を含むテーブルになります。という用語に相当します。テーブルの各セルには、対応する ID とグループに対して特定の用語が出現する回数が表示されます。

タイミング:

大規模なデータセットの場合 (例: 1,000,000 行) 、パフォーマンスは優れています:

前述のアプローチを使用すると、経過時間は約1秒です。

以上がPandas DataFrame 内のグループ内の用語の出現を効率的にカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。