ホームページ >バックエンド開発 >Python チュートリアル >Pandas データフレーム内の ID グループの組み合わせ内の用語の出現を効率的にカウントするにはどうすればよいですか?
「id」列と「group」列でデータフレームをグループ化し、それぞれのカウントを計算する必要があります。 「id」値と「group」値の一意のペアごとに、「term」列の一意の値。つまり、各 ID グループの組み合わせで各用語がどのくらいの頻度で出現するかを決定する必要があります。
これは、pandas の groupby 関数と size 関数を使用して実現できます。
df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)
これは次のようになります。 ID とグループをインデックスとして、用語を列として持つテーブル。
この方法は非常に効率的です。大規模なデータセットであっても。 1,000,000 行のデータフレームの場合、上記のコードの実行には約 6 秒しかかかりません。
以上がPandas データフレーム内の ID グループの組み合わせ内の用語の出現を効率的にカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。