ホームページ >バックエンド開発 >Python チュートリアル >複数の列に基づいて Pandas データフレーム内の重複行の頻度をカウントする方法は?
複数のデータフレーム列に基づいて頻度カウントを取得する
各行が複数の列で構成される特定のデータフレームでは、多くの場合、これが必要になります。重複行がどのくらいの頻度で現れるかを判断します。このタスクは、Python の pandas ライブラリを使用して実現できます。
解決策
pandas groupby() 関数を使用すると、特定の列に基づいて行をグループ化できます。重複行の頻度をカウントするには、目的の列でグループ化し、size() 関数を利用します。
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>
このコードは、グループ キーをインデックスとして使用し、頻度を指定した pandas.Series オブジェクトを生成します。値としてカウントします。データフレームに変換するには、reset_index() 関数を使用します。
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>
この例では、結果のデータフレームには「Group」、「Size」、および「Time」の列が含まれます。 「時間」は頻度カウントを表します。
別のアプローチは、groupby():
<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
で as_index=False 引数を使用することです。これにより、追加の処理を必要とせずにデータフレームが直接生成されます。
これらの手法を利用すると、データフレーム内の複数の列に基づいて頻度カウントを簡単に取得し、データの分布に関する貴重な洞察を得ることができます。
以上が複数の列に基づいて Pandas データフレーム内の重複行の頻度をカウントする方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。