ホームページ  >  記事  >  バックエンド開発  >  複数の列に基づいて Pandas データフレーム内の重複行の頻度をカウントする方法は?

複数の列に基づいて Pandas データフレーム内の重複行の頻度をカウントする方法は?

Susan Sarandon
Susan Sarandonオリジナル
2024-10-25 03:17:02528ブラウズ

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

複数のデータフレーム列に基づいて頻度カウントを取得する

各行が複数の列で構成される特定のデータフレームでは、多くの場合、これが必要になります。重複行がどのくらいの頻度で現れるかを判断します。このタスクは、Python の pandas ライブラリを使用して実現できます。

解決策

pandas groupby() 関数を使用すると、特定の列に基づいて行をグループ化できます。重複行の頻度をカウントするには、目的の列でグループ化し、size() 関数を利用します。

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>

このコードは、グループ キーをインデックスとして使用し、頻度を指定した pandas.Series オブジェクトを生成します。値としてカウントします。データフレームに変換するには、reset_index() 関数を使用します。

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

この例では、結果のデータフレームには「Group」、「Size」、および「Time」の列が含まれます。 「時間」は頻度カウントを表します。

別のアプローチは、groupby():

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

で as_index=False 引数を使用することです。これにより、追加の処理を必要とせずにデータフレームが直接生成されます。

これらの手法を利用すると、データフレーム内の複数の列に基づいて頻度カウントを簡単に取得し、データの分布に関する貴重な洞察を得ることができます。

以上が複数の列に基づいて Pandas データフレーム内の重複行の頻度をカウントする方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。