首頁  >  文章  >  後端開發  >  如何基於多列統計 Pandas DataFrame 中重複行的頻率?

如何基於多列統計 Pandas DataFrame 中重複行的頻率?

Susan Sarandon
Susan Sarandon原創
2024-10-25 03:17:02528瀏覽

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

根據多個資料幀列取得頻率計數

在給定的資料幀中,每行由多列組成,通常有必要確定重複行出現的頻率。這個任務可以使用 Python 的 pandas 函式庫來完成。

解決方案

pandas groupby() 函數允許根據特定列對行進行分組。要計算重複行的頻率,我們可以按所需的列進行分組並利用size() 函數:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>

此程式碼將產生一個pandas.Series 對象,其中組鍵作為索引和頻率算作值。要將其轉換為資料幀,我們可以使用reset_index() 函數:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

在此範例中,產生的資料幀將包含「Group」、「Size」和「Time」列,其中“Time”代表頻率計數。

另一種方法是在 groupby() 中使用 as_index=False 參數:

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

這將直接產生資料幀,而不需要進一步索引操作。

透過利用這些技術,您可以輕鬆獲得基於資料幀中多個列的頻率計數,並獲得有關資料分佈的寶貴見解。

以上是如何基於多列統計 Pandas DataFrame 中重複行的頻率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn