首頁  >  文章  >  後端開發  >  如何取得 Pandas DataFrame 中重複項的完整清單?

如何取得 Pandas DataFrame 中重複項的完整清單?

Susan Sarandon
Susan Sarandon原創
2024-10-26 03:35:02724瀏覽

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

取得Pandas 中所有重複項目的清單

在pandas 中,duplicated 方法可用於基於資料集識別重複行在指定的列上。但是,預設情況下,它僅傳回每個重複項的第一次出現。要獲得完整的列表,請考慮以下方法:

方法#1:使用isin 方法進行過濾

此方法涉及兩個步驟:

  1. 使用以下方法從重複行中提取唯一ID:

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
  2. 利用isin 方法過濾ID 與任何重複ID 匹配的所有行:

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

方法#2:使用groupby 進行分組

此方法使用groupby 操作按ID 列對行進行分組並過濾掉包含多行的分組:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

透過使用這些方法,您可以有效地檢索pandas DataFrame 中重複項的完整清單。

以上是如何取得 Pandas DataFrame 中重複項的完整清單?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn