首頁 >後端開發 >Python教學 >如何辨識 Pandas DataFrame 中的所有重複行?

如何辨識 Pandas DataFrame 中的所有重複行?

Barbara Streisand
Barbara Streisand原創
2024-10-25 15:15:021081瀏覽

How to Identify All Duplicate Rows in a Pandas DataFrame?

如何在 Python 中使用 Pandas 取得所有重複項的清單?

問題:

您的 Pandas DataFrame 包含重複行,但使用 duplicated() 方法只傳回第一個重複實例。您需要所有出現的重複行的完整清單以進行手動比較。

解 1:隔離具有重複 ID 的行

  1. 將 Pandas 匯入為 pd。
  2. 將資料讀入 DataFrame df。
  3. 將 ID 欄位擷取到單獨的 Series id 中。
  4. 根據ID 值是否與中的任何重複ID 匹配來過濾df ids[ids.duplicated()]:

雖然此方法有效檢索所有重複行,但它會在輸出中建立重複的ID 行。

解決方案 2 :按 ID 分組並過濾重複項

  1. 在 df 上使用 groupby("ID") 將行分組依 ID 值分組。
  2. 過濾結果組以僅保留具有多行的:

這種方法會產生精簡的輸出,沒有多餘的 ID 行。

以上是如何辨識 Pandas DataFrame 中的所有重複行?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn