Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?

Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?

Susan Sarandon
Susan Sarandonasal
2024-10-26 03:35:02810semak imbas

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

Dapatkan Senarai Semua Item Pendua dalam Panda

Dalam panda, kaedah pendua boleh digunakan untuk mengenal pasti baris pendua dalam set data pada lajur yang ditentukan. Walau bagaimanapun, secara lalai, ia hanya mengembalikan kejadian pertama setiap pendua. Untuk mendapatkan senarai yang komprehensif, pertimbangkan pendekatan berikut:

Kaedah #1: Penapisan dengan Kaedah isin

Kaedah ini melibatkan dua langkah:

  1. Ekstrak ID unik daripada baris pendua menggunakan:

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
  2. Gunakan kaedah isin untuk menapis semua baris yang ID sepadan dengan mana-mana ID pendua:

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

Kaedah #2: Pengumpulan dengan kumpulan mengikut

Pendekatan ini menggunakan operasi kumpulan demi untuk mengumpulkan baris mengikut lajur ID dan menapis keluar kumpulan dengan lebih daripada satu baris:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

Dengan menggunakan kaedah ini, anda boleh mendapatkan semula senarai lengkap item pendua dalam DataFrame panda anda dengan cekap.

Atas ialah kandungan terperinci Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn