Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?
Dapatkan Senarai Semua Item Pendua dalam Panda
Dalam panda, kaedah pendua boleh digunakan untuk mengenal pasti baris pendua dalam set data pada lajur yang ditentukan. Walau bagaimanapun, secara lalai, ia hanya mengembalikan kejadian pertama setiap pendua. Untuk mendapatkan senarai yang komprehensif, pertimbangkan pendekatan berikut:
Kaedah #1: Penapisan dengan Kaedah isin
Kaedah ini melibatkan dua langkah:
Ekstrak ID unik daripada baris pendua menggunakan:
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
Gunakan kaedah isin untuk menapis semua baris yang ID sepadan dengan mana-mana ID pendua:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Kaedah #2: Pengumpulan dengan kumpulan mengikut
Pendekatan ini menggunakan operasi kumpulan demi untuk mengumpulkan baris mengikut lajur ID dan menapis keluar kumpulan dengan lebih daripada satu baris:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Dengan menggunakan kaedah ini, anda boleh mendapatkan semula senarai lengkap item pendua dalam DataFrame panda anda dengan cekap.
Atas ialah kandungan terperinci Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!