Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk Mengenalpasti dan Mendapatkan Item Pendua dalam Pandas DataFrame dalam Python?
Cara mendapatkan Senarai Semua Item Pendua Menggunakan Panda dalam Python
Apabila bekerja dengan set data, adalah perkara biasa untuk menghadapi entri pendua . Dalam kes ini, anda ingin mengenal pasti semua item pendua dalam set data anda menggunakan Panda.
Untuk mencapai ini, anda boleh menggunakan pendekatan berikut:
Kaedah 1 (Cetak Semua Baris dengan ID Pendua):
<code class="python">import pandas as pd # Read the CSV data into a DataFrame df = pd.read_csv("dup.csv") # Extract the "ID" column ids = df["ID"] # Create a new DataFrame with only the duplicate values duplicates = df[ids.isin(ids[ids.duplicated()])] # Sort the DataFrame by the "ID" column duplicates.sort_values("ID", inplace=True) # Print the duplicate values print(duplicates)</code>
Kaedah 2 (Kumpulan dan Gabungkan Kumpulan Pendua):
Kaedah ini menggabungkan kumpulan pendua, menghasilkan perwakilan ringkas daripada item pendua:
<code class="python"># Group the DataFrame by the "ID" column grouped = df.groupby("ID") # Filter the grouped DataFrame to include only groups with more than one row duplicates = [g for _, g in grouped if len(g) > 1] # Concatenate the duplicate groups into a new DataFrame duplicates = pd.concat(duplicates) # Print the duplicate values print(duplicates)</code>
Menggunakan sama ada Kaedah 1 atau Kaedah 2, anda boleh berjaya mendapatkan senarai semua item pendua dalam set data anda, membolehkan anda memeriksanya secara visual dan menyiasat percanggahan.
Atas ialah kandungan terperinci Bagaimana untuk Mengenalpasti dan Mendapatkan Item Pendua dalam Pandas DataFrame dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!