Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mengenalpasti dan Mendapatkan Item Pendua dalam Pandas DataFrame dalam Python?

Bagaimana untuk Mengenalpasti dan Mendapatkan Item Pendua dalam Pandas DataFrame dalam Python?

Patricia Arquette
Patricia Arquetteasal
2024-10-25 11:31:02827semak imbas

How to Identify and Retrieve Duplicate Items within a Pandas DataFrame in Python?

Cara mendapatkan Senarai Semua Item Pendua Menggunakan Panda dalam Python

Apabila bekerja dengan set data, adalah perkara biasa untuk menghadapi entri pendua . Dalam kes ini, anda ingin mengenal pasti semua item pendua dalam set data anda menggunakan Panda.

Untuk mencapai ini, anda boleh menggunakan pendekatan berikut:

Kaedah 1 (Cetak Semua Baris dengan ID Pendua):

<code class="python">import pandas as pd

# Read the CSV data into a DataFrame
df = pd.read_csv("dup.csv")

# Extract the "ID" column
ids = df["ID"]

# Create a new DataFrame with only the duplicate values
duplicates = df[ids.isin(ids[ids.duplicated()])]

# Sort the DataFrame by the "ID" column
duplicates.sort_values("ID", inplace=True)

# Print the duplicate values
print(duplicates)</code>

Kaedah 2 (Kumpulan dan Gabungkan Kumpulan Pendua):

Kaedah ini menggabungkan kumpulan pendua, menghasilkan perwakilan ringkas daripada item pendua:

<code class="python"># Group the DataFrame by the "ID" column
grouped = df.groupby("ID")

# Filter the grouped DataFrame to include only groups with more than one row
duplicates = [g for _, g in grouped if len(g) > 1]

# Concatenate the duplicate groups into a new DataFrame
duplicates = pd.concat(duplicates)

# Print the duplicate values
print(duplicates)</code>

Menggunakan sama ada Kaedah 1 atau Kaedah 2, anda boleh berjaya mendapatkan senarai semua item pendua dalam set data anda, membolehkan anda memeriksanya secara visual dan menyiasat percanggahan.

Atas ialah kandungan terperinci Bagaimana untuk Mengenalpasti dan Mendapatkan Item Pendua dalam Pandas DataFrame dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn