ホームページ >バックエンド開発 >Python チュートリアル >Python で Pandas DataFrame 内の重複アイテムを特定して取得する方法

Python で Pandas DataFrame 内の重複アイテムを特定して取得する方法

Patricia Arquette
Patricia Arquetteオリジナル
2024-10-25 11:31:02963ブラウズ

How to Identify and Retrieve Duplicate Items within a Pandas DataFrame in Python?

Python で Pandas を使用してすべての重複アイテムのリストを取得する方法

データセットを操作する場合、重複エントリが発生することがよくあります。この場合、Pandas を使用してデータセット内のすべての重複アイテムを識別したいとします。

これを実現するには、次のアプローチを利用できます。

方法 1 (すべての行を印刷する)重複 ID):

<code class="python">import pandas as pd

# Read the CSV data into a DataFrame
df = pd.read_csv("dup.csv")

# Extract the "ID" column
ids = df["ID"]

# Create a new DataFrame with only the duplicate values
duplicates = df[ids.isin(ids[ids.duplicated()])]

# Sort the DataFrame by the "ID" column
duplicates.sort_values("ID", inplace=True)

# Print the duplicate values
print(duplicates)</code>

メソッド 2 (Groupby と重複グループの連結):

このメソッドは重複グループを結合し、簡潔な表現を生成します。重複アイテムのリスト:

<code class="python"># Group the DataFrame by the "ID" column
grouped = df.groupby("ID")

# Filter the grouped DataFrame to include only groups with more than one row
duplicates = [g for _, g in grouped if len(g) > 1]

# Concatenate the duplicate groups into a new DataFrame
duplicates = pd.concat(duplicates)

# Print the duplicate values
print(duplicates)</code>

方法 1 または方法 2 のいずれかを使用すると、データセット内のすべての重複アイテムのリストを正常に取得でき、それらを視覚的に検査して不一致を調査できるようになります。

以上がPython で Pandas DataFrame 内の重複アイテムを特定して取得する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。