ホームページ >バックエンド開発 >Python チュートリアル >Python で Pandas DataFrame 内の重複アイテムを特定して取得する方法
Python で Pandas を使用してすべての重複アイテムのリストを取得する方法
データセットを操作する場合、重複エントリが発生することがよくあります。この場合、Pandas を使用してデータセット内のすべての重複アイテムを識別したいとします。
これを実現するには、次のアプローチを利用できます。
方法 1 (すべての行を印刷する)重複 ID):
<code class="python">import pandas as pd # Read the CSV data into a DataFrame df = pd.read_csv("dup.csv") # Extract the "ID" column ids = df["ID"] # Create a new DataFrame with only the duplicate values duplicates = df[ids.isin(ids[ids.duplicated()])] # Sort the DataFrame by the "ID" column duplicates.sort_values("ID", inplace=True) # Print the duplicate values print(duplicates)</code>
メソッド 2 (Groupby と重複グループの連結):
このメソッドは重複グループを結合し、簡潔な表現を生成します。重複アイテムのリスト:
<code class="python"># Group the DataFrame by the "ID" column grouped = df.groupby("ID") # Filter the grouped DataFrame to include only groups with more than one row duplicates = [g for _, g in grouped if len(g) > 1] # Concatenate the duplicate groups into a new DataFrame duplicates = pd.concat(duplicates) # Print the duplicate values print(duplicates)</code>
方法 1 または方法 2 のいずれかを使用すると、データセット内のすべての重複アイテムのリストを正常に取得でき、それらを視覚的に検査して不一致を調査できるようになります。
以上がPython で Pandas DataFrame 内の重複アイテムを特定して取得する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。