ホームページ  >  記事  >  バックエンド開発  >  Pandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?

Pandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?

Susan Sarandon
Susan Sarandonオリジナル
2024-10-26 03:35:02724ブラウズ

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

Pandas ですべての重複アイテムのリストを取得する

Pandas では、duplicate メソッドを使用して、データセット内の重複行を識別できます。指定された列で。ただし、デフォルトでは、各重複の最初の出現のみが返されます。包括的なリストを取得するには、次のアプローチを検討してください。

方法 #1: isin メソッドによるフィルタリング

この方法には 2 つのステップが含まれます。

  1. 以下を使用して重複行から一意の ID を抽出します。

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
  2. isin メソッドを使用して、ID が重複 ID のいずれかと一致するすべての行をフィルターします。

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

方法 2: groupby によるグループ化

このアプローチでは、groupby 操作を使用して ID 列ごとに行をグループ化し、フィルターで除外します。複数の行を持つグループ:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

これらのメソッドを使用すると、pandas DataFrame 内の重複アイテムの完全なリストを効率的に取得できます。

以上がPandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。