ホームページ >バックエンド開発 >Python チュートリアル >Pandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?
Pandas ですべての重複アイテムのリストを取得する
Pandas では、duplicate メソッドを使用して、データセット内の重複行を識別できます。指定された列で。ただし、デフォルトでは、各重複の最初の出現のみが返されます。包括的なリストを取得するには、次のアプローチを検討してください。
方法 #1: isin メソッドによるフィルタリング
この方法には 2 つのステップが含まれます。
以下を使用して重複行から一意の ID を抽出します。
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
isin メソッドを使用して、ID が重複 ID のいずれかと一致するすべての行をフィルターします。
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法 2: groupby によるグループ化
このアプローチでは、groupby 操作を使用して ID 列ごとに行をグループ化し、フィルターで除外します。複数の行を持つグループ:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
これらのメソッドを使用すると、pandas DataFrame 内の重複アイテムの完全なリストを効率的に取得できます。
以上がPandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。