ホームページ >バックエンド開発 >Python チュートリアル >パンダの特定の列にまたがる重複行を削除するにはどうすればよいですか?

パンダの特定の列にまたがる重複行を削除するにはどうすればよいですか?

Patricia Arquette
Patricia Arquetteオリジナル
2024-12-14 06:03:14654ブラウズ

How to Drop Duplicate Rows Across Specific Columns in Pandas?

Python Pandas を使用して複数の列に重複する値を持つ行を削除する

pandas の Drop_duplicates 関数は、DataFrame から重複行を削除するための強力なツールですが、のサブセット全体で重複する行を削除したいcolumns?

次の DataFrame を考えてみましょう:

A B C
foo 0 A
foo 1 A
foo 1 B
bar 1 A

列 A と C に一致する行を削除するとします。この場合、次のようになります。行 0 と 1 を削除します。

keep での Drop_duplicates の使用パラメータ

これを実現するには、keep パラメータを False に設定して Drop_duplicates 関数を使用します。このパラメータは、重複行の処理方法を指定します。デフォルトでは、keep は first に設定されており、最初に出現した重複行が保持されることを意味します。 keep を False に設定すると、重複する行がすべて削除されます。

次のコードは、列 A と C に重複する値を持つ行を削除する方法を示しています。

import pandas as pd

df = pd.DataFrame({"A": ["foo", "foo", "foo", "bar"], "B": [0, 1, 1, 1], "C": ["A", "A", "B", "A"]})

# Drop rows with duplicate values in columns 'A' and 'C'
df = df.drop_duplicates(subset=['A', 'C'], keep=False)

print(df)

出力:

  A  B  C
2 foo  1  B
3 bar  1  A

ご覧のとおり、行 0 と 1 は列 A と C に関して重複しているため、削除されています。

以上がパンダの特定の列にまたがる重複行を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。