ホームページ >バックエンド開発 >Python チュートリアル >パンダの特定の列にまたがる重複行を削除するにはどうすればよいですか?
pandas の Drop_duplicates 関数は、DataFrame から重複行を削除するための強力なツールですが、のサブセット全体で重複する行を削除したいcolumns?
次の DataFrame を考えてみましょう:
A | B | C |
---|---|---|
foo | 0 | A |
foo | 1 | A |
foo | 1 | B |
bar | 1 | A |
列 A と C に一致する行を削除するとします。この場合、次のようになります。行 0 と 1 を削除します。
これを実現するには、keep パラメータを False に設定して Drop_duplicates 関数を使用します。このパラメータは、重複行の処理方法を指定します。デフォルトでは、keep は first に設定されており、最初に出現した重複行が保持されることを意味します。 keep を False に設定すると、重複する行がすべて削除されます。
次のコードは、列 A と C に重複する値を持つ行を削除する方法を示しています。
import pandas as pd df = pd.DataFrame({"A": ["foo", "foo", "foo", "bar"], "B": [0, 1, 1, 1], "C": ["A", "A", "B", "A"]}) # Drop rows with duplicate values in columns 'A' and 'C' df = df.drop_duplicates(subset=['A', 'C'], keep=False) print(df)
出力:
A B C 2 foo 1 B 3 bar 1 A
ご覧のとおり、行 0 と 1 は列 A と C に関して重複しているため、削除されています。
以上がパンダの特定の列にまたがる重複行を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。