ホームページ  >  記事  >  バックエンド開発  >  Pandas の効率的なデータ重複排除方法を明らかに: 重複データをすばやく削除するためのヒント

Pandas の効率的なデータ重複排除方法を明らかに: 重複データをすばやく削除するためのヒント

王林
王林オリジナル
2024-01-24 08:12:061464ブラウズ

Pandas の効率的なデータ重複排除方法を明らかに: 重複データをすばやく削除するためのヒント

Pandas 重複排除メソッドの秘密: 高速かつ効率的なデータ重複排除メソッドには特定のコード例が必要です

データ分析と処理のプロセスで、私たちはよく遭遇します。データ内の重複。データが重複すると分析結果が誤解される可能性があるため、重複排除は非常に重要な手順です。強力なデータ処理ライブラリである Pandas では、データ重複排除を実現するためのさまざまな方法が提供されています。この記事では、一般的に使用されるいくつかの重複排除方法を紹介し、具体的なコード例を添付します。

  1. 単一列に基づく重複排除

最も一般的な状況は、特定の列の値が繰り返されるかどうかに基づいて重複排除を実行することです。 Pandas では、.duplicated() メソッドを使用して特定の列の値が重複しているかどうかを判断し、.drop_duplicates() メソッドを使用して重複を削除できます。価値観。

たとえば、学生情報を含むデータフレームがあり、その 1 つは学生の学生番号です。学生番号に基づいて重複する行を削除したいと考えています:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset='学号', inplace=True)
print(df)

実行結果:

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21

このようにして、重複する学生 ID を持つ行が削除され、初めて表示される行のみが保持されます。

  1. 複数の列に基づく重複排除

複数の列の値が繰り返されているかどうかに基づいて重複排除を行う必要がある場合があります。 .drop_duplicates() メソッドでは、subset パラメーターに基づいて重複を排除する列を指定できます。

たとえば、上記の学生情報のデータフレームを引き続き使用し、学生 ID と名前に基づいて重複する行を削除します:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset=['学号', '姓名'], inplace=True)
print(df)

実行結果:

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21

この例では、学生番号と名前に基づいて、番号と名前から重複行を同時に削除します。

  1. すべての列に基づく重複排除

DataFrame 全体のすべての列の値が繰り返されているかどうかに基づいて重複排除したい場合があります。 .duplicated() メソッドを使用して keep パラメーターを False に設定すると、重複するすべての行がマークされます。次に、.drop_duplicates() メソッドを使用して、これらの重複行を削除します。

たとえば、上記の学生情報のデータフレームを引き続き使用し、データフレーム全体のすべての列に基づいて重複行を削除します:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(keep=False, inplace=True)
print(df)

実行結果:

    学号  姓名  年龄
0  1001  张三  18
4  1004  赵六  21

これにより、データフレーム全体の重複する行がすべて削除されます。

概要:

この記事では、Pandas で一般的に使用される 3 つの重複排除方法 (単一列に基づく重複排除、複数列に基づく重複排除、およびすべての列に基づく重複排除) を紹介します。実際のニーズに応じて適切な方法を選択し、重複データを迅速かつ効率的に削除します。実際の応用では、これらの手法は特定のデータに応じて柔軟に使用でき、データ処理と分析の効率を向上させる必要があります。

上記はこの記事の全内容です。読者がこの記事から恩恵を受け、データ重複排除に Pandas をより適切に適用できるようになることを願っています。

以上がPandas の効率的なデータ重複排除方法を明らかに: 重複データをすばやく削除するためのヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。