データを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

データを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介

王林

Jan 24, 2024 am 08:02 AM

pandasデータクリーニング重複排除方法

データを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介

Pandas 重複排除手法の紹介: これらの手法を使用してデータをクリーンにする方法を学びます。具体的なコード例が必要です。

概要:

データ分析と処理では、重複データを処理する必要がある状況によく遭遇します。重複データの存在は分析結果に偏りをもたらす可能性があるため、重複排除は非常に重要かつ基本的なデータ処理操作です。 Pandas ではさまざまな重複排除メソッドが提供されており、この記事では一般的に使用される手法を簡単に紹介し、いくつかの具体的なコード例を示します。

方法 1:drop_duplicates()

Pandas の Drop_duplicates() メソッドは、最も一般的に使用される重複排除メソッドの 1 つです。指定された列に基づいてデータから重複行を削除できます。デフォルトでは、このメソッドは最初に出現した重複値を保持し、それ以降に出現した重複値を削除します。コード例を次に示します。

import pandas as pd

重複データを含む DataFrame を作成します

data = {'A': [1, 2, 3, 4 , 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

df = pd.DataFrame(data)

drop_duplicates() メソッドを使用して重複行を削除します

df.drop_duplicates(inplace= True )

print(df)

上記のコードを実行すると、重複行が削除された DataFrame が取得されます。

方法 2:duplicated() と ~ 演算子

drop_duplicates() メソッドに加えて、duplicated() メソッドを使用して各行が重複行であるかどうかを判断し、 ~ 演算子で反転します。重複しない行を選択します。コード例を次に示します。

import pandas as pd

重複データを含む DataFrame を作成します

data = {'A': [1, 2, 3, 4 , 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

df = pd.DataFrame(data)

重複行を削除するには、duplicated() と ~ 演算子を使用します

df = df[ ~df.duplicated()]

print(df)

上記のコードを実行すると、前の方法と同じ結果が得られます。

メソッド 3: サブセットパラメーター

drop_duplicates() メソッドには、重複行を決定するために 1 つ以上の列を指定できるサブセットパラメーターも用意されています。コード例を次に示します。

import pandas as pd

重複データを含む DataFrame を作成します

data = {'A': [1, 2, 3, 4 , 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

df = pd.DataFrame(data)

サブセットパラメーターを使用して、特定の列の重複行を削除します

df.drop_duplicates( subset= ['A', 'B'], inplace=True)

print(df)

上記のコードを実行すると、列に基づいて重複行を削除した結果が得られます。 A' と 'B' 。

方法 4: パラメータを保持する

drop_duplicates() メソッドの保持パラメータを「last」に設定すると、重複値の最後の値が保持されます。コード例を次に示します。

import pandas as pd

重複データを含む DataFrame を作成します

data = {'A': [1, 2, 3, 4 , 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}

df = pd.DataFrame(data)

keep パラメータを使用して最後の重複値を保持します

df.drop_duplicates(keep = 'last', inplace=True)

print(df)

上記のコードを実行すると、最後の重複値が保持された結果が得られます。

方法 5: 主キーを使用して重複を削除する

複数の列を含む DataFrame を処理する場合、set_index() メソッドを使用して 1 つ以上の列を主キーとして設定し、drop_duplicates を使用できます。 ()メソッドで重複を削除すればOKです。コード例を次に示します。

import pandas as pd

重複データを含む DataFrame を作成します

data = {'A': [1, 2, 3, 4 , 4, 5, 6],

    'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
    'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}

df = pd.DataFrame(data)

set_index() メソッドを使用して、「A」列と「B」列を主キーとして設定します。次に、drop_duplicates( ) メソッドを使用して重複行を削除します。

df.set_index(['A', 'B'], inplace=True)

df = df[~df.index.duplicated() ]

print(df)

上記のコードを実行すると、列 'A' と 'B' に基づいて重複行を削除した結果が得られます。

概要:

この記事では、drop_duplicates() メソッド、duplicate() と ~ 演算子、サブセットパラメーター、keep パラメーター、主キー重複排除の使用など、Pandas で一般的に使用されるいくつかの重複排除メソッドを簡単に紹介します。方法。これらのテクニックを学び、柔軟に適用することで、繰り返されるデータをより便利に処理し、データをクリーンにし、その後のデータ分析と処理のための信頼できる基盤を提供することができます。この記事が Pandas を学習する過程で役立つことを願っています。 ###

以上がデータを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。