Pandas を使用してデータ内の重複値を処理する方法: 重複排除方法の包括的な分析-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pandas を使用してデータ内の重複値を処理する方法: 重複排除方法の包括的な分析

PHPz

Jan 24, 2024 am 10:49 AM

情報処理pandas重複を削除する

Pandas を使用してデータ内の重複値を処理する方法: 重複排除方法の包括的な分析

Pandas 重複排除手法の包括的な分析: データ内の重複値を簡単に処理します。具体的なコード例が必要です。

はじめに:
データ分析のプロセスにおいてデータに重複した値が含まれる状況がよく発生します。これらの重複した値は、分析結果に誤解を与えたり、データの精度に影響を与えたりする可能性があります。したがって、重複排除はデータ処理の重要な部分です。 Python で広く使用されているデータ処理ライブラリとして、Pandas はさまざまな重複排除メソッドを提供し、データ内の重複値を簡単に処理できます。この記事では、Pandas で一般的に使用される重複排除手法を分析し、読者がこれらの手法をよりよく理解して適用できるように、具体的なコード例を示します。

1.drop_duplicates メソッド
drop_duplicates メソッドは、Pandas で最も一般的に使用される重複排除メソッドの 1 つです。指定された列または行に基づいてデータから重複した値を削除します。具体的な使用法は次のとおりです。

df.drop_duplicates(subset=None, keep='first', inplace=False)

このうち、df は重複排除の対象となるデータセットを表し、subset は指定された列または行で、デフォルトは None で、すべての列が重複排除されることを意味します。 keep パラメータは、どの繰り返し値を保持するかを示します。デフォルトは、最初に出現した値を保持することを意味する 'first' です。最後に出現した値を保持することを意味する 'last' を選択することもできます。 inplace パラメータは、元のデータセットを変更するかどうかを示します。デフォルト値は False で、重複排除された新しいデータセットを返すことを意味します。

具体的な例:
重複する値を含むデータセット df があるとします:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

print(df)

実行結果は次のとおりです:

drop_duplicates メソッドを使用できます。重複する値を削除するには:

df_drop_duplicates = df.drop_duplicates()

print(df_drop_duplicates)

実行結果は次のとおりです:

結果から、drop_duplicates メソッドがデータセット内の重複した値を正常に削除したことがわかります。

2. 重複メソッド
重複メソッドは、Pandas でよく使用されるもう 1 つの重複排除メソッドです。 drop_duplicates メソッドとは異なり、duplicated メソッドはブール系列を返し、各行または列の要素が重複しているかどうかを判断します。具体的な使い方は以下の通りです。

df.duplicated(subset=None, keep='first')

このうち、 df は複製するデータセット、subset は指定した列または行、デフォルトは None で、すべての列が判定されることを意味します。 keep パラメータの意味は、drop_duplicates メソッドの意味と同じです。

具体的な例:
上記のデータセット df を引き続き使用すると仮定すると、duplicated メソッドを使用して各行が繰り返されるかどうかを判断できます:

df_duplicated = df.duplicated()

print(df_duplicated)

実行結果は次のとおりです。

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

この結果から、返された Series の行 0、1、および 2 は False であり、これらの行が繰り返されていないことを示し、行 3、4、および 5 は True であり、これらの行が繰り返されていないことを示していることがわかります。行が重複しています。

3.drop_duplicates と重複メソッドのアプリケーションシナリオ
drop_duplicates と重複メソッドは、データクリーニングとデータ分析で広く使用されています。一般的なアプリケーションシナリオは次のとおりです:

データ重複排除 :データの正確性を確保するために、指定された列または行に基づいてデータ内の重複する値を削除します。
データ分析: 重複排除により、重複したサンプルまたは観察を削除して、データ分析結果の正確性を確保できます。

具体的な例:
複数の都市の販売記録を含む販売データセット df があるとします。各都市の総売上高をカウントし、重複する都市を削除したいと考えています。これを実現するには、次のコードを使用します。

import pandas as pd

df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)

実行結果は次のとおりです。

        City  Sales
0    Beijing   1000
1   Shanghai   2000
2  Guangzhou   3000
       Sales
City        
Beijing  2200
Guangzhou  3000
Shanghai  3500

結果からわかるように、最初に、drop_duplicates メソッドを使用して重複する都市を削除しました。次に、groupby メソッドと sum メソッドを使用して、都市ごとの総売上高を計算しました。

結論:
この記事の分析を通じて、Pandas で一般的に使用される重複排除メソッド Drop_duplicates と Duplicated の使用法と適用シナリオを理解しました。これらの方法は、データ内の重複値を簡単に処理し、データ分析と処理の精度を確保するのに役立ちます。実際のアプリケーションでは、特定の問題に応じて適切な方法を選択し、それらを他の Pandas メソッドと組み合わせてデータのクリーニングと分析を行うことができます。

コード例:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

# 使用drop_duplicates方法去重
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

# 使用duplicated方法判断重复值
df_duplicated = df.duplicated()
print(df_duplicated)

# 应用场景示例
df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)

上記のコードは Python 環境で実行され、その結果、重複排除されたデータセットと総売上統計が出力されます。

参考文献:

Pandas 公式ドキュメント: https://pandas.pydata.org/docs/
「Python を使用したデータ分析」(第 2 版) 、著者：ウェス・マッキニー、People's Posts and Telecommunications Publishing House、2019 年。

以上がPandas を使用してデータ内の重複値を処理する方法: 重複排除方法の包括的な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。