検索
ホームページバックエンド開発Python チュートリアルpandas データ クリーニングのマスターになる: 入門から習得まで

pandas データ クリーニングのマスターになる: 入門から習得まで

入門から習得まで: pandas のデータ クリーニング手法をマスターする

はじめに:
データ サイエンスと機械学習の分野では、データ クリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データ クリーニング プロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータ クリーニング方法を段階的に紹介し、読者がデータ クリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。

  1. パンダ ライブラリとデータ セットのインポート
    まず、パンダ ライブラリをインポートし、クリーンアップするデータ セットを読み取る必要があります。 pandas の read_csv() 関数を使用して CSV ファイルを読み取ることも、read_excel() 関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。
import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
  1. データ セットの概要の表示
    データ クリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データ セットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。
  • df.head(): データ セットの最初の数行を表示します。デフォルトは最初の 5 行です。
  • df.tail(): データ セットの最後の数行を表示します。デフォルトは最後の 5 行です。
  • df.info(): 各列のデータ型や null 以外の値の数など、データ セットの基本情報を表示します。
  • df.describe(): 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。
  • df.shape: データ セットの形状、つまり行と列の数を表示します。

これらのコマンドは、データ セットの構造と内容をすばやく理解し、その後のデータ クリーニングの準備に役立ちます。

  1. 欠損値の処理
    実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。
  • 欠損値の削除: 欠損値を含む行を削除するには、dropna() 関数を使用します。値または列。
  • 欠損値を埋める: fillna() 関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0) などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。
以下は欠損値を処理するコード例です:

# 删除包含缺失值的行
df.dropna(inplace=True)

# 将缺失值填充为0
df.fillna(0, inplace=True)

    重複値の処理
  1. 欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータ クリーニングの重要な手順の 1 つであり、
    drop_duplicates() 関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。
以下は、重複値を処理するためのコード例です。

# 删除重复值
df.drop_duplicates(inplace=True)

    外れ値の処理
  1. データ セットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。
    異常値の削除: ブール値インデックスを使用して異常値を削除します。たとえば、
  • df = df[df['column'] を使用すると、列内の 100 を超える外れ値を削除できます。
  • 外れ値を置換:
  • replace() 関数を使用して、外れ値を適切な値に置き換えます。たとえば、df['column'].replace(100, df['column'].mean()) を使用すると、列の値 100 を列の平均値に置き換えることができます。
以下は外れ値を処理するコード例です:

# 删除异常值
df = df[df['column'] < 100]

# 将异常值替换为均值
df['column'].replace(100, df['column'].mean(), inplace=True)

    データ型変換
  1. データセットの一部の列のデータ型が正しくない場合があります。データ型は、
    astype() 関数を使用して正しい型に変換できます。たとえば、df['column'] = df['column'].astype(float) を使用して、列のデータ型を浮動小数点型に変換できます。
以下はデータ型変換のコード例です:

# 将某一列的数据类型转换为浮点型
df['column'] = df['column'].astype(float)

    データ列の名前変更
  1. データセット内の列名が要件を満たしていない場合
    rename()この関数は列名の名前を変更します。
以下は、データ列の名前を変更するコード例です:

# 对列名进行重命名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

    データの並べ替え
  1. 場合によっては、データ セットの値に従ってデータ セットを並べ替える必要があります。とあるコラム。データセットは、
    sort_values() 関数を使用して並べ替えることができます。
以下はデータ並べ替えのコード例です:

# 按照某一列的值对数据集进行升序排序
df.sort_values('column', ascending=True, inplace=True)

結論:

この記事では、パンダでの一般的なデータ クリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータ セット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータ クリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータ クリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。

以上がpandas データ クリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
どのデータ型をPythonアレイに保存できますか?どのデータ型をPythonアレイに保存できますか?Apr 27, 2025 am 12:11 AM

Pythonlistscanstoreanydatatype,arraymodulearraysstoreonetype,andNumPyarraysarefornumericalcomputations.1)Listsareversatilebutlessmemory-efficient.2)Arraymodulearraysarememory-efficientforhomogeneousdata.3)NumPyarraysareoptimizedforperformanceinscient

Pythonアレイに間違ったデータ型の値を保存しようとするとどうなりますか?Pythonアレイに間違ったデータ型の値を保存しようとするとどうなりますか?Apr 27, 2025 am 12:10 AM

heouttemptemptostoreavure ofthewrongdatatypeinapythonarray、yure counteractypeerror.thisduetothearraymodule'sstricttypeeencultionyを使用します

Python Standard Libraryの一部はどれですか:リストまたは配列はどれですか?Python Standard Libraryの一部はどれですか:リストまたは配列はどれですか?Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

スクリプトが間違ったPythonバージョンで実行されるかどうかを確認する必要がありますか?スクリプトが間違ったPythonバージョンで実行されるかどうかを確認する必要がありますか?Apr 27, 2025 am 12:01 AM

theScriptisrunningwithwrongthonversionduetorectRectDefaultEntertersettings.tofixthis:1)CheckthedededefaultHaulthonsionsingpython - versionorpython3-- version.2)usevirtualenvironmentsbycreatingonewiththon3.9-mvenvmyenv、andverixe

Pythonアレイで実行できる一般的な操作は何ですか?Pythonアレイで実行できる一般的な操作は何ですか?Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousoperations:1)SlicingExtractsSubsets、2)Appending/ExtendingAdddesements、3)inSertingSelementSatspecificpositions、4)remvingingDeletesements、5)sorting/verversingsorder、and6)listenionsionsionsionsionscreatenewlistsebasedexistin

一般的に使用されているnumpy配列はどのようなアプリケーションにありますか?一般的に使用されているnumpy配列はどのようなアプリケーションにありますか?Apr 26, 2025 am 12:13 AM

numpyarraysAressertialentionsionceivationsefirication-efficientnumericalcomputations andDatamanipulation.theyarecrucialindatascience、mashineelearning、物理学、エンジニアリング、および促進可能性への適用性、scaledatiencyを効率的に、forexample、infinancialanalyyy

Pythonのリスト上の配列を使用するのはいつですか?Pythonのリスト上の配列を使用するのはいつですか?Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOverAlistinPythonは、Performance-criticalCode.1)homogeneousdata:araysavememorywithpedelements.2)Performance-criticalcode:Araysofterbetterbetterfornumerumerumericaleperations.3)interf

すべてのリスト操作は配列でサポートされていますか?なぜまたはなぜですか?すべてのリスト操作は配列でサポートされていますか?なぜまたはなぜですか?Apr 26, 2025 am 12:05 AM

いいえ、notallistoperationSaresuptedbyarrays、andviceversa.1)arraysdonotsupportdynamicoperationslikeappendorintorintorinsertizizing、whosimpactsporformance.2)リスト

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター