pandas データクリーニングのマスターになる: 入門から習得まで-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

pandas データクリーニングのマスターになる: 入門から習得まで

PHPz

Jan 24, 2024 am 09:29 AM

はじめるpandas熟練した

pandas データクリーニングのマスターになる: 入門から習得まで

入門から習得まで: pandas のデータクリーニング手法をマスターする

はじめに:
データサイエンスと機械学習の分野では、データクリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データクリーニングプロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータクリーニング方法を段階的に紹介し、読者がデータクリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。

パンダライブラリとデータセットのインポート
まず、パンダライブラリをインポートし、クリーンアップするデータセットを読み取る必要があります。 pandas の read_csv() 関数を使用して CSV ファイルを読み取ることも、read_excel() 関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

データセットの概要の表示
データクリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データセットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。

df.head(): データセットの最初の数行を表示します。デフォルトは最初の 5 行です。
df.tail(): データセットの最後の数行を表示します。デフォルトは最後の 5 行です。
df.info(): 各列のデータ型や null 以外の値の数など、データセットの基本情報を表示します。
df.describe(): 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。
df.shape: データセットの形状、つまり行と列の数を表示します。

これらのコマンドは、データセットの構造と内容をすばやく理解し、その後のデータクリーニングの準備に役立ちます。

欠損値の処理
実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。

欠損値の削除: 欠損値を含む行を削除するには、dropna() 関数を使用します。値または列。
欠損値を埋める: fillna() 関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0) などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。

以下は欠損値を処理するコード例です:

# 删除包含缺失值的行
df.dropna(inplace=True)

# 将缺失值填充为0
df.fillna(0, inplace=True)

欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータクリーニングの重要な手順の 1 つであり、
drop_duplicates() 関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。

以下は、重複値を処理するためのコード例です。

# 删除重复值
df.drop_duplicates(inplace=True)

データセットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。

df = df[df['column'] を使用すると、列内の 100 を超える外れ値を削除できます。
replace() 関数を使用して、外れ値を適切な値に置き換えます。たとえば、df['column'].replace(100, df['column'].mean()) を使用すると、列の値 100 を列の平均値に置き換えることができます。

以下は外れ値を処理するコード例です:

# 删除异常值
df = df[df['column'] < 100]

# 将异常值替换为均值
df['column'].replace(100, df['column'].mean(), inplace=True)

データセットの一部の列のデータ型が正しくない場合があります。データ型は、
astype() 関数を使用して正しい型に変換できます。たとえば、df['column'] = df['column'].astype(float) を使用して、列のデータ型を浮動小数点型に変換できます。

以下はデータ型変換のコード例です:

# 将某一列的数据类型转换为浮点型
df['column'] = df['column'].astype(float)

データセット内の列名が要件を満たしていない場合
rename()この関数は列名の名前を変更します。

以下は、データ列の名前を変更するコード例です:

# 对列名进行重命名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

場合によっては、データセットの値に従ってデータセットを並べ替える必要があります。とあるコラム。データセットは、
sort_values() 関数を使用して並べ替えることができます。

以下はデータ並べ替えのコード例です:

# 按照某一列的值对数据集进行升序排序
df.sort_values('column', ascending=True, inplace=True)

結論:

この記事では、パンダでの一般的なデータクリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータセット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータクリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータクリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。

以上がpandas データクリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

どのデータ型をPythonアレイに保存できますか？Apr 27, 2025 am 12:11 AM

Pythonlistscanstoreanydatatype,arraymodulearraysstoreonetype,andNumPyarraysarefornumericalcomputations.1)Listsareversatilebutlessmemory-efficient.2)Arraymodulearraysarememory-efficientforhomogeneousdata.3)NumPyarraysareoptimizedforperformanceinscient

Pythonアレイに間違ったデータ型の値を保存しようとするとどうなりますか？Apr 27, 2025 am 12:10 AM

heouttemptemptostoreavure ofthewrongdatatypeinapythonarray、yure counteractypeerror.thisduetothearraymodule'sstricttypeeencultionyを使用します

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

スクリプトが間違ったPythonバージョンで実行されるかどうかを確認する必要がありますか？Apr 27, 2025 am 12:01 AM

theScriptisrunningwithwrongthonversionduetorectRectDefaultEntertersettings.tofixthis：1）CheckthedededefaultHaulthonsionsingpython - versionorpython3-- version.2）usevirtualenvironmentsbycreatingonewiththon3.9-mvenvmyenv、andverixe

Pythonアレイで実行できる一般的な操作は何ですか？Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousoperations：1）SlicingExtractsSubsets、2）Appending/ExtendingAdddesements、3）inSertingSelementSatspecificpositions、4）remvingingDeletesements、5）sorting/verversingsorder、and6）listenionsionsionsionsionscreatenewlistsebasedexistin

一般的に使用されているnumpy配列はどのようなアプリケーションにありますか？Apr 26, 2025 am 12:13 AM

numpyarraysAressertialentionsionceivationsefirication-efficientnumericalcomputations andDatamanipulation.theyarecrucialindatascience、mashineelearning、物理学、エンジニアリング、および促進可能性への適用性、scaledatiencyを効率的に、forexample、infinancialanalyyy

Pythonのリスト上の配列を使用するのはいつですか？Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOverAlistinPythonは、Performance-criticalCode.1）homogeneousdata：araysavememorywithpedelements.2）Performance-criticalcode：Araysofterbetterbetterfornumerumerumericaleperations.3）interf

すべてのリスト操作は配列でサポートされていますか？なぜまたはなぜですか？Apr 26, 2025 am 12:05 AM

いいえ、notallistoperationSaresuptedbyarrays、andviceversa.1）arraysdonotsupportdynamicoperationslikeappendorintorintorinsertizizing、whosimpactsporformance.2）リスト

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。