入門から習得まで: pandas のデータ クリーニング手法をマスターする
はじめに:
データ サイエンスと機械学習の分野では、データ クリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データ クリーニング プロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータ クリーニング方法を段階的に紹介し、読者がデータ クリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。
- パンダ ライブラリとデータ セットのインポート
まず、パンダ ライブラリをインポートし、クリーンアップするデータ セットを読み取る必要があります。 pandas のread_csv()
関数を使用して CSV ファイルを読み取ることも、read_excel()
関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。
import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv')
- データ セットの概要の表示
データ クリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データ セットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。
-
df.head()
: データ セットの最初の数行を表示します。デフォルトは最初の 5 行です。 -
df.tail()
: データ セットの最後の数行を表示します。デフォルトは最後の 5 行です。 -
df.info()
: 各列のデータ型や null 以外の値の数など、データ セットの基本情報を表示します。 -
df.describe()
: 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。 -
df.shape
: データ セットの形状、つまり行と列の数を表示します。
これらのコマンドは、データ セットの構造と内容をすばやく理解し、その後のデータ クリーニングの準備に役立ちます。
- 欠損値の処理
実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。
- 欠損値の削除: 欠損値を含む行を削除するには、
dropna()
関数を使用します。値または列。 - 欠損値を埋める:
fillna()
関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0)
などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。
# 删除包含缺失值的行 df.dropna(inplace=True) # 将缺失值填充为0 df.fillna(0, inplace=True)
- 重複値の処理
- 欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータ クリーニングの重要な手順の 1 つであり、
drop_duplicates()関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。
# 删除重复值 df.drop_duplicates(inplace=True)
- 外れ値の処理
- データ セットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。
- 異常値の削除: ブール値インデックスを使用して異常値を削除します。たとえば、
- df = df[df['column'] を使用すると、列内の 100 を超える外れ値を削除できます。 外れ値を置換:
- replace()
関数を使用して、外れ値を適切な値に置き換えます。たとえば、
df['column'].replace(100, df['column'].mean())を使用すると、列の値 100 を列の平均値に置き換えることができます。
# 删除异常值 df = df[df['column'] < 100] # 将异常值替换为均值 df['column'].replace(100, df['column'].mean(), inplace=True)
- データ型変換
- データセットの一部の列のデータ型が正しくない場合があります。データ型は、
astype()関数を使用して正しい型に変換できます。たとえば、
df['column'] = df['column'].astype(float)を使用して、列のデータ型を浮動小数点型に変換できます。
# 将某一列的数据类型转换为浮点型 df['column'] = df['column'].astype(float)
- データ列の名前変更
- データセット内の列名が要件を満たしていない場合
rename()この関数は列名の名前を変更します。
# 对列名进行重命名 df.rename(columns={'old_name': 'new_name'}, inplace=True)
- データの並べ替え
- 場合によっては、データ セットの値に従ってデータ セットを並べ替える必要があります。とあるコラム。データセットは、
sort_values()関数を使用して並べ替えることができます。
# 按照某一列的值对数据集进行升序排序 df.sort_values('column', ascending=True, inplace=True)結論:
この記事では、パンダでの一般的なデータ クリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータ セット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータ クリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータ クリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。
以上がpandas データ クリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Pythonlistscanstoreanydatatype,arraymodulearraysstoreonetype,andNumPyarraysarefornumericalcomputations.1)Listsareversatilebutlessmemory-efficient.2)Arraymodulearraysarememory-efficientforhomogeneousdata.3)NumPyarraysareoptimizedforperformanceinscient

heouttemptemptostoreavure ofthewrongdatatypeinapythonarray、yure counteractypeerror.thisduetothearraymodule'sstricttypeeencultionyを使用します

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

theScriptisrunningwithwrongthonversionduetorectRectDefaultEntertersettings.tofixthis:1)CheckthedededefaultHaulthonsionsingpython - versionorpython3-- version.2)usevirtualenvironmentsbycreatingonewiththon3.9-mvenvmyenv、andverixe

PythonArraysSupportVariousoperations:1)SlicingExtractsSubsets、2)Appending/ExtendingAdddesements、3)inSertingSelementSatspecificpositions、4)remvingingDeletesements、5)sorting/verversingsorder、and6)listenionsionsionsionsionscreatenewlistsebasedexistin

numpyarraysAressertialentionsionceivationsefirication-efficientnumericalcomputations andDatamanipulation.theyarecrucialindatascience、mashineelearning、物理学、エンジニアリング、および促進可能性への適用性、scaledatiencyを効率的に、forexample、infinancialanalyyy

UseanArray.ArrayOverAlistinPythonは、Performance-criticalCode.1)homogeneousdata:araysavememorywithpedelements.2)Performance-criticalcode:Araysofterbetterbetterfornumerumerumericaleperations.3)interf

いいえ、notallistoperationSaresuptedbyarrays、andviceversa.1)arraysdonotsupportdynamicoperationslikeappendorintorintorinsertizizing、whosimpactsporformance.2)リスト


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

ホットトピック









