データ分析の分野では、データ クリーニングは非常に重要なリンクです。データ クリーニングには、データ内のエラーの特定と修正、欠落または無効な情報の特徴付けと処理などが含まれます。 Python には、データ クリーニングに役立つライブラリが多数あります。次に、Python を使用してデータ クリーニングを行う方法を紹介します。
1. データのロード
Python では、pandas ライブラリを使用してデータをロードできます。もちろん、データ クリーニングの前にデータの種類を確認する必要があります。 CSV ファイルの場合、pandas の read_csv() 関数を使用すると、データを簡単にロードできます。
import pandas as pd
data = pd.read_csv('data.csv')
データが Excel ファイルの場合は、read_excel() 関数を使用します。データがリレーショナル データベースから取得されたものである場合は、SQLAlchemy または別のデータベース パッケージを使用してデータを取得します。
2. データ エラーの特定
データ クリーニングの最初のステップは、データ エラーを特定することです。データ エラーには次のものが含まれます。
データに欠損値があることは非常に一般的です。 pandas ライブラリの isnull() または notnull() 関数を使用して、データに欠損値があるかどうかを検出できます:
data.isnull()
data.notnull()
外れ値は、データ セット内の他のデータ ポイントと一致しない不規則なデータです。外れ値は、データを四分位に分割する、特定の標準偏差値より大きいデータ ポイントを削除するなどの統計的手法を使用して検出できます。もちろん、箱ひげ図や散布図などの視覚化手法を使用して外れ値を検出することもできます。
重複データとは、データ内の複数のレコードが同じデータ値を表示することを意味します。 pandas ライブラリの dump_duplicates() 関数を使用して、重複データを検出して削除できます。
data.duplicated()
data.drop_duplicates()
3. データ クリーニング
データ エラーを特定したら、次のステップはデータ クリーニングです。データ クリーニングには次の手順が含まれます。
データに欠損値がある場合、1 つの方法はこれらのレコードを直接削除することです。ただし、レコードを削除するとデータの整合性に影響する可能性があります。したがって、fillna() 関数を使用して、null 値を平均値、中央値、またはその他の特別な値に置き換えることができます。
data.fillna(value=10,inplace=True)
dropna() 関数を使用してデータ内の null 値を削除できます:
data.dropna()
作成された外れ値がデータセットの不正確な分析につながる場合は、これらの外れ値を削除することを検討できます。削除がデータの有用性に影響を与える場合は、次のことを検討できます。外れ値を削除し、より正確な推定値に置き換えます:
data.quantile(0.95)
data[(data
4. クリーニングしたデータを保存します。
データのクリーニングが完了したら、データを保存する必要があります。データは、pandas ライブラリの to_csv() および to_excel() 関数を使用して CSV または Excel ファイルに保存できます。
data.to_csv('cleaned_data.csv')
data.to_excel('cleaned_data) .xlsx ')
5. 結論
データ分析の分野では、データ クリーニングは非常に重要なリンクです。データ クリーニングには Python および pandas ライブラリを使用できます。データ クリーニングには、データ エラーの特定とクリーニング、Null 値と外れ値の特定、およびデータ クリーニングが含まれます。データのクリーニングが完了したら、データをファイルに保存して、さらなる分析と視覚化を行うことができます。
以上がデータ クリーニングに Python を使用するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。