Python でデータ前処理と特徴エンジニアリングを実行する方法
データ前処理と特徴エンジニアリングは、データ サイエンスの分野の非常に重要な部分です。データの前処理とは、さらなる分析とモデリングのために生データをクリーニング、変換、整理することを指します。特徴エンジニアリングとは、機械学習アルゴリズムがデータをよりよく理解し、モデルのパフォーマンスを向上させるために、生データから有用な特徴を抽出することを指します。この記事では、Python でのデータ前処理と特徴量エンジニアリングの一般的なテクニックと関連コード例を紹介します。
まず、データを Python 環境にロードする必要があります。一般的なデータ形式には、CSV、Excel、SQL データベースなどが含まれます。以下は、pandas ライブラリを使用して CSV 形式でデータを読み込む一般的に使用される方法です。
import pandas as pd # 读取CSV文件 data = pd.read_csv('data.csv')
データの前処理では、データ クリーニングは重要なタスクです。データ クリーニングの主な目的は、欠損値、外れ値、重複値などの問題に対処することです。以下に、一般的に使用されるデータ クリーニング方法と対応するコード例を示します。
# 检查缺失值 data.isnull().sum() # 填充缺失值 data['column_name'].fillna(data['column_name'].mean(), inplace=True)
# 检查异常值 data['column_name'].describe() # 替换异常值 data['column_name'].replace({-999: np.nan}, inplace=True)
# 删除重复值 data.drop_duplicates(inplace=True)
特徴エンジニアリングでは、ターゲット変数に最も大きな影響を与える特徴を選択する必要があります。 。これは、モデルの精度と効率の向上に役立ちます。以下に、一般的に使用される特徴選択方法と対応するコード例を示します。
from sklearn.feature_selection import VarianceThreshold # 设置方差阈值 selector = VarianceThreshold(threshold=0.1) # 进行特征选择 selected_features = selector.fit_transform(data)
# 计算特征之间的相关系数 correlation_matrix = data.corr() # 筛选相关性较高的特征 highly_correlated_features = correlation_matrix[correlation_matrix > 0.8].dropna(axis=0).index selected_features = data[highly_correlated_features]
特徴抽出とは、機械学習アルゴリズムがデータをよりよく理解できるように、元のデータから新しい特徴を抽出することです。以下に、一般的に使用される特徴抽出方法と対応するコード例を示します。
from sklearn.feature_extraction.text import CountVectorizer # 实例化文本特征提取器 text_vectorizer = CountVectorizer() # 提取文本特征 text_features = text_vectorizer.fit_transform(data['text_column'])
import cv2 # 读取图像 image = cv2.imread('image.jpg') # 提取图像特征 image_features = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 转换时间格式 data['timestamp'] = pd.to_datetime(data['timestamp']) # 提取时间序列特征 data['year'] = data['timestamp'].dt.year data['month'] = data['timestamp'].dt.month
上記のデータ前処理と特徴エンジニアリングの手順を通じて、元のデータを機械学習アルゴリズムが理解して処理できる形式に変換できます。これらの手順は、高性能の機械学習モデルを構築する際に重要な役割を果たします。この記事の内容があなたの学習や実践に役立つことを願っています。
以上がPython でデータの前処理と特徴エンジニアリングを行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。