タイタニック号のデータセットは、データ サイエンスと機械学習のプロジェクトで使用される古典的なデータセットです。これにはタイタニック号の乗客に関する情報が含まれており、多くの場合、どの乗客が事故で生き残ったのかを予測することが目的となります。予測モデルを構築する前に、データを前処理してデータがクリーンで分析に適していることを確認することが重要です。このブログ投稿では、Python を使用してタイタニック号のデータセットを前処理する重要な手順を説明します。
データ分析プロジェクトの最初のステップは、データセットをロードすることです。 pandas ライブラリを使用して、タイタニック号のデータを含む CSV ファイルを読み取ります。このデータセットには、名前、年齢、性別、航空券、運賃、乗客が生存したかどうか (生存) などの特徴が含まれています。
import pandas as pd import numpy as np
タイタニック号のデータセットをロードします
titanic = pd.read_csv('titanic.csv') titanic.head()
データセットには、タイタニック号の乗客に関連する次の変数が含まれています:
生存: 乗客が生存したかどうかを示します。
Pclass: 乗客の航空券クラス。
性別: 乗客の性別。
年齢: 乗客の年齢 (年単位)。
SibSp: タイタニック号に乗船している兄弟または配偶者の数。
パーチ: タイタニック号に乗船している親または子供の数。
チケット: チケット番号。
運賃: 旅客運賃。
キャビン: キャビン番号。
乗船済み: 乗船港。
探索的データ分析 (EDA) には、データセットを調べてその構造とさまざまな変数間の関係を理解することが含まれます。このステップは、データ内のパターン、傾向、異常を特定するのに役立ちます。
データセットの概要
まず、データセットの最初の数行を表示し、統計の概要を取得します。これにより、データ型、値の範囲、欠損値の存在がわかります。
# Display the first few rows print(titanic.head()) # Summary statistics print(titanic.describe(include='all'))
データ クリーニングは、欠損値を処理し、データ型を修正し、不一致を除去するプロセスです。タイタニック号のデータセットでは、年齢、客室、乗船などのフィーチャに欠損値があります。
欠損値の処理
欠損値を処理するには、適切な値を入力するか、欠損データのある行/列を削除します。たとえば、不足している Age 値を年齢の中央値で埋め、Embarked 値が不足している行を削除できます。
# Fill missing age values with the mode titanic['Age'].fillna(titanic['Age'].mode(), inplace=True) # Drop rows with missing 'Embarked' values titanic.dropna(subset=['Embarked'], inplace=True) # Check remaining missing values print(titanic.isnull().sum())
特徴量エンジニアリングには、モデルのパフォーマンスを向上させるために既存のものを変換することが含まれます。このステップには、数値特徴をスケーリングするカテゴリ変数のエンコードが含まれる場合があります。
カテゴリ変数のエンコード
機械学習アルゴリズムには数値入力が必要なため、カテゴリ特徴を数値特徴に変換する必要があります。 Sex や Embarked などの機能にはワンホット エンコーディングを使用できます。
# Convert categorical features to numerical from sklearn import preprocessing le = preprocessing.LabelEncoder() #fit the required column to be transformed le.fit(df['Sex']) df['Sex'] = le.transform(df['Sex'])
前処理は、あらゆるデータ サイエンス プロジェクトにおいて重要なステップです。このブログ投稿では、データのロード、探索的データ分析の実行、データのクリーニング、および特徴量エンジニアリングの重要な手順について説明しました。これらの手順は、データを分析またはモデル構築の準備ができていることを確認するのに役立ちます。次のステップは、この前処理されたデータを使用して予測モデルを構築し、そのパフォーマンスを評価することです。さらに詳しく知りたい場合は、私の colab ノートブックをご覧ください
これらの手順に従うことで、初心者はデータ前処理の強固な基礎を築き、より高度なデータ分析と機械学習タスクの準備を整えることができます。コーディングを楽しんでください!
以上がデータセットを前処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。