ホームページ  >  記事  >  バックエンド開発  >  データセットを前処理する方法

データセットを前処理する方法

WBOY
WBOYオリジナル
2024-07-30 18:03:17925ブラウズ

How to preprocess your Dataset

はじめに

タイタニック号のデータセットは、データ サイエンスと機械学習のプロジェクトで使用される古典的なデータセットです。これにはタイタニック号の乗客に関する情報が含まれており、多くの場合、どの乗客が事故で生き残ったのかを予測することが目的となります。予測モデルを構築する前に、データを前処理してデータがクリーンで分析に適していることを確認することが重要です。このブログ投稿では、Python を使用してタイタニック号のデータセットを前処理する重要な手順を説明します。

ステップ 1: データをロードする

データ分析プロジェクトの最初のステップは、データセットをロードすることです。 pandas ライブラリを使用して、タイタニック号のデータを含む CSV ファイルを読み取ります。このデータセットには、名前、年齢、性別、航空券、運賃、乗客が生存したかどうか (生存) などの特徴が含まれています。

import pandas as pd
import numpy as np

タイタニック号のデータセットをロードします

titanic = pd.read_csv('titanic.csv')
titanic.head()

データを理解する

データセットには、タイタニック号の乗客に関連する次の変数が含まれています:

  • 生存: 乗客が生存したかどうかを示します。

    • 0 = いいえ
    • 1 = はい
  • Pclass: 乗客の航空券クラス。

    • 1 = 1 クラス
    • 2 = 2 クラス
    • 3 = 3 級
  • 性別: 乗客の性別。

  • 年齢: 乗客の年齢 (年単位)。

  • SibSp: タイタニック号に乗船している兄弟または配偶者の数。

  • パーチ: タイタニック号に乗船している親または子供の数。

  • チケット: チケット番号。

  • 運賃: 旅客運賃。

  • キャビン: キャビン番号。

  • 乗船済み: 乗船港。

    • C = シェルブール
    • Q = クイーンズタウン
    • S = サウサンプトン

ステップ 2: 探索的データ分析 (EDA)

探索的データ分析 (EDA) には、データセットを調べてその構造とさまざまな変数間の関係を理解することが含まれます。このステップは、データ内のパターン、傾向、異常を特定するのに役立ちます。

データセットの概要

まず、データセットの最初の数行を表示し、統計の概要を取得します。これにより、データ型、値の範囲、欠損値の存在がわかります。

# Display the first few rows
print(titanic.head())

# Summary statistics
print(titanic.describe(include='all'))

ステップ 3: データのクリーニング

データ クリーニングは、欠損値を処理し、データ型を修正し、不一致を除去するプロセスです。タイタニック号のデータセットでは、年齢、客室、乗船などのフィーチャに欠損値があります。

欠損値の処理

欠損値を処理するには、適切な値を入力するか、欠損データのある行/列を削除します。たとえば、不足している Age 値を年齢の中央値で埋め、Embarked 値が不足している行を削除できます。

# Fill missing age values with the mode
titanic['Age'].fillna(titanic['Age'].mode(), inplace=True)

# Drop rows with missing 'Embarked' values
titanic.dropna(subset=['Embarked'], inplace=True)

# Check remaining missing values
print(titanic.isnull().sum())

ステップ 4: 特徴量エンジニアリング

特徴量エンジニアリングには、モデルのパフォーマンスを向上させるために既存のものを変換することが含まれます。このステップには、数値特徴をスケーリングするカテゴリ変数のエンコードが含まれる場合があります。

カテゴリ変数のエンコード

機械学習アルゴリズムには数値入力が必要なため、カテゴリ特徴を数値特徴に変換する必要があります。 Sex や Embarked などの機能にはワンホット エンコーディングを使用できます。

# Convert categorical features to numerical
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

#fit the required column to be transformed
le.fit(df['Sex'])
df['Sex'] = le.transform(df['Sex'])

結論

前処理は、あらゆるデータ サイエンス プロジェクトにおいて重要なステップです。このブログ投稿では、データのロード、探索的データ分析の実行、データのクリーニング、および特徴量エンジニアリングの重要な手順について説明しました。これらの手順は、データを分析またはモデル構築の準備ができていることを確認するのに役立ちます。次のステップは、この前処理されたデータを使用して予測モデルを構築し、そのパフォーマンスを評価することです。さらに詳しく知りたい場合は、私の colab ノートブックをご覧ください

これらの手順に従うことで、初心者はデータ前処理の強固な基礎を築き、より高度なデータ分析と機械学習タスクの準備を整えることができます。コーディングを楽しんでください!

以上がデータセットを前処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。