Maison >développement back-end >Tutoriel Python >Comment prétraiter votre ensemble de données

Comment prétraiter votre ensemble de données

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal
2024-07-30 18:03:17999parcourir

How to preprocess your Dataset

Présentation

L'ensemble de données Titanic est un ensemble de données classique utilisé dans les projets de science des données et d'apprentissage automatique. Il contient des informations sur les passagers du Titanic et le but est souvent de prédire quels passagers ont survécu à la catastrophe. Avant de créer un modèle prédictif, il est crucial de prétraiter les données pour garantir qu'elles sont propres et adaptées à l'analyse. Cet article de blog vous guidera à travers les étapes essentielles du prétraitement de l'ensemble de données Titanic à l'aide de Python.

Étape 1 : Chargement des données

La première étape de tout projet d'analyse de données consiste à charger l'ensemble de données. Nous utilisons la bibliothèque pandas pour lire le fichier CSV contenant les données Titanic. Cet ensemble de données comprend des fonctionnalités telles que le nom, l'âge, le sexe, le billet, le tarif et si le passager a survécu (Survived).

import pandas as pd
import numpy as np

Charger l'ensemble de données Titanic

titanic = pd.read_csv('titanic.csv')
titanic.head()

Comprendre les données

L'ensemble de données contient les variables suivantes liées aux passagers du Titanic :

  • Survie : Indique si le passager a survécu.

    • 0 = Non
    • 1 = Oui
  • Pclass : Classe de billet du passager.

    • 1 = 1ère classe
    • 2 = 2ème classe
    • 3 = 3ème classe
  • Sexe : Sexe du passager.

  • Âge : Âge du passager en années.

  • SibSp : Nombre de frères et sœurs ou de conjoints à bord du Titanic.

  • Parch : Nombre de parents ou d'enfants à bord du Titanic.

  • Billet : Numéro du billet.

  • Tarif : Tarif passager.

  • Cabine : Numéro de cabine.

  • Embarqué : Port d'embarquement.

    • C = Cherbourg
    • Q = Queenstown
    • S = Southampton

Étape 2 : Analyse exploratoire des données (EDA)

L'analyse exploratoire des données (EDA) consiste à examiner l'ensemble de données pour comprendre sa structure et les relations entre les différentes variables. Cette étape permet d'identifier les modèles, tendances ou anomalies dans les données.

Aperçu de l'ensemble de données

Nous commençons par afficher les premières lignes de l'ensemble de données et obtenir un résumé des statistiques. Cela nous donne une idée des types de données, de la plage de valeurs et de la présence de valeurs manquantes.

# Display the first few rows
print(titanic.head())

# Summary statistics
print(titanic.describe(include='all'))

Étape 3 : Nettoyage des données

Le nettoyage des données est le processus de gestion des valeurs manquantes, de correction des types de données et de suppression de toute incohérence. Dans l'ensemble de données Titanic, des fonctionnalités telles que Age, Cabin et Embarked ont des valeurs manquantes.

Gestion des valeurs manquantes

Pour gérer les valeurs manquantes, nous pouvons les remplir avec les valeurs appropriées ou supprimer les lignes/colonnes avec des données manquantes. Par exemple, nous pouvons remplir les valeurs d'âge manquantes avec l'âge médian et supprimer les lignes avec les valeurs Embarked manquantes.

# Fill missing age values with the mode
titanic['Age'].fillna(titanic['Age'].mode(), inplace=True)

# Drop rows with missing 'Embarked' values
titanic.dropna(subset=['Embarked'], inplace=True)

# Check remaining missing values
print(titanic.isnull().sum())

Étape 4 : Ingénierie des fonctionnalités

L'ingénierie des fonctionnalités consiste à transformer celles existantes pour améliorer les performances du modèle. Cette étape peut inclure l'encodage de variables catégorielles mettant à l'échelle les caractéristiques numériques.

Encodage des variables catégorielles

Les algorithmes d'apprentissage automatique nécessitent une saisie numérique, nous devons donc convertir les caractéristiques catégorielles en caractéristiques numériques. Nous pouvons utiliser l'encodage à chaud pour des fonctionnalités telles que Sex et Embarked.

# Convert categorical features to numerical
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

#fit the required column to be transformed
le.fit(df['Sex'])
df['Sex'] = le.transform(df['Sex'])

Conclusion

Le prétraitement est une étape critique dans tout projet de science des données. Dans cet article de blog, nous avons couvert les étapes essentielles du chargement des données, de l'analyse exploratoire des données, du nettoyage des données et de l'ingénierie des fonctionnalités. Ces étapes permettent de garantir que nos données sont prêtes pour l’analyse ou la création de modèles. L'étape suivante consiste à utiliser ces données prétraitées pour créer des modèles prédictifs et évaluer leurs performances. Pour plus d'informations, jetez un œil à mon carnet Colab

En suivant ces étapes, les débutants peuvent acquérir une base solide en matière de prétraitement des données, ouvrant la voie à des tâches d'analyse de données et d'apprentissage automatique plus avancées. Bon codage !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn