Maison > Article > développement back-end > Comment prétraiter votre ensemble de données
L'ensemble de données Titanic est un ensemble de données classique utilisé dans les projets de science des données et d'apprentissage automatique. Il contient des informations sur les passagers du Titanic et le but est souvent de prédire quels passagers ont survécu à la catastrophe. Avant de créer un modèle prédictif, il est crucial de prétraiter les données pour garantir qu'elles sont propres et adaptées à l'analyse. Cet article de blog vous guidera à travers les étapes essentielles du prétraitement de l'ensemble de données Titanic à l'aide de Python.
La première étape de tout projet d'analyse de données consiste à charger l'ensemble de données. Nous utilisons la bibliothèque pandas pour lire le fichier CSV contenant les données Titanic. Cet ensemble de données comprend des fonctionnalités telles que le nom, l'âge, le sexe, le billet, le tarif et si le passager a survécu (Survived).
import pandas as pd import numpy as np
Charger l'ensemble de données Titanic
titanic = pd.read_csv('titanic.csv') titanic.head()
L'ensemble de données contient les variables suivantes liées aux passagers du Titanic :
Survie : Indique si le passager a survécu.
Pclass : Classe de billet du passager.
Sexe : Sexe du passager.
Âge : Âge du passager en années.
SibSp : Nombre de frères et sœurs ou de conjoints à bord du Titanic.
Parch : Nombre de parents ou d'enfants à bord du Titanic.
Billet : Numéro du billet.
Tarif : Tarif passager.
Cabine : Numéro de cabine.
Embarqué : Port d'embarquement.
L'analyse exploratoire des données (EDA) consiste à examiner l'ensemble de données pour comprendre sa structure et les relations entre les différentes variables. Cette étape permet d'identifier les modèles, tendances ou anomalies dans les données.
Aperçu de l'ensemble de données
Nous commençons par afficher les premières lignes de l'ensemble de données et obtenir un résumé des statistiques. Cela nous donne une idée des types de données, de la plage de valeurs et de la présence de valeurs manquantes.
# Display the first few rows print(titanic.head()) # Summary statistics print(titanic.describe(include='all'))
Le nettoyage des données est le processus de gestion des valeurs manquantes, de correction des types de données et de suppression de toute incohérence. Dans l'ensemble de données Titanic, des fonctionnalités telles que Age, Cabin et Embarked ont des valeurs manquantes.
Gestion des valeurs manquantes
Pour gérer les valeurs manquantes, nous pouvons les remplir avec les valeurs appropriées ou supprimer les lignes/colonnes avec des données manquantes. Par exemple, nous pouvons remplir les valeurs d'âge manquantes avec l'âge médian et supprimer les lignes avec les valeurs Embarked manquantes.
# Fill missing age values with the mode titanic['Age'].fillna(titanic['Age'].mode(), inplace=True) # Drop rows with missing 'Embarked' values titanic.dropna(subset=['Embarked'], inplace=True) # Check remaining missing values print(titanic.isnull().sum())
L'ingénierie des fonctionnalités consiste à transformer celles existantes pour améliorer les performances du modèle. Cette étape peut inclure l'encodage de variables catégorielles mettant à l'échelle les caractéristiques numériques.
Encodage des variables catégorielles
Les algorithmes d'apprentissage automatique nécessitent une saisie numérique, nous devons donc convertir les caractéristiques catégorielles en caractéristiques numériques. Nous pouvons utiliser l'encodage à chaud pour des fonctionnalités telles que Sex et Embarked.
# Convert categorical features to numerical from sklearn import preprocessing le = preprocessing.LabelEncoder() #fit the required column to be transformed le.fit(df['Sex']) df['Sex'] = le.transform(df['Sex'])
Le prétraitement est une étape critique dans tout projet de science des données. Dans cet article de blog, nous avons couvert les étapes essentielles du chargement des données, de l'analyse exploratoire des données, du nettoyage des données et de l'ingénierie des fonctionnalités. Ces étapes permettent de garantir que nos données sont prêtes pour l’analyse ou la création de modèles. L'étape suivante consiste à utiliser ces données prétraitées pour créer des modèles prédictifs et évaluer leurs performances. Pour plus d'informations, jetez un œil à mon carnet Colab
En suivant ces étapes, les débutants peuvent acquérir une base solide en matière de prétraitement des données, ouvrant la voie à des tâches d'analyse de données et d'apprentissage automatique plus avancées. Bon codage !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!