Maison >développement back-end >Tutoriel Python >Comment puis-je supprimer efficacement les valeurs aberrantes d'une colonne Pandas DataFrame ?

Comment puis-je supprimer efficacement les valeurs aberrantes d'une colonne Pandas DataFrame ?

Linda Hamilton
Linda Hamiltonoriginal
2024-12-06 11:56:11445parcourir

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Exclusion de valeurs aberrantes dans les DataFrames Pandas : détection et suppression des anomalies de données

Dans l'analyse des données, les valeurs aberrantes peuvent fausser les résultats et fausser les interprétations. Pour atténuer ce problème, il est crucial de détecter et d’exclure les valeurs aberrantes des ensembles de données. Cet article présente une méthode élégante d'exclusion des valeurs aberrantes dans les DataFrames pandas à l'aide de la fonction scipy.stats.zscore.

Supposons que vous ayez un DataFrame avec plusieurs colonnes, dont l'une (nommée "Vol") contient des valeurs avec un valeur aberrante (par exemple, 4 000 alors que la plupart des valeurs se situent autour de 1 200). Pour supprimer les lignes comportant de telles valeurs aberrantes dans une colonne spécifique, procédez comme suit :

Utilisation de scipy.stats.zscore pour la détection des valeurs aberrantes

  1. Importez le bibliothèques nécessaires :

    import pandas as pd
    import numpy as np
    from scipy import stats
  2. Calculez le score Z pour le colonne sensible aux valeurs aberrantes :

    df["Vol_zscore"] = stats.zscore(df["Vol"])
  3. Créez une condition pour identifier les lignes comprises dans trois écarts types par rapport à la moyenne :

    mask = np.abs(df["Vol_zscore"]) < 3
  4. Utilisez la condition pour filtrer le DataFrame et supprimer les valeurs aberrantes lignes :

    filtered_df = df[mask]

En appliquant ces étapes, vous pouvez détecter et exclure efficacement les lignes contenant des valeurs aberrantes dans une colonne spécifique de votre Pandas DataFrame. Cette méthode vous permet de supprimer les anomalies qui pourraient potentiellement biaiser votre analyse de données et de garantir des résultats plus précis et fiables.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn