Maison >développement back-end >Tutoriel Python >Comment puis-je remplacer efficacement les valeurs NaN dans les Pandas DataFrames ?

Comment puis-je remplacer efficacement les valeurs NaN dans les Pandas DataFrames ?

Susan Sarandon
Susan Sarandonoriginal
2024-12-03 20:16:10355parcourir

How can I effectively replace NaN values in Pandas DataFrames?

Remplacement des valeurs NaN dans les colonnes Dataframe

Lorsque vous travaillez avec des DataFrames dans Pandas, les données manquantes ou invalides peuvent être représentées par des valeurs NaN. Pour garantir la qualité des données et éviter les erreurs, il est souvent nécessaire de remplacer ces valeurs NaN par des espaces réservés ou des imputations appropriés.

Méthode DataFrame.fillna()

La plus simple La méthode pour remplacer les valeurs NaN utilise la méthode fillna(). Il prend une valeur ou un dictionnaire comme argument et remplace toutes les valeurs NaN dans les colonnes spécifiées ou l'intégralité du DataFrame par la valeur fournie.

Exemple :

import pandas as pd

df = pd.DataFrame({
    "itm": [420, 421, 421, 421, 421, 485, 485, 485, 485, 489, 489],
    "Date": ["2012-09-30", "2012-09-09", "2012-09-16", "2012-09-23", "2012-09-30", 
             "2012-09-09", "2012-09-16", "2012-09-23", "2012-09-30", "2012-09-09", "2012-09-16"],
    "Amount": [65211, 29424, 29877, 30990, 61303, 71781, float("NaN"), 11072, 113702, 64731, float("NaN")]
})

df.fillna(0)

Sortie :

       itm       Date    Amount
0     420  2012-09-30    65211
1     421  2012-09-09    29424
2     421  2012-09-16    29877
3     421  2012-09-23    30990
4     421  2012-09-30    61303
5     485  2012-09-09    71781
6     485  2012-09-16      0.0
7     485  2012-09-23   11072.0
8     485  2012-09-30  113702.0
9     489  2012-09-09    64731
10    489  2012-09-16      0.0

Supplémentaire Méthodes :

Bien que fillna() soit la plus courante, il existe plusieurs autres méthodes qui peuvent être utilisées pour remplacer les valeurs NaN :

  • .replace()  : Cette méthode peut être utilisée pour remplacer les valeurs NaN par une valeur spécifique ou un mask.
  • .interpolate() : Cette méthode utilise diverses techniques d'interpolation pour estimer les valeurs manquantes.
  • .pivot_table() : Ceci La méthode peut être utilisée pour regrouper et agréger les données, en ignorant les données manquantes. valeurs.

Conclusion :

Le remplacement des valeurs NaN dans les DataFrames est essentiel pour le nettoyage et la manipulation des données. En utilisant les méthodes décrites ci-dessus, vous pouvez gérer efficacement les données manquantes ou invalides, garantissant ainsi l'intégrité et la qualité de votre analyse de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn