Maison >développement back-end >Tutoriel Python >Comment puis-je imputer les valeurs manquantes dans les DataFrames Pandas à l'aide de moyens de groupe ?

Comment puis-je imputer les valeurs manquantes dans les DataFrames Pandas à l'aide de moyens de groupe ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-12-16 12:34:15227parcourir

How Can I Impute Missing Values in Pandas DataFrames Using Group Means?

Imputation de valeurs manquantes avec la moyenne de groupe dans les DataFrames Pandas

Dans les tâches de manipulation de données, il est courant de rencontrer des valeurs manquantes notées NaN. Pour résoudre ce problème, une approche consiste à remplir ces valeurs manquantes avec la valeur moyenne calculée au sein de groupes spécifiques.

Considérez l'exemple de dataframe :

name value
A 1
A NaN
B NaN
B 2
B 3
B 1
C 3
C NaN
C 3

Notre objectif est de remplacer le NaN valeurs avec la moyenne du groupe correspondant de « valeur ». Pour y parvenir, nous pouvons exploiter la méthode transform() :

mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean()))
df["value"] = mean_values

Après l'exécution, la trame de données est mise à jour :

name value
A 1
A 1
B 2
B 2
B 3
B 1
C 3
C 3
C 3

Chaque valeur NaN a été remplacée par sa moyenne de groupe respective , préservant l'intégrité des données pour une analyse plus approfondie.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn