Maison >développement back-end >Tutoriel Python >Comment supprimer les colonnes en double dans une trame de données Pandas ?

Comment supprimer les colonnes en double dans une trame de données Pandas ?

DDDoriginal: 2024-11-01 14:08:02390parcourir

How to Remove Duplicate Columns in a Pandas Dataframe?

Supprimer les colonnes en double dans une trame de données Pandas

Lorsque vous traitez des trames de données contenant des colonnes en double, il devient nécessaire d'éliminer ces redondances pour des données efficaces analyse. Cet article fournit une solution complète pour supprimer les colonnes en double dans Pandas, abordant tous les aspects du problème.

Noms de colonnes en double

Pour supprimer des colonnes basées uniquement sur des noms en double, une solution simple est :

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

Cette ligne vérifie les noms de colonnes en double et ne conserve que ceux qui sont uniques.

Valeurs de colonnes dupliquées

Si l'objectif est de supprimer des colonnes en fonction de valeurs en double, une approche différente est nécessaire sans transposer le dataframe :

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

Cette méthode vérifie les valeurs en double dans chaque colonne et élimine les colonnes où toutes les valeurs sont des doublons.

Index dupliqués

Pour supprimer les index dupliqués, suivez une approche similaire :

<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>

Notes supplémentaires

Les solutions fournies supposent que la trame de données est déjà chargée dans une variable nommée df.
~df.columns.duplicated() et ~df.index.duplicated() renvoient des tableaux booléens indiquant quelles colonnes ou les index sont des doublons.
La fonction all() dans ~df.apply(lambda x: x.duplicate(),axis=1).all() vérifie si toutes les valeurs d'une colonne sont des doublons.
La méthode .copy() est utilisée pour créer un nouveau dataframe avec les modifications, évitant ainsi tout problème de modification du dataframe existant.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

pandas Boolean if for Lambda copy function this column issue

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment calculer la taille des répertoires en Python : une comparaison des méthodesArticle suivant：Comment calculer la taille des répertoires en Python : une comparaison des méthodes

Articles Liés

Voir plus