Maison >développement back-end >Tutoriel Python >Quelles sont les méthodes pour supprimer les doublons chez les pandas ?

Quelles sont les méthodes pour supprimer les doublons chez les pandas ?

百草original: 2023-11-22 11:55:173983parcourir

Les méthodes de déduplication pandas sont : 1. Utilisez la méthode drop_duplicates() ; 2. Utilisez la méthode duplicated() ; 3. Utilisez la méthode unique() ; Introduction détaillée : 1. Utilisez la méthode drop_duplicates() pour supprimer les lignes en double dans le bloc de données et renvoyer un nouveau bloc de données. Elle peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, comme la spécification de l'ordre de conservation et de la déduplication après la comparaison du temps de déduplication. colonnes et ainsi de suite.

Le système d'exploitation de ce tutoriel : système Windows 10, ordinateur DELL G3.

Pandas est une puissante bibliothèque d'analyse de données Python qui fournit une variété de méthodes de suppression des doublons. Voici les méthodes courantes pour les opérations de déduplication à l'aide de Pandas :

1. Utilisez la méthode drop_duplicates()

La méthode drop_duplicates() est utilisée pour supprimer les lignes en double dans le bloc de données et renvoyer un nouveau bloc de données. Il peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, tels que la spécification de l'ordre de conservation après la déduplication, les colonnes de comparaison pendant la déduplication, etc.

Exemple de code :

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.drop_duplicates()  # 默认情况下，按行进行去重，返回新的数据框

2. Utilisez la méthode duplicated()

La méthode duplicated() est utilisée pour rechercher les lignes en double dans le bloc de données et renvoyer une série booléenne. Il peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, tels que la spécification de l'ordre de conservation après la déduplication, les colonnes de comparaison pendant la déduplication, etc.

Exemple de code :

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df[~df.duplicated()]  # 使用duplicated()方法查找重复的行，并使用逻辑非运算符返回不重复的行

3. Utilisez la méthode unique()

La méthode unique() est utilisée pour renvoyer toutes les valeurs uniques dans le bloc de données et renvoyer une liste ou un objet série. Il peut être utilisé pour dédupliquer une ou plusieurs colonnes.

Exemple de code :

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.apply(lambda x: pd.Series(x.unique()))  # 使用apply()方法对每一列进行去重，并返回一个Series对象

4. Utilisez la méthode value_counts()

value_counts() est utilisée pour compter le nombre d'occurrences de chaque valeur dans le bloc de données et renvoyer un objet Series. Il peut être utilisé pour dédupliquer une ou plusieurs colonnes.

Exemple de code :

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.groupby(df.columns.tolist()).size().reset_index(name=&#39;counts&#39;)  # 对整个数据框进行分组计数，并返回一个Series对象，然后使用reset_index()方法转换为数据框格式，方便查看每个值的出现次数

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python pandas 对象数据分析

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment augmenter la dimension de numpyArticle suivant：Comment augmenter la dimension de numpy

Articles Liés

Voir plus