Maison >développement back-end >Tutoriel Python >Quelles sont les méthodes pour supprimer les doublons chez les pandas ?
Les méthodes de déduplication pandas sont : 1. Utilisez la méthode drop_duplicates() ; 2. Utilisez la méthode duplicated() ; 3. Utilisez la méthode unique() ; Introduction détaillée : 1. Utilisez la méthode drop_duplicates() pour supprimer les lignes en double dans le bloc de données et renvoyer un nouveau bloc de données. Elle peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, comme la spécification de l'ordre de conservation et de la déduplication après la comparaison du temps de déduplication. colonnes et ainsi de suite.
Le système d'exploitation de ce tutoriel : système Windows 10, ordinateur DELL G3.
Pandas est une puissante bibliothèque d'analyse de données Python qui fournit une variété de méthodes de suppression des doublons. Voici les méthodes courantes pour les opérations de déduplication à l'aide de Pandas :
1. Utilisez la méthode drop_duplicates()
La méthode drop_duplicates() est utilisée pour supprimer les lignes en double dans le bloc de données et renvoyer un nouveau bloc de données. Il peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, tels que la spécification de l'ordre de conservation après la déduplication, les colonnes de comparaison pendant la déduplication, etc.
Exemple de code :
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.drop_duplicates() # 默认情况下,按行进行去重,返回新的数据框
2. Utilisez la méthode duplicated()
La méthode duplicated() est utilisée pour rechercher les lignes en double dans le bloc de données et renvoyer une série booléenne. Il peut définir des paramètres pour contrôler la manière d'effectuer la déduplication, tels que la spécification de l'ordre de conservation après la déduplication, les colonnes de comparaison pendant la déduplication, etc.
Exemple de code :
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df[~df.duplicated()] # 使用duplicated()方法查找重复的行,并使用逻辑非运算符返回不重复的行
3. Utilisez la méthode unique()
La méthode unique() est utilisée pour renvoyer toutes les valeurs uniques dans le bloc de données et renvoyer une liste ou un objet série. Il peut être utilisé pour dédupliquer une ou plusieurs colonnes.
Exemple de code :
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.apply(lambda x: pd.Series(x.unique())) # 使用apply()方法对每一列进行去重,并返回一个Series对象
4. Utilisez la méthode value_counts()
value_counts() est utilisée pour compter le nombre d'occurrences de chaque valeur dans le bloc de données et renvoyer un objet Series. Il peut être utilisé pour dédupliquer une ou plusieurs colonnes.
Exemple de code :
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.groupby(df.columns.tolist()).size().reset_index(name='counts') # 对整个数据框进行分组计数,并返回一个Series对象,然后使用reset_index()方法转换为数据框格式,方便查看每个值的出现次数
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!