Maison  >  Article  >  développement back-end  >  Python déduplique les données en double multi-attributs

Python déduplique les données en double multi-attributs

不言
不言original
2018-04-18 15:29:532374parcourir

Ce qui suit est un exemple de déduplication Python de données en double multi-attributs. Il a une bonne valeur de référence et j'espère qu'il sera utile à tout le monde. Jetons un coup d'oeil ensemble

Les étapes pour dédupliquer les données en double dans le module pandas en python :

1) Utiliser la méthode dupliquée dans DataFrame Renvoie une série booléenne pour indiquer s'il y a des lignes en double dans chaque ligne. Aucune ligne en double n'est affichée comme FALSE et les lignes en double sont affichées comme TRUE

2) Utilisez ensuite la méthode drop_duplicates dans le DataFrame ; DataFrame supprimé avec des lignes répétées.

Remarque :

Si aucun paramètre n'est défini dans la méthode dupliquée et la méthode drop_duplicates, ces deux méthodes jugeront toutes par défaut If These. deux méthodes ajoutent des noms d'attributs spécifiés (ou des noms de colonnes), par exemple : frame.drop_duplicates(['state']), puis spécifient certaines colonnes (colonnes d'état) pour déterminer les doublons.

Des exemples spécifiques sont les suivants :

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>>


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn