Maison >développement back-end >Tutoriel Python >Comment supprimer efficacement les lignes en double basées sur des indices dans Pandas ?
Suppression des lignes Pandas avec des index en double
Dans les scénarios d'analyse de données, des index en double peuvent survenir, ce qui nécessite une suppression efficace de ces lignes . Cet article explore les solutions à ce problème à l'aide de la bibliothèque Pandas, largement utilisée.
Approche de Pandas en matière de suppression des doublons
Pandas propose plusieurs méthodes pour supprimer les lignes en double en fonction des valeurs d'index. :
Comparaison des performances
La complexité temporelle de chaque méthode varie en fonction de la taille et la complexité du DataFrame. Analyse comparative de ces méthodes à l'aide d'un exemple de DataFrame :
Exemple de démonstration
Pour illustrer l'utilisation de la méthode dupliquée, considérons l'exemple DataFrame df3 avec des valeurs d'index en double :
import pandas as pd import datetime # Example DataFrame with duplicate indices startdate = datetime.datetime(2001, 1, 1, 0, 0) enddate = datetime.datetime(2001, 1, 1, 5, 0) index = pd.date_range(start=startdate, end=enddate, freq='H') data1 = {'A' : range(6), 'B' : range(6)} data2 = {'A' : [20, -30, 40], 'B' : [-50, 60, -70]} df1 = pd.DataFrame(data=data1, index=index) df2 = pd.DataFrame(data=data2, index=index[:3]) df3 = df2.append(df1) print(df3) # Remove duplicate rows with duplicate indices df3 = df3[~df3.index.duplicated(keep='first')] print(df3)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!