Heim > Artikel > Backend-Entwicklung > Welche Methoden gibt es, um Duplikate in Pandas zu entfernen?
Die Pandas-Deduplizierungsmethoden sind: 1. Verwenden Sie die Methode „drop_duplicates()“ 2. Verwenden Sie die Methode „unique()“; Detaillierte Einführung: 1. Verwenden Sie die Methode drop_duplicates(), um doppelte Zeilen im Datenrahmen zu löschen und einen neuen Datenrahmen zurückzugeben. Sie kann Parameter festlegen, um die Durchführung der Deduplizierung zu steuern, z. B. die Angabe der Aufbewahrungsreihenfolge und der Deduplizierung nach dem Zeitvergleich Spalten und so weiter.
Das Betriebssystem dieses Tutorials: Windows 10-System, DELL G3-Computer.
Pandas ist eine leistungsstarke Python-Datenanalysebibliothek, die eine Vielzahl von Methoden zum Entfernen von Duplikaten bietet. Im Folgenden sind gängige Methoden für Deduplizierungsvorgänge mit Pandas aufgeführt:
1. Verwenden Sie die Methode drop_duplicates().
Die Methode drop_duplicates() wird verwendet, um doppelte Zeilen im Datenrahmen zu löschen und einen neuen Datenrahmen zurückzugeben. Es kann Parameter festlegen, um zu steuern, wie die Deduplizierung durchgeführt wird, z. B. die Angabe der Aufbewahrungsreihenfolge nach der Deduplizierung, Vergleichsspalten während der Deduplizierung usw.
Beispielcode:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.drop_duplicates() # 默认情况下,按行进行去重,返回新的数据框
2. Verwenden Sie die Methode „duplicated()“
Die Methode „duplicated()“ wird verwendet, um doppelte Zeilen im Datenrahmen zu finden und eine boolesche Reihe zurückzugeben. Es kann Parameter festlegen, um zu steuern, wie die Deduplizierung durchgeführt wird, z. B. die Angabe der Aufbewahrungsreihenfolge nach der Deduplizierung, Vergleichsspalten während der Deduplizierung usw.
Beispielcode:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df[~df.duplicated()] # 使用duplicated()方法查找重复的行,并使用逻辑非运算符返回不重复的行
3. Verwenden Sie die Methode „unique()“
unique() wird verwendet, um alle eindeutigen Werte im Datenrahmen zurückzugeben und ein Listen- oder Serienobjekt zurückzugeben. Es kann zum Deduplizieren einzelner oder mehrerer Spalten verwendet werden.
Beispielcode:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.apply(lambda x: pd.Series(x.unique())) # 使用apply()方法对每一列进行去重,并返回一个Series对象
4. Verwenden Sie die Methode value_counts().
Die Methode value_counts() wird verwendet, um die Anzahl der Vorkommen jedes Werts im Datenrahmen zu zählen und ein Serienobjekt zurückzugeben. Es kann zum Deduplizieren einzelner oder mehrerer Spalten verwendet werden.
Beispielcode:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 1, 2, 3], 'B': [4, 5, 6, 7, 8]}) df_unique = df.groupby(df.columns.tolist()).size().reset_index(name='counts') # 对整个数据框进行分组计数,并返回一个Series对象,然后使用reset_index()方法转换为数据框格式,方便查看每个值的出现次数
Das obige ist der detaillierte Inhalt vonWelche Methoden gibt es, um Duplikate in Pandas zu entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!