Heim >Backend-Entwicklung >Python-Tutorial >Vorstellung der effizienten Datendeduplizierungsmethode in Pandas: Tipps zum schnellen Entfernen doppelter Daten

Vorstellung der effizienten Datendeduplizierungsmethode in Pandas: Tipps zum schnellen Entfernen doppelter Daten

王林Original: 2024-01-24 08:12:061616Durchsuche

Die Pandas-Deduplizierungsmethode enthüllte: Eine schnelle und effiziente Datendeduplizierungsmethode erfordert spezifische Codebeispiele

Beim Prozess der Datenanalyse und -verarbeitung kommt es häufig zu Duplikaten in den Daten. Doppelte Daten können die Analyseergebnisse verfälschen, daher ist die Deduplizierung ein sehr wichtiger Schritt. Pandas, eine leistungsstarke Datenverarbeitungsbibliothek, bietet eine Vielzahl von Methoden zur Datendeduplizierung. In diesem Artikel werden einige häufig verwendete Deduplizierungsmethoden vorgestellt und spezifische Codebeispiele angehängt.

Basierend auf der Deduplizierung einzelner Spalten

Die häufigste Situation ist die Deduplizierung basierend darauf, ob der Wert einer bestimmten Spalte wiederholt wird. In Pandas können Sie die Methode .duplicated() verwenden, um zu bestimmen, ob die Werte einer Spalte dupliziert sind, und dann die Methode .drop_duplicates() zum Entfernen verwenden doppelte Werte. .duplicated()方法来判断某一列的值是否重复，然后使用.drop_duplicates()方法来去除重复值。

例如，我们有一个包含了学生信息的DataFrame，其中有一个列是学生的学号，我们希望根据学号去除重复的行：

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset='学号', inplace=True)
print(df)

运行结果：

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21

这样就去除了学号重复的行，只保留了第一次出现的行。

基于多列去重

有时候我们需要根据多个列的值是否重复来进行去重。在.drop_duplicates()方法中可以通过subset参数指定要根据哪些列进行去重。

例如，我们还是使用上面的学生信息的DataFrame，现在根据学号和姓名去除重复的行：

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset=['学号', '姓名'], inplace=True)
print(df)

运行结果：

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21

这样就根据学号和姓名同时去除了重复的行。

基于所有列去重

有时候我们希望根据整个DataFrame的所有列的值是否重复来进行去重。可以使用.duplicated()方法的keep参数设置为False，则会标记所有重复的行。然后使用.drop_duplicates()

Zum Beispiel haben wir einen DataFrame, der Studenteninformationen enthält, und eine der Spalten ist die Studentennummer. Wir hoffen, doppelte Zeilen basierend auf der Studentennummer zu entfernen:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(keep=False, inplace=True)
print(df)

Laufendes Ergebnis:

    学号  姓名  年龄
0  1001  张三  18
4  1004  赵六  21

Dadurch werden doppelte Studentennummern entfernt Bei Zeilen wird nur das erste Vorkommen der Zeile beibehalten.

Manchmal müssen wir basierend darauf deduplizieren, ob die Werte mehrerer Spalten wiederholt werden. In der Methode .drop_duplicates() können Sie mit dem Parameter subset angeben, welche Spalten für die Deduplizierung verwendet werden sollen.

Zum Beispiel verwenden wir immer noch den obigen DataFrame der Studenteninformationen und entfernen jetzt doppelte Zeilen basierend auf der Studenten-ID und dem Namen:

.duplicated()

keep

False

.drop_duplicates()

Das obige ist der detaillierte Inhalt vonVorstellung der effizienten Datendeduplizierungsmethode in Pandas: Tipps zum schnellen Entfernen doppelter Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

pandas 数据分析

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Erfahren Sie, wie Sie Pandas für die professionelle Datenbereinigung nutzenNächster Artikel：Erfahren Sie, wie Sie Pandas für die professionelle Datenbereinigung nutzen

In Verbindung stehende Artikel

Mehr sehen