Heim > Artikel > Backend-Entwicklung > Datenbereinigungstool: Praktische Tipps zum Löschen von Zeilendaten in Pandas
Datenbereinigung ist einer der wichtigen Aspekte der Datenanalyse. Oftmals enthalten die Daten ungültige oder falsche Datenzeilen, die durch Eingabefehler, Systemfehler oder andere Gründe verursacht werden können. Während des Datenanalyseprozesses müssen wir diese ungültigen Daten bereinigen, um die Genauigkeit der Analyseergebnisse sicherzustellen. Pandas ist ein leistungsstarkes Tool zur Datenverarbeitung und -analyse in Python. Es bietet eine Fülle von Funktionen und Methoden zur Datenverarbeitung. Es gibt einige praktische Fähigkeiten, die uns beim Löschen ungültiger Zeilendaten helfen können.
1. Zeilendaten mit fehlenden Werten löschen
In tatsächlichen Daten treten häufig fehlende Werte auf, das heißt, der Wert einiger Felder ist NaN (keine Zahl). Wenn wir diese Datenzeilen nicht verarbeiten, werden die nachfolgenden Analyseergebnisse ungenau sein. Pandas bietet die Methode dropna() zum Löschen von Zeilen mit fehlenden Werten.
Spezifisches Codebeispiel:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, None, 25, 30], 'Gender': ['M', 'M', None, 'M']} df = pd.DataFrame(data) # 删除含有缺失值的行数据 df.dropna(inplace=True) print(df)
Laufergebnis:
Name Age Gender 0 Tom 20.0 M
Im obigen Beispiel haben wir einen DataFrame mit fehlenden Werten erstellt und die Methode dropna() verwendet, um Zeilendaten mit fehlenden Werten zu löschen. Der Parameter inplace=True der dropna()-Methode bedeutet, den ursprünglichen DataFrame zu ändern, ohne einen neuen DataFrame zurückzugeben. In den laufenden Ergebnissen können wir sehen, dass die Zeilendaten mit fehlenden Werten gelöscht wurden.
2. Zeilendaten löschen, die die Bedingungen erfüllen
In manchen Fällen möchten wir möglicherweise nur Zeilendaten löschen, die bestimmte Bedingungen erfüllen. Pandas bietet eine Vielzahl von Methoden, um diese Anforderung zu erfüllen, z. B. die Verwendung boolescher Indizes, die Verwendung der query()-Methode usw. Im Folgenden sind zwei häufig verwendete Methoden aufgeführt.
(1) Verwendung eines booleschen Index
Wir können die Datenzeilen auswählen, die gelöscht werden müssen, indem wir einen booleschen Index erstellen. Das spezifische Codebeispiel lautet wie folgt:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用布尔索引删除满足条件的行数据 df = df[~(df['Age'] > 25)] print(df)
Laufergebnisse:
Name Age 0 Tom 20 1 Nick 25
Im obigen Beispiel haben wir einen DataFrame mit Altersdaten erstellt und einen booleschen Index verwendet, um Zeilendaten zu löschen, die die Bedingung „Alter größer als 25“ erfüllten. In den laufenden Ergebnissen können wir sehen, dass die Zeilendaten, die die Bedingungen erfüllen, gelöscht wurden.
(2) Verwenden Sie die query()-Methode.
pandas bietet die query()-Methode zum Filtern von Zeilendaten, die bestimmte Bedingungen erfüllen. Das spezifische Codebeispiel lautet wie folgt:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用query()方法删除满足条件的行数据 df = df.query('Age <= 25') print(df)
Ausführungsergebnisse:
Name Age 0 Tom 20 1 Nick 25
Im obigen Beispiel haben wir einen DataFrame mit Altersdaten erstellt und die Methode query() verwendet, um Datenzeilen zu löschen, die die Bedingung „Alter größer als“ erfüllen 25". In den laufenden Ergebnissen können wir sehen, dass die Zeilendaten, die die Bedingungen erfüllen, gelöscht wurden.
3. Zusammenfassung
Im Datenbereinigungsprozess stellt Pandas eine Fülle von Funktionen und Methoden zur Datenverarbeitung bereit, und die oben genannten Codebeispiele sind nur ein Teil davon. In praktischen Anwendungen können wir je nach bestimmten Umständen auch unterschiedliche Methoden zum Löschen von Zeilendaten anwenden. Bei der Verwendung dieser Methoden müssen wir die Struktur und Analyseanforderungen der Daten sorgfältig berücksichtigen, um die Genauigkeit und Wirksamkeit der Datenbereinigung sicherzustellen.
Das obige ist der detaillierte Inhalt vonDatenbereinigungstool: Praktische Tipps zum Löschen von Zeilendaten in Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!