Heim >Backend-Entwicklung >Python-Tutorial >Wie können Z-Scores dabei helfen, Ausreißer aus Pandas-DataFrames zu identifizieren und zu entfernen?
Erkennen und Ausschließen von Ausreißern in Pandas-DataFrames mithilfe von Z-Scores
Das Identifizieren und Entfernen von Ausreißern aus einem Pandas-DataFrame ist entscheidend für die Gewährleistung der Genauigkeit und Zuverlässigkeit der Datenanalyse. Um dies zu erreichen, besteht ein gängiger Ansatz darin, Z-Scores zu verwenden, die die Anzahl der Standardabweichungen eines Datenpunkts vom Mittelwert messen.
Die Implementierung dieses Ansatzes erfordert die Verwendung der Funktion scipy.stats.zscore. Hiermit werden Z-Scores für ein bestimmtes Datenarray berechnet. Durch Anwenden von Z-Scores auf jede Spalte in einem DataFrame wird es möglich, zu bestimmen, welche Zeilen Werte enthalten, die deutlich vom Mittelwert abweichen.
Zum Beispiel, um alle Zeilen auszuschließen, in denen eine bestimmte Spalte, wie z. B. „ Vol“ Ausreißer enthält, kann der folgende Ausdruck verwendet werden:
df[(np.abs(stats.zscore(df["Vol"])) < 3).all(axis=1)]
Dieser Ausdruck berechnet den absoluten Z-Score für jeden Wert in der Spalte „Vol“. Absolute Werte werden verwendet, um die Richtung der Abweichung vom Mittelwert außer Acht zu lassen. Das Ergebnis ist eine boolesche Maske, bei der „True“ Zeilen ohne Ausreißer angibt. Durch die Verwendung dieser Maske zum Indizieren des DataFrame werden Zeilen mit extremen „Vol“-Werten effektiv ausgeschlossen.
Wenn mehrere Spalten berücksichtigt werden müssen, kann die Syntax geändert werden, um Zeilen mit Ausreißern in jeder Spalte zu überprüfen:
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]
In diesem Fall berechnet (np.abs(stats.zscore(df)) < 3) die Z-Scores für alle Spalten und wendet die an 3 Standardabweichungsschwellenwert. Die Bedingung all(axis=1) wählt Zeilen aus, die die Kriterien für alle Spalten erfüllen.
Durch die Verwendung von Z-Scores und den bereitgestellten Ausdrücken wird es einfach, ausreißerische Datenpunkte herauszufiltern und so einen sauberen und zuverlässigen Datensatz sicherzustellen zur weiteren Analyse.
Das obige ist der detaillierte Inhalt vonWie können Z-Scores dabei helfen, Ausreißer aus Pandas-DataFrames zu identifizieren und zu entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!