Heim >Backend-Entwicklung >Python-Tutorial >Wie kann ich Ausreißer in einem Pandas-DataFrame mithilfe von Standardabweichungen erkennen und ausschließen?
Ausreißer in einem Pandas-Datenrahmen mithilfe von Standardabweichungen erkennen und ausschließen
Ausreißer sind Datenpunkte, die erheblich vom Rest der Daten in einem abweichen Verteilung. Das Identifizieren und Ausschließen von Ausreißern kann die Datenanalyse verbessern, indem verzerrte oder verrauschte Beobachtungen entfernt werden. Pandas bietet mehrere Methoden zum Umgang mit Ausreißern, einschließlich der Verwendung von Standardabweichungen.
Um Zeilen mit Werten auszuschließen, die eine bestimmte Anzahl von Standardabweichungen vom Mittelwert überschreiten, können wir die Funktion scipy.stats.zscore verwenden. Diese Funktion berechnet den Z-Score für jeden Datenpunkt und stellt die Anzahl der Standardabweichungen dar, um die er vom Mittelwert abweicht.
import pandas as pd import numpy as np from scipy import stats # Create a sample dataframe df = pd.DataFrame({'Vol': [1200, 1230, 1250, 1210, 4000]}) # Calculate Z-score for the 'Vol' column zscores = stats.zscore(df['Vol']) # Exclude rows with Z-score greater than 3 filtered_df = df[np.abs(zscores) < 3]
Dieser Ansatz erkennt und schließt Ausreißer speziell in der Spalte „Vol“ aus. Für mehr Flexibilität können wir diesen Filter auf mehrere Spalten gleichzeitig anwenden:
# Calculate Z-scores for all columns zscores = stats.zscore(df) # Exclude rows with any column Z-score greater than 3 filtered_df = df[(np.abs(zscores) < 3).all(axis=1)]
Durch Anpassen des Schwellenwerts (in diesem Fall 3) können wir den Grad des Ausschlusses von Ausreißern steuern. Ein kleinerer Schwellenwert führt zu einer konservativeren Ausreißererkennung, während ein größerer Schwellenwert mehr potenzielle Ausreißer ausschließt.
Mit diesem Ansatz können wir Ausreißer effektiv identifizieren und entfernen, die die Analyse unseres Pandas DataFrame verzerren könnten.
Das obige ist der detaillierte Inhalt vonWie kann ich Ausreißer in einem Pandas-DataFrame mithilfe von Standardabweichungen erkennen und ausschließen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!