Heim >Backend-Entwicklung >Python-Tutorial >Umgang mit Ausreißern in Python – IQR-Methode

Umgang mit Ausreißern in Python – IQR-Methode

Barbara Streisand
Barbara StreisandOriginal
2024-10-11 10:45:30671Durchsuche

Einführung

Bevor Sie Erkenntnisse aus realen Daten gewinnen, ist es wichtig, Ihre Daten zu prüfen, um sicherzustellen, dass die Daten konsistent und fehlerfrei sind. Allerdings können die Daten Fehler enthalten und einige Werte scheinen von anderen Werten abzuweichen. Diese Werte werden als Ausreißer bezeichnet. Ausreißer wirken sich negativ auf die Datenanalyse aus und führen zu falschen Erkenntnissen, die zu einer schlechten Entscheidungsfindung der Beteiligten führen. Daher ist der Umgang mit Ausreißern ein entscheidender Schritt in der Datenvorverarbeitungsphase in der Datenwissenschaft. In diesem Artikel werden wir verschiedene Möglichkeiten bewerten, wie wir mit Ausreißern umgehen können.

Ausreißer

Ausreißer sind Datenpunkte, die sich erheblich von der Mehrheit der Datenpunkte in einem Datensatz unterscheiden. Dabei handelt es sich um Werte, die außerhalb des erwarteten oder üblichen Wertebereichs für eine bestimmte Variable liegen. Ausreißer treten aus verschiedenen Gründen auf, z. B. Fehler bei der Dateneingabe oder Stichprobenfehler. Beim maschinellen Lernen können Ausreißer dazu führen, dass Ihre Modelle falsche Vorhersagen treffen und somit ungenaue Vorhersagen verursachen.

Ausreißer in einem Datensatz mithilfe des Jupyter-Notebooks erkennen

  • Python-Bibliotheken importieren
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')
  • Laden Sie Ihre CSV-Datei mit Pandas
df_house_price = pd.read_csv(r'C:\Users\Admin\Desktop\csv files\housePrice.csv')
  • Überprüfen Sie die ersten fünf Zeilen des Immobilienpreisdatensatzes, um einen Einblick in Ihren Datenbestand zu erhalten
df_house_price.head()

Handling Outliers in Python - IQR Method

  • Überprüfen Sie die Preisspalte mithilfe eines Boxplots auf Ausreißer
sns.boxplot(df_house_price['Price'])
plt.title('Box plot showing outliers in prices')
plt.show()

Handling Outliers in Python - IQR Method

  • Aus der Boxplot-Visualisierung weist die Preisspalte Ausreißerwerte auf
  • Jetzt müssen wir Möglichkeiten finden, mit diesen Ausreißern umzugehen, um eine bessere Entscheidungsfindung zu gewährleisten und sicherzustellen, dass Modelle für maschinelles Lernen die richtige Vorhersage treffen

IQR Methode zur Behandlung von Ausreißerwerten

  • IQR-Methode bedeutet, dass der Interquartilbereich die Streuung der mittleren Hälfte Ihrer Daten misst. Dies ist der Bereich für die mittleren 50 % Ihrer Stichprobe.

Schritte zum Entfernen von Ausreißern mithilfe des Interquartilbereichs

  • Berechnen Sie das erste Quartil (Q1), das 25 % der Daten ausmacht, und das dritte Quartil (Q3), das 75 % der Daten ausmacht.
Q1 = df_house_price['Price'].quantile(0.25)
Q3 = df_house_price['Price'].quantile(0.75)
  • Berechnen Sie den Interquartilbereich
IQR = Q3 - Q1
  • Bestimmen Sie die Ausreißergrenzen.
lower_bound = Q1 - 1.5 * IQR

Handling Outliers in Python - IQR Method

  • Untergrenze bedeutet, dass jeder Wert unter -5454375000,0 ein Ausreißer ist
upper_bound = Q3 + 1.5 * IQR

Handling Outliers in Python - IQR Method

  • Obergrenze bedeutet, dass jeder Wert über 12872625000,0 ein Ausreißer ist

  • Ausreißerwerte in der Preisspalte entfernen

filt = (df_house_price['Price'] >= lower_bound) & (df_house_price['Price'] <= upper_bound)

df = df_house_price[filt]
df.head()

Handling Outliers in Python - IQR Method

  • Boxplot Nach dem Entfernen von Ausreißern
sns.boxplot(df['Price'])
plt.title('Box plot after removing outliers')
plt.show()

Handling Outliers in Python - IQR Method

Verschiedene Methoden zum Umgang mit Ausreißerwerten

  • Z-Score-Methode
  • Perzentilkappung (Winsorisierung)
  • Trimmen (Trunkierung)
  • Zurechnung
  • Clustering-basierte Methoden, z. B. DBSCAN

Abschluss

Die IQR-Methode ist einfach und robust gegenüber Ausreißern und hängt nicht von der Normalitätsannahme ab. Der Nachteil besteht darin, dass es nur univariate Daten verarbeiten kann und gültige Datenpunkte entfernen kann, wenn die Daten verzerrt sind oder starke Enden aufweisen.

Danke
Folgen Sie mir auf LinkedIn und auf Github für mehr.

Das obige ist der detaillierte Inhalt vonUmgang mit Ausreißern in Python – IQR-Methode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn