Heim  >  Artikel  >  Backend-Entwicklung  >  Ihre Daten verstehen: Die Grundlagen der explorativen Datenanalyse

Ihre Daten verstehen: Die Grundlagen der explorativen Datenanalyse

WBOY
WBOYOriginal
2024-08-10 07:03:02540Durchsuche

Explorative Datenanalyse ist ein beliebter Ansatz, um Datensätze zu analysieren und Ihre Ergebnisse visuell darzustellen. Es trägt dazu bei, maximale Einblicke in den Datensatz und die Struktur zu erhalten. Dies identifiziert die explorative Datenanalyse als eine Technik zum Verständnis der verschiedenen Aspekte von Daten.
Um die Daten besser zu verstehen, muss sichergestellt werden, dass die Daten sauber sind und keine Redundanz, fehlende Werte oder sogar NULL-Werte aufweisen.

Arten der explorativen Datenanalyse

Es gibt drei Haupttypen:
Univariat: Hier betrachten Sie jeweils eine Variable (Spalte). Es hilft einem, mehr über die Natur der Variablen zu verstehen und wird als die einfachste Art von EDA bezeichnet.

Bivariat: Hier betrachtet man zwei Variablen zusammen. Es hilft einem, die Beziehung zwischen den Variablen A und B zu verstehen, unabhängig davon, ob sie unabhängig oder korreliert sind.

Multivariat: Dabei werden drei oder mehr Variablen gleichzeitig betrachtet. Es wird als „fortgeschrittene“ Bivariate identifiziert.

Methoden

Grafisch: Dabei geht es um die Untersuchung von Daten durch visuelle Darstellungen wie Grafiken und Diagramme. Zu den gängigen Visualisierungen gehören Boxplots, Balkendiagramme, Streudiagramme und Heatmaps.

Nicht grafisch: Dies erfolgt durch statistische Techniken. Zu den verwendeten Metriken gehören Mittelwert, Median, Modus, Standardabweichung und Perzentile.

Tools zur explorativen Datenanalyse

Zu den am häufigsten für EDA verwendeten Tools gehören
Python: Eine objektorientierte Programmiersprache, die verwendet wird, um vorhandene Komponenten zu verbinden und fehlende Werte zu identifizieren

R: Eine Open-Source-Programmiersprache, die im statistischen Rechnen verwendet wird

Schritte

  1. Verstehen Sie die Daten – Sehen Sie, mit welcher Art von Daten Sie arbeiten; Anzahl der Spalten, Zeilen und Datentypen.
  2. Bereinigen Sie die Daten – dazu gehört die Bearbeitung von Unregelmäßigkeiten wie fehlenden Werten, fehlenden Zeilen und NULL-Werten.
  3. Analyse – Analysieren Sie die Beziehung zwischen Variablen.

Beispiel-EDA mit Python

Der für dieses Beispiel verwendete Datensatz ist der Iris-Datensatz – hier verfügbar

  1. Laden Sie die Daten mithilfe der Pandas-Bibliothek.
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv']))
df.head()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Datentypen identifizieren df.info()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Saubere Daten, z.B. Überprüfung auf NULL-Werte df.isnull().sum()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Nicht-grafische Analyse der Daten, um variable Informationen zu erhalten df.describe()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Grafische Analyse zur Darstellung der Variablenkorrelation oder -unabhängigkeit
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ;
plt.show()

Understanding Your Data: The Essentials of Exploratory Data Analysis

Das obige ist der detaillierte Inhalt vonIhre Daten verstehen: Die Grundlagen der explorativen Datenanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:PyTorch-SpektrumNächster Artikel:PyTorch-Spektrum