Heim >Technologie-Peripheriegeräte >KI >Analysieren Sie univariate, bivariate und Multikollinearitätsprobleme beim maschinellen Lernen
Die univariate Datenanalyse ist eine einfache Art der Analyse, die mit nur einer Variablen arbeitet, die sich ändert. Es konzentriert sich hauptsächlich auf die Beschreibung und Mustererkennung von Daten und nicht auf Ursachen und Zusammenhänge. Da es sich bei Informationen um eine einzelne Variable handelt, handelt es sich um die einfachste Art der Analyse.
Univariate Analyse wird verwendet, um eine einzelne Variable/ein einzelnes Merkmal zu analysieren. Das Ziel besteht darin, die Daten zu erfassen, sie zu beschreiben und zusammenzufassen und dabei eventuell vorhandene Muster zu untersuchen. Die univariate Analyse untersucht jede Variable im Datensatz separat und kann sowohl kategoriale als auch numerische Variablen verwenden.
Messungen der zentralen Tendenz (Mittelwert, Median und Modus) und der Datenstreuung oder -verteilung (Bereich, Minimum, Maximum, Quartile, Varianz und Standardabweichung) können uns bei der Beschreibung dieser Art von Datenmodus helfen. Darüber hinaus können Tools wie Häufigkeitsverteilungstabellen, Histogramme, Kreisdiagramme, Häufigkeitspolygone und Balkendiagramme verwendet werden, um diese Muster zu veranschaulichen.
Bivariate Daten umfassen zwei Variablen. Die bivariate Analyse konzentriert sich auf Ursachen und Beziehungen mit dem Ziel, die Beziehung zwischen zwei Variablen zu bestimmen.
Vergleiche, Korrelationen, Ursachen und Erklärungen sind Teil der bivariaten Datenanalyse. Eine der Variablen ist unabhängig, während die andere abhängig ist. Diese Variablen werden zum besseren Verständnis der Daten häufig auf der X- und Y-Achse des Diagramms aufgetragen.
Multikollinearität (auch als Kollinearität bekannt) ist ein statistisches Phänomen, bei dem eine Merkmalsvariable in einem Regressionsmodell eine hohe lineare Korrelation mit einer anderen Merkmalsvariablen aufweist. Wenn zwei oder mehr Variablen perfekt korrelieren, spricht man von Kollinearität.
Wenn die unabhängigen Variablen stark korrelieren, führen Änderungen in einer Variablen zu Änderungen in anderen Variablen, wodurch die Modellergebnisse stark schwanken. Wenn sich die Daten oder das Modell geringfügig ändern, sind die Modellergebnisse instabil und schwanken stark. Multikollinearität kann zu folgenden Problemen führen:
Wenn das Modell jedes Mal unterschiedliche Ergebnisse liefert, wird es schwierig, die Liste wichtiger Variablen für das Modell zu ermitteln.
Die Koeffizientenschätzungen werden instabil sein, was die Interpretation des Modells erschwert. Mit anderen Worten: Wenn sich ein Prädiktor um eine Einheit ändert, gibt es keine Möglichkeit zu bestimmen, wie stark sich die Ausgabe ändern wird.
Aufgrund der Instabilität des Modells kann es zu einer Überanpassung kommen. Wenn das Modell auf einen anderen Datensatz angewendet wird, ist die Genauigkeit viel geringer als beim Trainingsdatensatz.
Wenn nur eine leichte oder mäßige Kollinearität auftritt, stellt dies je nach den Umständen möglicherweise kein Problem für das Modell dar. Wenn jedoch schwerwiegende Kollinearitätsprobleme vorliegen, wird empfohlen, das Problem zu beheben.
Das obige ist der detaillierte Inhalt vonAnalysieren Sie univariate, bivariate und Multikollinearitätsprobleme beim maschinellen Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!