Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Fünf häufig gestellte Fragen für Neulinge im maschinellen Lernen

Fünf häufig gestellte Fragen für Neulinge im maschinellen Lernen

王林
王林nach vorne
2023-04-12 17:34:141295Durchsuche

Fehlende Werte behandeln

Fünf häufig gestellte Fragen für Neulinge im maschinellen Lernen

Bei der Datenvorverarbeitung besteht der wichtigste Schritt darin, fehlende Daten zu verarbeiten, da das maschinelle Lernmodell NaN-Werte nicht akzeptiert ihren Beitrag. Es gibt viele Möglichkeiten, diese NaN-Werte einzugeben, aber wir müssen zunächst die Bedeutung fehlender Werte verstehen.

Eine sehr einfache Möglichkeit besteht darin, alle fehlenden Werte aus dem Datensatz für maschinelles Lernen zu entfernen. Überprüfen Sie jedoch vorher den Gesamtprozentsatz der NaN-Werte, die im Datensatz für maschinelles Lernen erscheinen. Wenn es weniger als 1 % beträgt, können wir alle fehlenden Werte entfernen, andernfalls müssen wir die Daten imputieren, indem wir andere Methoden wie zentrale Tendenzmessung, KNN-Imputer usw. wählen.

Wenn wir Zahlen in Features verwenden, verwenden wir Mittelwert oder Median. Der Mittelwert ist der Durchschnittswert, den wir berechnen können, indem wir alle Werte in einer Reihe summieren und dann durch ihren Betrag dividieren. Der Median stellt auch einen Durchschnitt dar. Der Median ordnet die Daten in der Reihenfolge ihrer Größe an, um eine Sequenz zu bilden, bei der es sich um die Daten in der Mitte der Sequenz handelt. Wenn einzelne Daten in einem Datensatz stark variieren, wird häufig der Median verwendet, um die zentrale Tendenz des Datensatzes zu beschreiben.

Wenn es eine schiefe Verteilung im Datensatz des maschinellen Lernens gibt, ist es oft besser, den Median als den Mittelwert zu verwenden.

Ausreißer/Ausreißer

Ausreißer sind Datenpunkte, die sich deutlich von anderen Beobachtungen unterscheiden. Manchmal können diese Ausreißer auch empfindlich sein. Bevor man sich mit Ausreißern befasst, wird empfohlen, den Datensatz für maschinelles Lernen zu untersuchen.

Zum Beispiel:

  • Ausreißer sind von großer Bedeutung bei der Vorhersage von Tiefenwerten basierend auf beobachteten Niederschlägen.
  • Ausreißer bei Immobilienpreisvorhersagen sind bedeutungslos.

Datenleckage

Was ist das Datenleckproblem in Modellen des maschinellen Lernens?

Datenlecks treten auf, wenn die Daten, die wir zum Trainieren von Modellen für maschinelles Lernen verwenden, Informationen enthalten, die das Modell für maschinelles Lernen vorherzusagen versucht. Dies führt nach der Bereitstellung des Modells zu unzuverlässigen Vorhersageergebnissen.

Dieses Problem kann durch die Datenstandardisierungs- oder Normalisierungsmethode verursacht werden. Weil die meisten von uns diese Methoden weiterhin verwenden, bevor sie die Daten in Trainings- und Testsätze aufteilen.

Wählen Sie das richtige Modell für maschinelles Lernen.

In Echtzeit habe ich das Gefühl, dass die unnötige Verwendung einiger komplexer Modelle für geschäftsorientierte Menschen zu Interpretationsproblemen führen kann. Beispielsweise ist eine lineare Regression einfacher zu interpretieren als ein neuronaler Netzwerkalgorithmus.

Das entsprechende Modell für maschinelles Lernen wird hauptsächlich basierend auf der Größe und Komplexität des Datensatzes ausgewählt. Wenn wir komplexe Probleme bearbeiten, können wir einige effiziente Modelle für maschinelles Lernen wie SVN, KNN und Random verwenden Wald usw. .

Meistens hilft uns die Datenexplorationsphase bei der Auswahl des entsprechenden Modells für maschinelles Lernen. Wenn die Daten in der Visualisierung linear trennbar sind, können wir die lineare Regression verwenden. Support-Vektor-Maschinen und KNN werden nützlich sein, wenn wir nichts über die Daten wissen.

Es gibt auch ein Problem der Modellinterpretierbarkeit. Beispielsweise ist die lineare Regression einfacher zu erklären als neuronale Netzwerkalgorithmen.

Validierungsmetriken

Metriken sind quantitative Maße von Modellprädiktoren und realen Daten. Wenn es sich bei der Frage um eine Regression handelt, sind die Schlüsselmetriken Genauigkeit (R2-Score), MAE (mittlerer absoluter Fehler) und RMSE (quadratischer Mittelfehler). Wenn es sich um ein Klassifizierungsproblem handelt, sind die Schlüsselindikatoren Präzision, Rückruf, F1score und Verwirrungsmatrix.


Das obige ist der detaillierte Inhalt vonFünf häufig gestellte Fragen für Neulinge im maschinellen Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen