Heim > Artikel > Technologie-Peripheriegeräte > Eingehende Analyse des Konzepts der Regularisierung und seiner Bedeutung im maschinellen Lernen
Beim maschinellen Lernen ist die Regularisierung eine Technik, die verwendet wird, um eine Überanpassung eines Modells zu verhindern. Durch die Einführung eines Strafterms für die Koeffizienten des Modells kann die Regularisierung die Größe der Modellparameter begrenzen und dadurch die Generalisierungsfähigkeit des Modells verbessern. Diese Technik kann die Zuverlässigkeit, Geschwindigkeit und Genauigkeit des Modells verbessern. Die Regularisierung begrenzt im Wesentlichen die Komplexität des Modells durch das Hinzufügen zusätzlicher Parameter und verhindert so das Problem der Modellüberanpassung, die durch übermäßige Netzwerkparameter verursacht wird.
Der Zweck der Regularisierung besteht darin, die Varianz des Schätzers durch Vereinfachung des Schätzers zu verringern und dadurch die Generalisierungsfähigkeit des Modells zu verbessern. Durch die Regularisierung wird dieses Ziel jedoch auf eine Weise erreicht, die die Verzerrung erhöht. Typischerweise tritt die Zunahme der Verzerrung auf, wenn die Stichprobengröße klein oder die Anzahl der Parameter groß ist, d. h. wenn das Modell anfällig für Überanpassung ist. Wenn die Regularisierung jedoch richtig angewendet wird, stellt sie sicher, dass das richtige Maß an Voreingenommenheit eingeführt wird, wodurch das Problem der Überanpassung vermieden wird.
Die Rolle und Bedeutung der Regularisierung besteht darin, eine Überanpassung zu verhindern. Wenn eine Überanpassung auftritt, geht die Generalisierungsfähigkeit des Modells fast verloren. Das bedeutet, dass das Modell nur mit dem Trainingsdatensatz funktioniert und nicht mit anderen Datensätzen. Durch die Regularisierung kann die Größe der Modellparameter durch die Einführung von Straftermen begrenzt werden, wodurch die Komplexität des Modells verringert und seine Generalisierungsfähigkeit verbessert wird. Dadurch kann sich das Modell besser an neue Datensätze anpassen und seine Vorhersageleistung und Stabilität verbessern.
Regularisierung kann beispielsweise als Steuerung des Gleichgewichts zwischen Bias und Varianz durch Anpassen von Parameter a angesehen werden. Wenn der Wert von a höher ist, verringern sich die Koeffizienten des Modells, wodurch die Varianz verringert wird. Durch schrittweises Erhöhen von a kann die Varianz verringert und eine Überanpassung vermieden werden. Nach Überschreiten eines bestimmten Schwellenwerts wird jedoch eine Verzerrung eingeführt, die zu einer Unteranpassung führt.
Regularisierung funktioniert durch Hinzufügen eines Strafterms mit der Restquadratsumme (RSS) zu einem komplexen Modell. Nehmen Sie als Beispiel eine einfache lineare Regressionsgleichung. wobei Y das abhängige Merkmal oder die abhängige Antwort darstellt.
Y ist ungefähr β0+β1X1+β2X2+…+βpXp, X1, Schätzung, die die Größe des Gewichts beschreibt, das einem Feature zugeordnet ist.
Der Anpassungsprozess umfasst die Verlustfunktion und die RSS-Funktion (Residuensumme der Quadrate). Die Koeffizienten werden so gewählt, dass die Verlustfunktion minimiert wird.
Koeffizienten werden basierend auf Trainingsdaten angepasst. Wenn die Trainingsdaten Rauschen aufweisen, werden Sie feststellen, dass sich die geschätzten Koeffizienten nicht gut auf zukünftige Daten übertragen lassen. Hier kommt die Regularisierung ins Spiel, die die durch das Training erlernten Schätzungen verkleinert und auf Null reguliert.
dropout
Im Dropout trainieren die aktivierten Zufallszahlen das Netzwerk effektiver. Die Aktivierung ist die Ausgabe, die man erhält, wenn die Eingabe mit dem Gewicht multipliziert wird. Wenn bestimmte Teile der Aktivierungen auf jeder Ebene entfernt werden, lernen keine bestimmten Aktivierungen das Eingabemodell. Dies bedeutet, dass das Eingabemodell keiner Überanpassung unterliegt.
Batch-Normalisierung
Die Batch-Normalisierung schafft es, die Ausgabe der vorherigen Aktivierungsschicht zu normalisieren, indem der Batch-Mittelwert subtrahiert und durch die Batch-Standardabweichung dividiert wird. Es führt zwei trainierbare Parameter in jede Schicht ein, sodass die normalisierte Ausgabe mit Gamma und Beta multipliziert wird. Die Werte von Gamma und Beta werden über ein neuronales Netzwerk ermittelt. Durch die Abschwächung der Kopplung zwischen den Parametern der anfänglichen Schicht und den Parametern der nachfolgenden Schicht wird die Lernrate verbessert, die Genauigkeit verbessert und das Problem der Kovarianzdrift gelöst.
Datenerweiterung
Bei der Datenerweiterung werden vorhandene Daten zur Erstellung synthetischer Daten genutzt und so die tatsächlich verfügbare Datenmenge erhöht. Hilft Deep-Learning-Modellen dabei, genauer zu werden, indem Änderungen in den Daten generiert werden, denen das Modell in der realen Welt begegnen kann.
Frühes Stoppen
Verwenden Sie einen Teil des Trainingssatzes als Validierungssatz und messen Sie die Leistung des Modells anhand dieses Validierungssatzes. Wenn sich die Leistung dieses Validierungssatzes verschlechtert, wird das Training des Modells sofort gestoppt.
L1-Regularisierung
Ein Regressionsmodell, das die L1-Regularisierungstechnik verwendet, wird Lasso-Regression genannt. Das Lasso-Regressionsmodell, der Operator für kleinste absolute Schrumpfung und Auswahl, fügt den „absoluten Wert“ des Koeffizienten als Strafterm zur Verlustfunktion hinzu.
L2-Regularisierung
Das Regressionsmodell mit L2-Regularisierung wird Ridge-Regression genannt. Das Ridge-Regressionsmodell ist die Ridge-Regression. Bei der Ridge-Regression wird die quadratische Amplitude des Koeffizienten als Strafterm zur Verlustfunktion hinzugefügt.
Das obige ist der detaillierte Inhalt vonEingehende Analyse des Konzepts der Regularisierung und seiner Bedeutung im maschinellen Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!