Heim  >  Artikel  >  Prinzip des Gradientenabstiegs

Prinzip des Gradientenabstiegs

(*-*)浩
(*-*)浩Original
2019-07-09 13:36:097575Durchsuche

Die drei Elemente der Idee der Gradientenmethode: Startpunkt, Abstiegsrichtung und Abstiegsschrittgröße.

Prinzip des Gradientenabstiegs

Der beim maschinellen Lernen häufig verwendete Gewichtsaktualisierungsausdruck lautet (empfohlenes Lernen: Python-Video-Tutorial)

:, λ hier ist die Lernrate. Dieser Artikel beginnt mit dieser Formel, um die verschiedenen „Gradienten“-Abstiegsmethoden beim maschinellen Lernen klar zu erklären.

Zielfunktionen des maschinellen Lernens sind im Allgemeinen konvexe Funktionen. Was ist eine konvexe Funktion?

Aus Platzgründen werden wir nicht näher darauf eingehen. Hier werden wir eine anschauliche Metapher verwenden, um das Problem der konvexen Funktion zu lösen. Sie können sich die Zielverlustfunktion als einen Topf vorstellen, um den Boden des zu finden Pot. Die sehr intuitive Idee besteht darin, dass wir an einem bestimmten Anfangspunkt entlang der Gradientenrichtung der Funktion nach unten gehen (d. h. Gradientenabstieg). Lassen Sie uns hier eine weitere anschauliche Analogie ziehen. Wenn wir diese Bewegung mit einer Kraft vergleichen, dann sind die drei vollständigen Elemente Schrittlänge (wie viel bewegt werden soll), Richtung und Startpunkt. Diese anschauliche Metapher erleichtert uns die Lösung des Gradienten Fröhlich, der Ausgangspunkt ist sehr wichtig und der Schlüssel, der bei der Initialisierung berücksichtigt werden muss, und die Richtung und Schrittgröße sind der Schlüssel. Tatsächlich liegt der Unterschied zwischen verschiedenen Farbverläufen in diesen beiden Punkten!

Die Gradientenrichtung ist

Prinzip des Gradientenabstiegs

und die Schrittgröße ist auf ein konstantes Δ eingestellt. Dann finden Sie Wenn der Gradient groß ist, ist er weit von der optimalen Lösung entfernt und W wird schneller aktualisiert. Wenn der Gradient jedoch klein ist, dh wenn er näher an der optimalen Lösung liegt, wird W gleichzeitig aktualisiert Rate wie zuvor Dies führt dazu, dass W leicht überaktualisiert wird und sich von der optimalen Lösung entfernt, was dazu führt, dass es in der Nähe der optimalen Lösung hin und her schwankt. Da der Gradient also groß ist, wenn er weit von der optimalen Lösung entfernt ist, und klein, wenn er nahe an der optimalen Lösung liegt, lassen wir die Schrittlänge diesem Rhythmus folgen, also verwenden wir λ|W|, um Δ zu ersetzen, Schließlich erhalten wir The Formel, mit der wir vertraut sind:

Prinzip des Gradientenabstiegs

Das λ ändert sich zu diesem Zeitpunkt also mit der Steilheit und Sanftheit des Gefälles, obwohl es eine Konstante ist.

Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!

Das obige ist der detaillierte Inhalt vonPrinzip des Gradientenabstiegs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn