Les trois éléments de l'idée de la méthode du gradient : le point de départ, la direction de la descente et la taille du pas de descente.
L'expression de mise à jour du poids couramment utilisée dans l'apprentissage automatique est (apprentissage recommandé : Tutoriel vidéo Python)
:, λ voici le taux d'apprentissage. Cet article part de cette formule pour expliquer clairement les différentes méthodes de descente "gradient" en apprentissage automatique.
Les fonctions objectives du Machine Learning sont généralement des fonctions convexes. Qu'est-ce qu'une fonction convexe ?
En raison du manque d'espace, nous n'entrerons pas dans les détails. Ici, nous utiliserons une métaphore vivante pour résoudre le problème de la fonction convexe. Vous pouvez imaginer la fonction de perte cible comme un pot pour trouver le fond de la. pot. L'idée très intuitive est que nous descendons dans la direction du gradient de la fonction à un certain point initial (c'est-à-dire la descente du gradient). Ici, faisons une autre analogie frappante. Si nous comparons ce mouvement à une force, alors les trois éléments complets sont la longueur du pas (la quantité de mouvement à déplacer), la direction et le point de départ. Cette métaphore vivante nous permet de résoudre plus facilement le gradient. Problème. Joyeux, le point de départ est très important et est la clé à prendre en compte lors de l'initialisation, et la direction et la taille du pas sont la clé. En fait, la différence entre les différents dégradés réside dans ces deux points !
La direction du dégradé est
, et la taille du pas est définie sur un Δ constant. que s'il est utilisé lorsque le gradient est grand, il est loin de la solution optimale, et W est mis à jour plus rapidement, cependant, lorsque le gradient est petit, c'est-à-dire lorsqu'il est plus proche de la solution optimale, W est mis à jour en même temps ; taux comme avant. Cela entraînera une sur-mise à jour facile de W et un éloignement de la solution optimale, puis une oscillation d'avant en arrière près de la solution optimale. Par conséquent, puisque le gradient est grand lorsqu’on s’éloigne de la solution optimale et petit lorsqu’on s’en rapproche, nous laissons la longueur du pas suivre ce rythme, nous utilisons donc λ|W| pour remplacer Δ, Finalement nous obtenons Le formule que nous connaissons :
Donc le λ à cet instant change avec la raideur et la douceur de la pente, même s'il s'agit d'une constante.
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!