Maison >Périphériques technologiques >IA >Théorie et techniques de mise à jour du poids dans les réseaux de neurones

Théorie et techniques de mise à jour du poids dans les réseaux de neurones

WBOYavant: 2024-01-22 20:06:111010parcourir

La mise à jour du poids dans le réseau neuronal consiste à ajuster les poids de connexion entre les neurones du réseau via des méthodes telles que l'algorithme de rétro-propagation pour améliorer les performances du réseau. Cet article présentera le concept et la méthode de mise à jour du poids pour aider les lecteurs à mieux comprendre le processus de formation des réseaux neuronaux.

1. Concept

Les poids dans les réseaux de neurones sont des paramètres qui connectent différents neurones et déterminent la force de transmission du signal. Chaque neurone reçoit le signal de la couche précédente, le multiplie par le poids de la connexion, ajoute un terme de biais et est finalement activé via la fonction d'activation et transmis à la couche suivante. Par conséquent, la taille du poids affecte directement la force et la direction du signal, ce qui à son tour affecte la sortie du réseau neuronal.

Le but de la mise à jour du poids est d'optimiser les performances du réseau neuronal. Pendant le processus d'entraînement, le réseau neuronal s'adapte aux données d'entraînement en ajustant continuellement les poids entre les neurones pour améliorer la capacité de prédiction des données de test. En ajustant les poids, le réseau neuronal peut mieux s'adapter aux données d'entraînement, améliorant ainsi la précision des prédictions. De cette manière, le réseau neuronal peut prédire avec plus de précision les résultats des données inconnues et obtenir de meilleures performances.

2. Méthode

Les méthodes de mise à jour de poids couramment utilisées dans les réseaux de neurones incluent la descente de gradient, la descente de gradient stochastique et la descente de gradient par lots.

Méthode de descente de gradient

La méthode de descente de gradient est l'une des méthodes de mise à jour du poids les plus élémentaires. Son idée de base est de mettre à jour le poids en calculant le gradient de la fonction de perte par rapport au poids (c'est-à-dire la dérivée de. la fonction de perte au poids), de manière à minimiser la fonction de perte. Plus précisément, les étapes de la méthode de descente de gradient sont les suivantes :

Tout d'abord, nous devons définir une fonction de perte pour mesurer les performances du réseau neuronal sur les données d'entraînement. Habituellement, nous choisirons l'erreur quadratique moyenne (MSE) comme fonction de perte, qui est définie comme suit :

MSE=frac{1}{n}sum_{i=1}^{n}(y_i-hat {y_i })^2

où y_i représente la vraie valeur du i-ème échantillon, hat{y_i} représente la valeur prédite du i-ème échantillon par le réseau neuronal et n représente le nombre total de des échantillons.

Ensuite, nous devons calculer la dérivée de la fonction de perte par rapport au poids, c'est-à-dire le gradient. Plus précisément, pour chaque poids w_{ij} dans le réseau neuronal, son gradient peut être calculé par la formule suivante :

frac{partial MSE}{partial w_{ij}}=frac{2}{n}sum_ { k=1}^{n}(y_k-hat{y_k})cdot f'(sum_{j=1}^{m}w_{ij}x_{kj})cdot x_{ki}

où , n représente le nombre total d'échantillons, m représente la taille de la couche d'entrée du réseau neuronal, x_{kj} représente la j-ème fonctionnalité d'entrée du k-ème échantillon, f(cdot) représente la fonction d'activation et f'( cdot) représente la dérivée de la fonction d'activation.

Enfin, nous pouvons mettre à jour les poids grâce à la formule suivante :

w_{ij}=w_{ij}-alphacdotfrac{partial MSE}{partial w_{ij}}

où, alpha représente Taux d'apprentissage, contrôle la taille de l'étape de mise à jour du poids.

Méthode de descente de gradient stochastique

La méthode de descente de gradient stochastique est une variante de la méthode de descente de gradient son idée de base est de sélectionner au hasard un échantillon à chaque fois pour calculer le gradient et mettre à jour les poids. Par rapport à la méthode de descente de gradient, la méthode de descente de gradient stochastique peut converger plus rapidement et être plus efficace lors du traitement d'ensembles de données à grande échelle. Plus précisément, les étapes de la méthode de descente de gradient stochastique sont les suivantes :

Tout d'abord, nous devons mélanger les données d'entraînement et sélectionner au hasard un échantillon x_k pour calculer le gradient. Ensuite, on peut calculer la dérivée de la fonction de perte par rapport au poids par la formule suivante :

frac{partial MSE}{partial w_{ij}}=2(y_k-hat{y_k})cdot f' (sum_{j= 1}^{m}w_{ij}x_{kj})cdot x_{ki}

où, y_k représente la vraie valeur du k-ième échantillon, et hat{y_k} représente le prédiction du k-ième échantillon par la valeur du réseau neuronal.

Enfin, nous pouvons mettre à jour les poids grâce à la formule suivante :

w_{ij}=w_{ij}-alphacdotfrac{partial MSE}{partial w_{ij}}

où, alpha représente Taux d'apprentissage, contrôle la taille de l'étape de mise à jour du poids.

Méthode de descente de gradient par lots

La méthode de descente de gradient par lots est une autre variante de la méthode de descente de gradient. Son idée de base est d'utiliser un petit lot d'échantillons à chaque fois pour calculer le gradient et mettre à jour les poids. Par rapport à la méthode de descente de gradient et à la méthode de descente de gradient stochastique, la méthode de descente de gradient par lots peut converger de manière plus stable et est plus efficace lors du traitement d'ensembles de données à petite échelle. Plus précisément, les étapes de la méthode de descente de gradient par lots sont les suivantes :

Tout d'abord, nous devons diviser les données d'entraînement en plusieurs mini-lots de taille égale, chaque mini-lot contient b échantillons. Nous pouvons ensuite calculer le gradient moyen de la fonction de perte par rapport aux poids sur chaque mini-lot, qui est :

frac{1}{b}sum_{k=1}^{b}frac{partial MSE}{ partial w_ {ij}}

où b représente la taille du mini-lot. Enfin, nous pouvons mettre à jour les poids par la formule suivante :

w_{ij}=w_{ij}-alphacdotfrac{1}{b}sum_{k=1}^{b}frac{partial MSE}{partial w_ {ij}}

Parmi eux, alpha représente le taux d'apprentissage, qui contrôle la taille du pas de mise à jour du poids.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

算法

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Une plongée approfondie dans le concept de réduction de dimensionnalité dans l'apprentissage automatique : qu'est-ce que la réduction de dimensionnalité ?Article suivant：Une plongée approfondie dans le concept de réduction de dimensionnalité dans l'apprentissage automatique : qu'est-ce que la réduction de dimensionnalité ?

Articles Liés

Voir plus