Maison >Périphériques technologiques >IA >Fusionnant deux modèles sans aucun obstacle, la connexion linéaire de grands modèles ResNet ne prend que quelques secondes, inspirant de nouvelles recherches sur les réseaux neuronaux

Fusionnant deux modèles sans aucun obstacle, la connexion linéaire de grands modèles ResNet ne prend que quelques secondes, inspirant de nouvelles recherches sur les réseaux neuronaux

王林avant: 2023-04-09 15:41:031599parcourir

Le deep learning a pu réaliser de tels résultats grâce à sa capacité à résoudre des problèmes d'optimisation non convexes à grande échelle avec une relative facilité. Bien que l'optimisation non convexe soit NP-difficile, certains algorithmes simples, généralement des variantes de la descente de gradient stochastique (SGD), ont montré une efficacité surprenante pour adapter réellement de grands réseaux de neurones.

Dans cet article, plusieurs chercheurs de l'Université de Washington ont écrit "Git Re-Basin: Merging Models modulo Permutation Symmetries". Ils ont étudié l'efficacité déraisonnable de l'algorithme SGD sur les problèmes d'optimisation non convexes de grande dimension dans l'apprentissage profond. . Ils s'inspirent de trois questions :

1. Pourquoi SGD fonctionne bien dans l'optimisation de paysages de perte d'apprentissage profond non convexes de grande dimension, tout en étant robuste dans d'autres paramètres d'optimisation non convexes tels que l'apprentissage des politiques, l'optimisation de trajectoire et la recommandation. systèmes Diminution significative ?

2. Où est le minimum local ? Pourquoi la perte diminue-t-elle de manière douce et monotone lors d'une interpolation linéaire entre les poids d'initialisation et les poids d'entraînement finaux ?

3. Pourquoi deux modèles formés indépendamment avec un ordre d'initialisation aléatoire et de traitement par lots de données différents obtiennent-ils presque les mêmes performances ? De plus, pourquoi leurs courbes de perte d’entraînement se ressemblent-elles ? Variabilité, de sorte que différents entraînements montreront presque les mêmes performances.

Fusionnant deux modèles sans aucun obstacle, la connexion linéaire de grands modèles ResNet ne prend que quelques secondes, inspirant de nouvelles recherches sur les réseaux neuronaux Pourquoi cela se produit-il ? En 2019, Brea et al. ont remarqué que les unités cachées dans les réseaux de neurones présentaient une symétrie d'arrangement. En termes simples : nous pouvons échanger deux unités quelconques dans la couche cachée du réseau, et la fonctionnalité du réseau restera la même. Entezari et al. 2021 ont émis l'hypothèse que ces symétries de permutation pourraient nous permettre de connecter linéairement des points dans l'espace de poids sans compromettre les pertes.

Ci-dessous, nous utilisons un exemple de l'un des auteurs de l'article pour illustrer l'objectif principal de l'article, afin que tout le monde le comprenne plus clairement.

Supposons que vous ayez entraîné un modèle A et que votre ami ait entraîné un modèle B, les données d'entraînement des deux modèles peuvent être différentes. Ce n'est pas grave, grâce au Git Re-Basin proposé dans cet article, vous pouvez fusionner les deux modèles A+B dans l'espace poids sans nuire à la perte.

Les auteurs de l'article ont déclaré que Git Re-Basin peut être appliqué à n'importe quel réseau neuronal (NN). Ils ont démontré pour la première fois qu'il existe deux modèles formés indépendamment (pas de pré-entraînement). (ResNets), une connectivité linéaire sans obstacle est possible.

Ils ont découvert que la capacité de fusion est une propriété de la formation SGD, la fusion ne fonctionne pas à l'initialisation, mais un changement de phase se produit, donc la fusion deviendra possible avec le temps.