Heim > Artikel > Technologie-Peripheriegeräte > Durch die Zusammenführung zweier Modelle ohne Hindernisse dauert die lineare Verbindung großer ResNet-Modelle nur Sekunden und inspiriert neue Forschungen zu neuronalen Netzen
Deep Learning hat solche Erfolge dank seiner Fähigkeit erzielt, große nichtkonvexe Optimierungsprobleme relativ einfach zu lösen. Obwohl die nicht-konvexe Optimierung NP-schwer ist, haben einige einfache Algorithmen, normalerweise Varianten des stochastischen Gradientenabstiegs (SGD), überraschende Wirksamkeit bei der tatsächlichen Anpassung großer neuronaler Netze gezeigt.
In diesem Artikel schrieben mehrere Wissenschaftler der University of Washington „Git Re-Basin: Merging Models modulo Permutation Symmetries“. Sie untersuchten den SGD-Algorithmus im Deep Learning. Unangemessene Wirksamkeit bei hochdimensionalen nichtkonvexen Optimierungsproblemen. Sie wurden von drei Fragen inspiriert:
1 Warum schneidet SGD bei der Optimierung hochdimensionaler, nicht-konvexer Deep-Learning-Verlustlandschaften gut ab, während in anderen nicht- Konvexe Optimierungseinstellungen. Beispielsweise wird die Robustheit von Richtlinienlern-, Trajektorienoptimierungs- und Empfehlungssystemen erheblich verringert?
2. Warum nimmt der Verlust gleichmäßig und monoton ab, wenn linear zwischen Initialisierungsgewichten und endgültigen Trainingsgewichten interpoliert wird?
3 Warum erzielen zwei unabhängig voneinander trainierte Modelle mit unterschiedlicher Zufallsinitialisierung und Datenstapelreihenfolge nahezu die gleiche Leistung? Warum sehen ihre Trainingsverlustkurven außerdem gleich aus? arxiv.org/pdf/2209.04836.pdf
In diesem Artikel wird davon ausgegangen, dass es beim Modelltraining eine gewisse Invarianz gibt, sodass es nahezu unterschiedliche Trainingsausstellungen gibt identische Leistung.Warum ist das so? Im Jahr 2019 stellten Brea et al. fest, dass versteckte Einheiten in neuronalen Netzen eine Anordnungssymmetrie aufweisen. Einfach ausgedrückt: Wir können zwei beliebige Einheiten in der verborgenen Schicht des Netzwerks austauschen, und die Netzwerkfunktionalität bleibt dieselbe. Entezari et al. 2021 spekulierten, dass diese Permutationssymmetrien es uns ermöglichen könnten, Punkte im Gewichtsraum linear zu verbinden, ohne Verluste zu beeinträchtigen.
Im Folgenden verwenden wir ein Beispiel von einem der Autoren des Artikels, um den Zweck des Artikels zu veranschaulichen, damit jeder es klarer versteht.
Angenommen, Sie haben ein A-Modell trainiert und Ihr Freund hat ein B-Modell trainiert. Die Trainingsdaten der beiden Modelle können unterschiedlich sein. Es spielt keine Rolle, mit dem in diesem Artikel vorgeschlagenen Git Re-Basin können Sie die beiden Modelle A + B im Gewichtsraum zusammenführen, ohne den Verlust zu beeinträchtigen.
Der Autor des Papiers gab an, dass Git Re-Basin sein kann Auf jedes neuronale Netzwerk (Network, NN) angewendet, demonstrierten sie erstmals eine barrierefreie lineare Konnektivität zwischen zwei unabhängig trainierten (ohne Vortraining) Modellen (ResNets).
Sie fanden heraus, dass die Zusammenführungsfähigkeit eine Eigenschaft des SGD-Trainings ist. Das Zusammenführen funktioniert nicht bei der Initialisierung, es treten jedoch Phasenänderungen auf, sodass das Zusammenführen mit der Zeit möglich wird. Sie fanden auch heraus, dass die Modellbreite eng mit der Zusammenführungsfähigkeit zusammenhängt, d. h. je breiter, desto besser.
Außerdem können nicht alle Architekturen zusammengeführt werden: VGG scheint es zu sein besser als ResNets Schwieriger zusammenzuführen.
Diese Zusammenführungsmethode hat weitere Vorteile: Sie können das Modell auf disjunkten und voreingenommenen Datensätzen trainieren und diese dann im Gewichtsraum zusammenführen. Beispielsweise liegen einige Daten in den USA und andere in der EU vor. Aus irgendeinem Grund können die Daten nicht gemischt werden. Sie können zunächst separate Modelle trainieren, dann die Gewichte zusammenführen und schließlich auf den zusammengeführten Datensatz verallgemeinern.
Daher können trainierte Modelle gemischt werden, ohne dass eine Vorschulung oder Feinabstimmung erforderlich ist. Der Autor äußerte, dass er daran interessiert sei, die zukünftige Entwicklungsrichtung der linearen Modusverbindung und des Modell-Patches zu kennen, die auf Bereiche wie föderiertes Lernen, verteiltes Training und Deep-Learning-Optimierung angewendet werden könnten.
Abschließend wird auch erwähnt, dass die Ausführung des Gewichtsanpassungsalgorithmus in Kapitel 3.2 nur etwa 10 Sekunden dauert, was viel Zeit spart. In Kapitel 3 des Papiers werden außerdem drei Methoden zum Anpassen von Modell-A- und Modell-B-Einheiten vorgestellt. Freunde, die sich über den Matching-Algorithmus nicht im Klaren sind, können das Originalpapier überprüfen.
Dieses Papier löste eine hitzige Diskussion auf Twitter aus, sagte Soumith Chintala, Mitbegründer von PyTorch, wenn Je mehr Forschung auf einen größeren Kontext übertragen werden kann, desto besser kann die Richtung sein, in die sie gehen kann. Das Zusammenführen zweier Modelle (einschließlich Gewichtungen) kann die ML-Modellentwicklung erweitern und möglicherweise eine große Rolle bei der gemeinsamen Entwicklung von Modellen unter Open Source spielen.
Andere glauben, dass, wenn Permutationsinvarianz die meisten Äquivalenzen so effizient erfassen kann, neuronale theoretische Forschung zu Netzwerken bereitgestellt wird Inspiration.
Samuel Ainsworth, der Erstautor des Artikels und ebenfalls Ph.D beantwortete einige von Internetnutzern gestellte Fragen.
Zuerst fragte jemand: „Gibt es in dem Artikel irgendwelche Tipps zum Anvisieren einzigartiger Becken im Training? Wenn es eine Möglichkeit gibt, die Permutation zu abstrahieren, dann ist Training The Geschwindigkeit kann schneller sein. Er hofft wirklich, irgendwie schneller trainieren zu können, aber bisher hat es sich als sehr schwierig erwiesen. Das Problem besteht darin, dass SGD im Wesentlichen eine lokale Suche ist und es daher nicht so einfach ist, Geometrie höherer Ordnung auszunutzen. Vielleicht ist verteiltes Training der richtige Weg.
Einige Leute fragen auch, ob es auf RNN und Transformers anwendbar ist? Ainsworth sagt, dass es im Prinzip funktioniert, aber er hat noch nicht damit experimentiert. Die Zeit wird es zeigen.
Schließlich schlug jemand vor: „Das sieht gut aus für verteiltes Training.“ „Ist es sehr wichtig, dass es wahr wird? Verwendet DDPM (Denoising Diffusion Probability Model) nicht ResNet-Restblöcke, aber es wäre sehr aufregend, es für verteiltes Training zu verwenden?“
Das obige ist der detaillierte Inhalt vonDurch die Zusammenführung zweier Modelle ohne Hindernisse dauert die lineare Verbindung großer ResNet-Modelle nur Sekunden und inspiriert neue Forschungen zu neuronalen Netzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!