Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Die Autoren dieses Artikels stammen alle aus dem Team von Associate Professor Huang Lei, School of Artificial Intelligence, Beihang University und National Key Laboratory of Complex Critical Software Umfeld. Der erste Autor, Ni Yunhao, ist ein Doktorand im ersten Jahr, der zweite Autor, Guo Yuxin, ist ein Doktorand im dritten Jahr und der dritte Autor, Jia Junlong, ist ein Doktorand im zweiten Jahr Außerordentlicher Professor Huang Lei (Homepage: https://huangleibuaa.github.io/)
Neuronale Netze bestehen normalerweise aus drei Teilen: linearer Schicht, nichtlinearer Schicht (Aktivierungsfunktion) und Normalisierungsschicht. Die lineare Schicht ist der Hauptort, an dem Netzwerkparameter vorhanden sind. Die nichtlineare Schicht verbessert die Ausdrucksfähigkeit des neuronalen Netzwerks, während die Normalisierungsschicht (Normalisierung) hauptsächlich zur Stabilisierung und Beschleunigung des neuronalen Netzwerktrainings verwendet wird Beispielsweise kann die Batch-Normalisierung als lineare Transformation in der Vorhersagephase betrachtet werden und führt nicht zu Nichtlinearität im Ausdruck. Daher glauben Forscher im Allgemeinen, dass die Normalisierung die Ausdrucksfähigkeit des Modells nicht verbessern kann. Der kürzlich auf der ICML2024 vom Team von Professor Huang Lei von der School of Artificial Intelligence der Beihang-Universität veröffentlichte Artikel „On the Nonlinearity of Layer Normalization“ wies jedoch darauf hin, dass die Schichtnormalisierung (Layer Normlization, LN) und ihre rechnerisch degradierte Version RMSNorm ist eine nichtlineare Ausdrucksfähigkeit, und die universelle Näherungsklassifizierungsfähigkeit von LN wird ausführlich besprochen.
- Papieradresse: https://arxiv.org/abs/2406.01255
Dieses Papier beweist mathematisch die Nichtlinearität von LN. Und es wird ein einfaches neuronales Netzwerk LN-Net vorgeschlagen, das nur lineare Schichten und LN enthält. Wenn es tief genug ist, können gegebene Proben und Probenkategorien theoretisch beliebig klassifiziert werden. Diese Entdeckung durchbricht die Trägheit der Menschen, die verschiedene Normalisierungen als lineare Transformationen ohne Anpassungsfähigkeiten betrachten, und die nichtlineare Schicht und die Normalisierungsschicht sind keine disjunkten neuronalen Netzwerkmodule mehr. Mit der weit verbreiteten Verwendung von Transformatoren ist LN als feste Komponente zu einer häufig verwendeten Technologie geworden. Diese Forschung könnte in Zukunft eine neue theoretische Grundlage für die Architektur neuronaler Netzwerke liefern ist von bahnbrechender Bedeutung. Mathematische Entdeckung der LN-NichtlinearitätFür die nichtlineare Forschung werden in dem Artikel nicht direkt die analytischen Eigenschaften von LN selbst erörtert, sondern die Beziehung zwischen LN und Daten auf praktischere Weise untersucht . Der Autor schlug zunächst die Statistik SSR (Sum of Squares Ratio) vor, um die lineare Trennbarkeit von Proben in zwei Kategorien zu beschreiben. Wenn eine Probe linear transformiert wird, ändert sich auch das SSR. Daher wird der minimale SSR, der der Stichprobe unter allen linearen Transformationen entspricht, als LSSR definiert. Der Artikel weist darauf hin, dass die lineare Trennbarkeit zwischen den Proben stärker ist, wenn das LSSR kleiner ist. Wenn jedoch die der Probe auferlegte lineare Änderung durch die Struktur „lineare Transformation-LN-lineare Transformation“ ersetzt wird, stellt sich heraus, dass das neue erhaltene SSR möglicherweise niedriger als das LSSR ist, was die Nichtlinearität bestätigt Ausdruck von LN – – Wenn LN linear ist, ist „lineare Transformation – LN – lineare Transformation“ ebenfalls linear, und der resultierende neue SSR kann nicht niedriger als der LSSR sein. Beliebige Trennbarkeit von LN bei KlassifizierungsproblemenZur weiteren Forschung teilt der Autor LN in zwei Schritte auf: Zentrierung und Skalierung. Die Zentralisierung ist mathematisch gesehen eine lineare Transformation, daher besteht die Nichtlinearität von LN hauptsächlich in der Skalenskalierungsoperation (im Artikel auch sphärische Projektion genannt, die von RMSNorm durchgeführte Operation). Der Autor nahm als Beispiel die einfachsten linear untrennbaren XOR-Daten und klassifizierte diese vier Punkte durch lineare Transformation und sphärische Projektion korrekt.
Generell schlägt der Autor einen Algorithmus zur korrekten Klassifizierung einer beliebigen Anzahl von Proben mithilfe von LN und linearen Schichten vor und untersucht dabei die universelle Näherungsfähigkeit von LN-Net. Durch die Konstruktion von Algorithmusschritten wird die schichtweise Transformation des neuronalen Netzwerks in ein ähnliches Problem der Probenzusammenführung umgewandelt, und das Problem der universellen ungefähren Klassifizierung wird in ein Problem der Probenzusammenführung umgewandelt, und es wird darauf hingewiesen - Für m Proben mit beliebiger Beschriftung ist es möglich, ein O(m)-Schicht-LN-Netz zu erstellen, um diese m Proben korrekt zu klassifizieren. Diese Konstruktionsmethode liefert auch neue Ideen zur Berechnung der VC-Dimension neuronaler Netze. Der Autor wies darauf hin, dass auf dieser Grundlage gefolgert werden kann, dass das LN-Netz mit L Normalisierungsschichten eine VC-Dimension von mindestens L+2 aufweist. Nichtlineare LN-Verbesserung und praktische AnwendungBasierend auf dem Nachweis der Nichtlinearität von LN schlug der Autor eine Gruppierungsschicht-Standardisierungstechnologie vor, um die Nichtlinearität von LN für praktische Anwendungen weiter zu verbessern. G). Der Autor sagt mathematisch voraus, dass die Gruppierung die Nichtlinearität von LN aus der Perspektive der Hessischen Matrix verstärken kann, und untersucht vorläufig die Ausdrucksfähigkeit von LN-G experimentell. Der Autor wies darauf hin, dass die Genauigkeit des CIFAR-10-Zufallsetiketten-Datensatzes für das übliche lineare Schichtmodell 20 % nicht überschreitet, während das neuronale Netzwerk aus linearer Schicht und LN-G (ohne) verwendet wird Durch die Einführung der herkömmlichen Aktivierungsfunktion als nichtlineare Einheit kann eine Genauigkeit von 55,85 % erreicht werden. Der Autor untersuchte den Klassifizierungseffekt von LN-G im Faltungs-Neuronalen Netzwerk ohne Aktivierungsfunktion weiter und bewies experimentell, dass dieses Neuronale Netzwerk ohne Aktivierungsfunktion tatsächlich über eine leistungsstarke Anpassungsfähigkeit verfügt. Darüber hinaus schlug der Autor eine LN-G-Position in Analogie zu MLP vor, bei der GN auf die gesamte Probe einwirkt (eine einzelne Probe in einen eindimensionalen Vektor streckt und dann GN durchführt). Durch die Verwendung der LN-G-Position-Methode im ResNet-Netzwerk ohne nichtlineare Schichten kann eine Genauigkeit von 86,66 % im CIFAR-10-Datensatz erreicht werden, was die leistungsstarke Ausdrucksfähigkeit von LN-G-Position widerspiegelt. Der Autor führte dann eine experimentelle Studie zu Transformer durch, bei der das ursprüngliche LN durch LN-G ersetzt wurde. Den experimentellen Ergebnissen zufolge wurde festgestellt, dass die Standardisierung der Gruppenschicht die Leistung des Transformer-Netzwerks effektiv verbessern kann, was beweist reale Netzwerke, diese Machbarkeit der Theorie. In der Arbeit „On the Nonlinearity of Layer Normalization“ bewies der Autor erstmals theoretisch die universelle Klassifizierungsfähigkeit eines Modells, das nur lineare Schichten und LN enthält und gegeben ist Eine spezifische Tiefe Die untere Grenze der VC-Dimension des Modells Die wichtigste Bedeutung besteht darin, dass die Analyse der Ausdrucksfähigkeit traditioneller tiefer neuronaler Netze einen großen Schritt in Richtung der weit verbreiteten modernen realen Netze gemacht hat. Dies könnte neue Ideen für die Zukunft liefern Ideen für das Design neuronaler Netzwerkstrukturen. Das obige ist der detaillierte Inhalt vonNeuronale Netze benötigen möglicherweise keine Aktivierungsfunktionen mehr? Die Ebenennormalisierung hat auch einen nichtlinearen Ausdruck!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn