Heim >Technologie-Peripheriegeräte >KI >ICML 2024 |. Merkmalsverschmutzung: Neuronale Netze lernen irrelevante Merkmale und können nicht verallgemeinern

ICML 2024 |. Merkmalsverschmutzung: Neuronale Netze lernen irrelevante Merkmale und können nicht verallgemeinern

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-06-24 14:17:11928Durchsuche

🔜 /github.com/trzhang0116/feature-contamination

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Mit dem großen Erfolg der von GPT in den letzten Jahren vertretenen großen Modelle hat das maschinelle Lernparadigma der tiefen neuronalen Netze + SGD + Skalierung erneut seine Dominanz im Bereich des KI-Status unter Beweis gestellt . Warum sind Paradigmen, die auf tiefen neuronalen Netzen basieren, erfolgreich? Die verbreitetere Ansicht ist, dass neuronale Netze die Fähigkeit besitzen, abstrakte und verallgemeinerbare Merkmale automatisch aus massiven hochdimensionalen Eingabedaten zu lernen. Leider ist unser derzeitiges Verständnis darüber, „wie (tiefe) neuronale Netze einen solchen

-Prozess implementieren“ aufgrund der Unzulänglichkeiten aktueller Analysemethoden und mathematischer Werkzeuge immer noch nicht sehr tiefgreifend. Aus diesem Grund bleibt der Großteil der aktuellen relevanten Forschung in der akademischen Gemeinschaft immer noch auf der Ebene der „Erklärung“ der Merkmale, die das Modell gelernt hat, und es ist schwierig, durch „Intervention“ in dateneffizientere und besser verallgemeinerbare Modelle zu gelangen sein Lernprozess. Wenn wir den Feature-Learning-Prozess neuronaler Netze diskutieren, ist eine der grundlegendsten Fragen: Welche Features wird das neuronale Netzwerk aus den Eingabedaten lernen? Aus zielgerichteter Sicht ist das Merkmalslernen neuronaler Netze ein „Nebenprodukt“, das von Aufgaben gesteuert wird und dessen Zweck darin besteht, Trainingsfehler zu minimieren. Daher würden wir intuitiv denken, dass das neuronale Netzwerk „aufgabenrelevante“ Merkmale aus den Daten extrahieren sollte, während die verbleibenden „aufgabenirrelevanten“ Merkmale dem Datenrauschen entsprechen. Da neuronale Netze die Eigenschaft haben, „nicht zu lernen, es sei denn, es ist notwendig“ (genauer: Einfachheitsfehler), sollten neuronale Netze dazu neigen, sie nicht zu lernen. Dies ist auch eine gängige Ansicht in der aktuellen Literatur.
In unserer jüngsten, vom ICML 2024 angenommenen Arbeit haben wir jedoch festgestellt, dass diese intuitive Wahrnehmung tatsächlich falsch ist! Insbesondere haben wir festgestellt, dass nichtlineare neuronale Netze, wenn sie aufgabenbezogene Merkmale lernen, auch dazu neigen, aufgabenunabhängige Merkmale zu lernen (wir nennen es „Merkmalsverschmutzung“), und diese Tendenz führt zu neuronalen. Es ist schwierig Netzwerk zur Verallgemeinerung auf Szenarien mit Verteilungsverschiebung. Theoretisch haben wir bewiesen, dass eine Merkmalskontamination sogar in einem einfachen zweischichtigen ReLU-Netzwerk auftritt und eng mit der Kategorieasymmetrie der
in neuronalen Netzen zusammenhängt Netzwerke wie ResNet und Vision Transformer und wirken sich negativ auf deren Verallgemeinerung aus. Es ist erwähnenswert, dass der von uns entdeckte Fehlermodus völlig orthogonal zur Mainstream-Analyse ist, die auf falschen Korrelationen in der aktuellen Out-of-Distribution (OOD)-Generalisierungsliteratur basiert. Aus einer größeren Perspektive zeigen unsere Ergebnisse daher die Bedeutung der induktiven Vorspannung des neuronalen Netzwerks selbst für die OOD-Generalisierung. Es zeigt auch, dass viele unserer Studien zum Lernen und zur Generalisierung neuronaler Netzwerkmerkmale intuitiv waren und möglicherweise auch überdacht werden müssen.

Als nächstes stellen wir den spezifischen Inhalt des Artikels vor:

Forschungshintergrund

Die Generalisierungsfähigkeit in Szenarien, in denen sich die Datenverteilung ändert (d. h. die OOD-Generalisierungsfähigkeit) ist ein Maß dafür, ob ein maschinelles Lernsystem eine Leistung erbringen kann Realität Einer der Schlüsselindikatoren für den Einsatz in der Umwelt. Allerdings erleiden aktuelle neuronale Netze in OOD-Generalisierungsszenarien häufig erhebliche Leistungseinbußen. In Bezug auf den Grund, warum die OOD-Generalisierung fehlschlägt, lautet die gängigere Aussage in der Literatur, dass in der Darstellung falsche Korrelationen bestehen, das heißt, das Modell lernt Merkmale, die mit dem Aufgabenziel in Zusammenhang stehen, aber keinen kausalen Zusammenhang haben. Wenn sich daher die Korrelation zwischen diesen Merkmalen und Aufgabenzielen aufgrund von Verteilungsverschiebungen ändert, können Modelle, die sich zur Vorhersage auf diese Merkmale stützen, nicht die ursprüngliche Leistung garantieren.

Die obige theoretische Erklärung ist recht intuitiv und natürlich und hat sich in den letzten Jahren auch zur Hauptrichtung der OOD-Algorithmusforschung entwickelt, d. h. durch die Gestaltung besserer Optimierungszielfunktionen und regulärer Terme kann das Modell bessere Darstellungen ohne falsche Korrelationen lernen. Um eine stärkere Generalisierungsleistung zu erzielen. In den letzten Jahren wurde in dieser Hauptrichtung viel daran gearbeitet, die OOD-Verallgemeinerung des Modells durch Algorithmendesign zu verbessern. Neuere Arbeiten zeigen jedoch, dass viele Algorithmen mit integrierten theoretischen Garantien nur eine sehr begrenzte Leistungsverbesserung bei OOD-Generalisierungsaufgaben auf der Grundlage realer Daten erzielen.

Warum passiert das? Wir glauben, dass die aktuellen Schwierigkeiten in der OOD-Generalisierungsforschung auf zwei Einschränkungen bestehender Analysen zurückzuführen sein könnten:

Der Großteil der bestehenden Forschung berücksichtigt nur den Fehlermodus, der durch falsche Korrelation verursacht wird.
Der Großteil der aktuellen Forschung beschränkt sich auf lineare Modelle und berücksichtigt nicht die Nichtlinearität neuronaler Netze und die induktive Verzerrung von SGD, so die Ergebnisse der vorhandenen Analyse sind nicht unbedingt für das neuronale Netzwerk geeignet, das wir tatsächlich verwenden.

Mit anderen Worten: Aktuelle Erklärungen und theoretische Modelle der OOD-Verallgemeinerung spiegeln möglicherweise nicht genau reale Verteilungsverschiebungsszenarien wider. Daher glauben wir, dass die Berücksichtigung der induktiven Vorspannung neuronaler Netze und SGD unbedingt erforderlich ist, um die Verallgemeinerung von OOD basierend auf tiefen neuronalen Netzen zu verstehen.

Experiment

Zuerst versuchen wir, die „Leistungsobergrenze“ abzuschätzen, die durch den aktuellen OOD-Generalisierungsalgorithmus erreicht werden kann, der auf der Grundlage von Repräsentationslernzielen durch experimentelles Design entwickelt wurde. Unter der Anleitung der Scheinkorrelationstheorie versuchen bestehende Arbeiten hauptsächlich, das Modell auf das Erlernen von Darstellungen zu beschränken, die durch OOD verallgemeinert werden können, indem Hilfslernzielfunktionen für Darstellungen entworfen werden. Um zu untersuchen, ob die Optimierung eines solchen Ziels tatsächlich die gewünschte Darstellung extrahieren kann, haben wir ein idealisiertes Szenario entworfen:

Zuerst haben wir während des Trainingsprozesses zugelassen, dass das Modell explizit an ein Lehrermodell angepasst wird, das durch OOD verallgemeinert werden kann extrahierte Darstellung ist Darstellungsdestillation. In Experimenten kann dieses Lehrermodell ein groß angelegtes vorab trainiertes Modell sein (z. B. CLIP). Um Variablen zu steuern, steuern wir im tatsächlichen Betrieb die Modellstruktur des Schülermodells und des Lehrermodells so, dass sie genau gleich sind.
Im zweiten Schritt trainieren wir lineare Klassifikatoren (lineares Sondieren) auf dem Trainingssatz basierend auf den Darstellungen, die vom Lehrermodell bzw. Schülermodell bereitgestellt werden. ,
Abschließend haben wir die linearen Klassifikatoren basierend auf dem Lehrermodell und dem Schülermodell auf dem identisch verteilten Testsatz bzw. dem OOD-Testsatz getestet, um die OOD-Verallgemeinerung der von diesen beiden Modellen extrahierten Darstellungen zu messen.

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Die Versuchsergebnisse sind im Bild oben dargestellt. Aus der Abbildung haben wir zwei Hauptergebnisse:

Im Vergleich zum Standardmodell (blau), das sich während des Trainingsprozesses nicht direkt an die Darstellung des Lehrermodells anpasst, weist der auf dem Schülermodell basierende lineare Klassifikator (orange) tatsächlich eine bessere OOD-Generalisierbarkeit auf ;
Allerdings liegt die OOD-Generalisierungsleistung des linearen Klassifikators auf Basis des Schülermodells (orange) immer noch deutlich hinter dem linearen Klassifikator auf Basis des Lehrermodells (lila) zurück.

Also fragen wir uns natürlich: Woher kommt die Generalisierungslücke zwischen dem Schülermodell und dem Lehrermodell, da wir die Darstellung des Lehrermodells direkt angepasst haben? Wir haben festgestellt, dass es schwierig ist, dieses experimentelle Phänomen direkt mit den vorhandenen theoretischen Erklärungen zu erklären:

Erstens kann diese Lücke nicht direkt durch die Theorie der falschen Korrelation erklärt werden: Da die Darstellungen des Schülermodells und des Lehrermodells (auf der Trainingssatz) grundsätzlich gleich sind, sollte der auf diesen beiden Darstellungen basierende lineare Klassifikator während des Trainingsprozesses in ähnlicher Weise von falschen Korrelationsmerkmalen beeinflusst werden und keine so große Lücke aufweisen
Eine andere mögliche Erklärung ist das Lehrermodell (z als CLIP) hat möglicherweise während seines eigenen Vortrainingsprozesses viele OOD-Beispiele „gesehen“, sodass einige Funktionen extrahiert werden können, die im Trainingssatz für die OOD-Beispiele nicht gefunden werden. Neuere Untersuchungen zeigen jedoch, dass CLIP immer noch eine starke OOD-Verallgemeinerung aufweist, selbst wenn alle Proben, die den OOD-Testproben ähneln, aus den Vortrainingsdaten von CLIP entfernt werden [1]. Dies zeigt, dass es nicht ausreicht, die Kluft zwischen dem Lehrermodell und dem Schülermodell allein aus dieser Perspektive zu erklären.

Kurz gesagt glauben wir, dass die vorhandene Analyse nicht ausreicht, um die Lücke in der OOD-Generalisierungsfähigkeit zu erklären, die wir tatsächlich in unseren Experimenten beobachtet haben. Da „direkt passende Darstellungen, die durch OOD verallgemeinert werden können“ kein Modell garantieren können, das durch OOD verallgemeinert werden kann, müssen wir gleichzeitig zusätzlich zum „Ziel“ den „Prozess“ des Repräsentationslernens berücksichtigen. des Repräsentationslernens. “, das ist die induktive Verzerrung, die durch die Merkmalslerndynamik neuronaler Netze verursacht wird. Obwohl es theoretisch sehr schwierig ist, den Merkmalslernprozess tiefer neuronaler Netze direkt zu analysieren, haben wir festgestellt, dass selbst ein zweischichtiges ReLU-Netzwerk eine interessante Tendenz zum Merkmalslernen aufweist, nämlich „Merkmalsverschmutzung“, und diese Tendenz ist es steht auch in direktem Zusammenhang mit der OOD-Generalisierung neuronaler Netze.

Theorie

In diesem Abschnitt beweisen wir die Existenz des Phänomens „Merkmalsverschmutzung“ anhand eines binären Klassifizierungsproblems basierend auf einem zweischichtigen ReLU-Netzwerk und analysieren die Ursache dieses Phänomens. Konkret gehen wir davon aus, dass die Eingabe in das Netzwerk aus einer linearen Kombination zweier Merkmale besteht: „Kernmerkmale“ und „Hintergrundmerkmale“. Unter diesen hängt die Verteilung der Kernmerkmale von der Kategoriebezeichnung ab (kann als das zu klassifizierende Objekt im Bildklassifizierungsproblem dargestellt werden), während die Verteilung der Hintergrundmerkmale nichts mit der Bezeichnung zu tun hat (kann als das zu klassifizierende Objekt dargestellt werden). Bildhintergrund und andere Elemente im Bildklassifizierungsproblem). Um die Beeinträchtigung durch andere Faktoren auszuschließen, treffen wir außerdem die folgenden Annahmen zu diesen beiden Arten von Merkmalen:

Hintergrundfunktionen korrelieren nicht mit Beschriftungen (daher eliminieren wir Fehlermodi, die durch falsche Korrelationen verursacht werden).
Das Etikett kann anhand der Kernfunktionen mit 100 % Genauigkeit vorhergesagt werden (auf diese Weise eliminieren wir den Fehlermodus, der durch unzureichende Funktionen des Trainingssatzes verursacht wird).
Kernmerkmale und Hintergrundmerkmale sind in orthogonalen Unterräumen verteilt (so dass wir Fehlermodi ausschließen, die dadurch verursacht werden, dass verschiedene Merkmale schwer zu entkoppeln sind).

Wir haben festgestellt, dass das neuronale Netzwerk selbst unter den oben genannten Bedingungen immer noch Hintergrundfunktionen lernt, die für die Aufgabe völlig irrelevant sind, während es Kernfunktionen lernt. Aufgrund der Kopplung dieser beiden Merkmale im Netzwerkgewichtsraum führt die Verteilungsverschiebung der Hintergrundmerkmale auch zu einer Erhöhung des Fehlers des neuronalen Netzwerks, wodurch die OOD-Generalisierung des Netzwerks verringert wird. Daher nennen wir diese Merkmalslernpräferenz neuronaler Netze „Merkmalsverschmutzung“. Im Folgenden stellen wir die Ursachen der Feature-Verschmutzung im Detail vor. Das schematische Diagramm der Gesamtanalyseidee lautet wie folgt:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Der Schlüsselpunkt in unserer Analyse ist, dass die Merkmalsverschmutzung tatsächlich mit der Tatsache zusammenhängt, dass Neuronen in neuronalen Netzen häufig eine asymmetrische Aktivierung (asymmetrische Aktivierung) aufweisen. für verschiedene Kategorien. Insbesondere können wir zeigen, dass nach genügend SGD-Iterationen zumindest ein erheblicher Teil der Neuronen im Netzwerk tendenziell positiv mit Stichproben einer Kategorie korreliert (wir nennen sie positive Stichproben dieses Neurons und verwenden y_pos). stellt seine Kategorie dar) und behält gleichzeitig eine negative Korrelation mit der Stichprobe einer anderen Kategorie bei (wir nennen es die negative Stichprobe dieses Neurons, und y_neg stellt seine Kategorie dar). Dies führt zu einer Kategorienasymmetrie bei der Aktivierung dieser Neuronen, wie in Satz 4.1 gezeigt:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Wie wirkt sich eine solche Kategorienasymmetrie auf den Merkmalslernprozess des neuronalen Netzwerks aus? Wir bemerken zunächst, dass für das k-te Neuron in der verborgenen Schicht des Netzwerks sein Gewichtsvektor w_k nach der t-ten Iteration aufgeteilt werden kann:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

In der obigen Formel sind S_core und S _bg stellt den Satz von Kernfunktionen bzw. Hintergrundfunktionen dar, wobei jedes m_j einem Kernmerkmal oder Hintergrundmerkmal entspricht. Aus dieser Formel können wir ersehen, dass das Gewicht eines Neurons in seine Projektionen auf verschiedene Merkmale zerlegt werden kann (hier gehen wir davon aus, dass verschiedene m_j orthogonale Einheitsvektoren sind). Darüber hinaus können wir beweisen, dass die Projektion des negativen Gradienten von w_k auf jedes Hintergrundmerkmal m_j, j zu S_bg gehört:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Für Neuronen mit Kategorie asymmetrischer Aktivierung, gemäß Theorem 4.1 können wir feststellen, dass sein Gradient hauptsächlich von der positiven Stichprobe y = y_pos des Neurons abhängt und fast nichts mit der negativen Stichprobe y = y_neg zu tun hat. Dies führt dazu, dass die in den positiven Proben vorhandenen Kernmerkmale und Hintergrundmerkmale gleichzeitig positive Gradientenprojektionen erhalten, und dieser Prozess hat nichts mit der Korrelation zwischen Merkmalen und Beschriftungen zu tun. Wie in Satz 4.2 gezeigt, beweisen wir, dass nach genügend SGD-Iterationen die Akkumulation der obigen Gradientenprojektion dazu führt, dass die vom Neuron gelernten Merkmale sowohl Kernmerkmale als auch gekoppelte Hintergrundmerkmale enthalten:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败 Aufgrund der Kopplung von Kernmerkmalen und Hintergrundmerkmalen in Neuronengewichten verringert die negative Verteilungsverschiebung der Hintergrundmerkmale die Aktivierung von Neuronen, was zu zusätzlichen OOD-Fehlern führt. Wie in Theorem 4.3 gezeigt, beschreiben wir quantitativ den Einfluss der Merkmalsverschmutzung auf das Generalisierungsrisiko von ID und OOD: Neuronale Netze, wir beweisen, dass nach dem Entfernen der Nichtlinearität des neuronalen Netzes keine Merkmalsverschmutzung mehr auftritt:

Wie in der Abbildung unten gezeigt, haben wir unsere theoretischen Ergebnisse durch numerische Experimente überprüft. Gleichzeitig haben wir unsere Schlussfolgerungen zusätzlich zum zweischichtigen ReLU-Netzwerk + SGD auch auf allgemeinere Einstellungen ausgeweitet, einschließlich anderer Arten von Aktivierungsfunktionen, Optimierer mit adaptiver Schrittgröße usw. Die Ergebnisse sind in Abbildung 3 dargestellt( d) ), was darauf hindeutet, dass die Kontamination von Merkmalen auch in allgemeineren Umgebungen weit verbreitet ist.

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

Gleichzeitig liefern wir auch weitere experimentelle Beweise und Feature-Visualisierung, um zu zeigen, dass in den tiefen Netzwerken wie ResNet und Vision Transformer, die wir täglich verwenden, auch das Phänomen der Feature-Verschmutzung auftritt, und können das erklären Beobachtungen in unseren Experimenten Die OOD-Generalisierungslücke erreicht. Wer sich für diesen Teil interessiert, kann sich Kapitel 5 unseres Originalpapiers ansehen.

Zusammenfassung und Diskussion

Abschließend listen wir einige Forschungspunkte auf, die in Zukunft möglicherweise wichtiger sind/vertieft fortgesetzt werden können. Wir freuen uns auch über alle, die Interesse haben, weiter mit uns zu kommunizieren:

Tieferes Netzwerk :Obwohl wir experimentell bewiesen haben, dass tiefe Netzwerke auch Probleme mit der Merkmalsverschmutzung haben, hat unsere theoretische Analyse bisher nur ein zweischichtiges ReLU-Netzwerk durchgeführt. Wir vermuten, dass die Merkmalskontamination ein allgemeineres Konzept sein könnte und die Aktivierungsasymmetrie von Neuronen für Kategorien nur einer der Gründe für ihr Auftreten sein könnte. Durch die Analyse tieferer Netzwerke oder komplexerer Netzwerkstrukturen (z. B. Einführung einer Normalisierungsschicht usw.) können wir möglicherweise weitere Ursachen für die Merkmalsverschmutzung entdecken und gezielte Lösungen bereitstellen.
Die Rolle des Vortrainings: Die theoretische Analyse in diesem Artikel berücksichtigt nur den Fall eines Trainings von Grund auf, aber die Modelle, die wir tatsächlich verwenden, sind oft vorab trainierte Modelle. Es gibt viele experimentelle Beweise dafür, dass Vortraining dazu beitragen kann, die OOD-Generalisierung des Modells zu verbessern. Hängt diese Verbesserung der Generalisierung also mit der Minderung des Problems der Merkmalsverschmutzung zusammen? Wie macht das Vortraining das?
So lösen Sie das Problem der Merkmalsverschmutzung: Obwohl unsere Arbeit auf das Problem der Merkmalsverschmutzung hingewiesen hat, hat sie noch keine klare Lösung gefunden. Einige unserer späteren Arbeiten haben jedoch gezeigt, dass ähnliche Probleme auch bei der Feinabstimmung großer Modelle auftreten, und wir haben auch festgestellt, dass einige auf der Gradientenanpassung basierende Methoden dieses Problem tatsächlich lindern können, wodurch die Feinabstimmung des Modells erheblich verbessert wird Fähigkeit. Wir werden auch den spezifischen Inhalt dieses Teils der Arbeit in Zukunft veröffentlichen, und jeder ist herzlich eingeladen, weiterhin aufmerksam zu sein.

Über den Autor | Der Autor dieses Artikels, Zhang Tianren, ist Doktorand in der Abteilung für Automatisierung der Tsinghua-Universität. Sein Betreuer ist Professor Chen Feng. Während seiner Doktorarbeit führte der Autor hauptsächlich theoretische und algorithmische Forschung zu Fragen des Repräsentationslernens und der Generalisierung beim maschinellen Lernen durch. Er hat zahlreiche Artikel in führenden Konferenzen und Fachzeitschriften zum Thema maschinelles Lernen veröffentlicht, wie z. B. ICML, NeurIPS, ICLR, IEEE TPAMI usw. „Autorenzugehörigkeit“ | ak, E . , Bethge, M. und Brendel, W. Ist die Generalisierungsleistung von CLIP hauptsächlich auf die hohe Ähnlichkeit der Zugtests zurückzuführen?

Das obige ist der detaillierte Inhalt vonICML 2024 |. Merkmalsverschmutzung: Neuronale Netze lernen irrelevante Merkmale und können nicht verallgemeinern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

github 算法 transformer https 自动化 gpt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：CVPR 24｜ETH Zürich und andere Teams: Der neue Benchmark definiert die 3D-Segmentierungsaufgabe für kleine Stichproben neu und eröffnet ein breites Verbesserungspotenzial!Nächster Artikel：CVPR 24｜ETH Zürich und andere Teams: Der neue Benchmark definiert die 3D-Segmentierungsaufgabe für kleine Stichproben neu und eröffnet ein breites Verbesserungspotenzial!

In Verbindung stehende Artikel

Mehr sehen