Heim >Technologie-Peripheriegeräte >KI >ICML 2024 |. Merkmalsverschmutzung: Neuronale Netze lernen irrelevante Merkmale und können nicht verallgemeinern
🔜 /github.com/trzhang0116/feature-contamination
Mit dem großen Erfolg der von GPT in den letzten Jahren vertretenen großen Modelle hat das maschinelle Lernparadigma der tiefen neuronalen Netze + SGD + Skalierung erneut seine Dominanz im Bereich des KI-Status unter Beweis gestellt . Warum sind Paradigmen, die auf tiefen neuronalen Netzen basieren, erfolgreich? Die verbreitetere Ansicht ist, dass neuronale Netze die Fähigkeit besitzen, abstrakte und verallgemeinerbare Merkmale automatisch aus massiven hochdimensionalen Eingabedaten zu lernen. Leider ist unser derzeitiges Verständnis darüber, „wie (tiefe) neuronale Netze einen solchenForschungshintergrund
Die Generalisierungsfähigkeit in Szenarien, in denen sich die Datenverteilung ändert (d. h. die OOD-Generalisierungsfähigkeit) ist ein Maß dafür, ob ein maschinelles Lernsystem eine Leistung erbringen kann Realität Einer der Schlüsselindikatoren für den Einsatz in der Umwelt. Allerdings erleiden aktuelle neuronale Netze in OOD-Generalisierungsszenarien häufig erhebliche Leistungseinbußen. In Bezug auf den Grund, warum die OOD-Generalisierung fehlschlägt, lautet die gängigere Aussage in der Literatur, dass in der Darstellung falsche Korrelationen bestehen, das heißt, das Modell lernt Merkmale, die mit dem Aufgabenziel in Zusammenhang stehen, aber keinen kausalen Zusammenhang haben. Wenn sich daher die Korrelation zwischen diesen Merkmalen und Aufgabenzielen aufgrund von Verteilungsverschiebungen ändert, können Modelle, die sich zur Vorhersage auf diese Merkmale stützen, nicht die ursprüngliche Leistung garantieren. Die obige theoretische Erklärung ist recht intuitiv und natürlich und hat sich in den letzten Jahren auch zur Hauptrichtung der OOD-Algorithmusforschung entwickelt, d. h. durch die Gestaltung besserer Optimierungszielfunktionen und regulärer Terme kann das Modell bessere Darstellungen ohne falsche Korrelationen lernen. Um eine stärkere Generalisierungsleistung zu erzielen. In den letzten Jahren wurde in dieser Hauptrichtung viel daran gearbeitet, die OOD-Verallgemeinerung des Modells durch Algorithmendesign zu verbessern. Neuere Arbeiten zeigen jedoch, dass viele Algorithmen mit integrierten theoretischen Garantien nur eine sehr begrenzte Leistungsverbesserung bei OOD-Generalisierungsaufgaben auf der Grundlage realer Daten erzielen.Warum passiert das? Wir glauben, dass die aktuellen Schwierigkeiten in der OOD-Generalisierungsforschung auf zwei Einschränkungen bestehender Analysen zurückzuführen sein könnten:
Mit anderen Worten: Aktuelle Erklärungen und theoretische Modelle der OOD-Verallgemeinerung spiegeln möglicherweise nicht genau reale Verteilungsverschiebungsszenarien wider. Daher glauben wir, dass die Berücksichtigung der induktiven Vorspannung neuronaler Netze und SGD unbedingt erforderlich ist, um die Verallgemeinerung von OOD basierend auf tiefen neuronalen Netzen zu verstehen.
Experiment
Zuerst versuchen wir, die „Leistungsobergrenze“ abzuschätzen, die durch den aktuellen OOD-Generalisierungsalgorithmus erreicht werden kann, der auf der Grundlage von Repräsentationslernzielen durch experimentelles Design entwickelt wurde. Unter der Anleitung der Scheinkorrelationstheorie versuchen bestehende Arbeiten hauptsächlich, das Modell auf das Erlernen von Darstellungen zu beschränken, die durch OOD verallgemeinert werden können, indem Hilfslernzielfunktionen für Darstellungen entworfen werden. Um zu untersuchen, ob die Optimierung eines solchen Ziels tatsächlich die gewünschte Darstellung extrahieren kann, haben wir ein idealisiertes Szenario entworfen:
Die Versuchsergebnisse sind im Bild oben dargestellt. Aus der Abbildung haben wir zwei Hauptergebnisse:
Also fragen wir uns natürlich: Woher kommt die Generalisierungslücke zwischen dem Schülermodell und dem Lehrermodell, da wir die Darstellung des Lehrermodells direkt angepasst haben? Wir haben festgestellt, dass es schwierig ist, dieses experimentelle Phänomen direkt mit den vorhandenen theoretischen Erklärungen zu erklären:
Kurz gesagt glauben wir, dass die vorhandene Analyse nicht ausreicht, um die Lücke in der OOD-Generalisierungsfähigkeit zu erklären, die wir tatsächlich in unseren Experimenten beobachtet haben. Da „direkt passende Darstellungen, die durch OOD verallgemeinert werden können“ kein Modell garantieren können, das durch OOD verallgemeinert werden kann, müssen wir gleichzeitig zusätzlich zum „Ziel“ den „Prozess“ des Repräsentationslernens berücksichtigen. des Repräsentationslernens. “, das ist die induktive Verzerrung, die durch die Merkmalslerndynamik neuronaler Netze verursacht wird. Obwohl es theoretisch sehr schwierig ist, den Merkmalslernprozess tiefer neuronaler Netze direkt zu analysieren, haben wir festgestellt, dass selbst ein zweischichtiges ReLU-Netzwerk eine interessante Tendenz zum Merkmalslernen aufweist, nämlich „Merkmalsverschmutzung“, und diese Tendenz ist es steht auch in direktem Zusammenhang mit der OOD-Generalisierung neuronaler Netze.
Theorie
In diesem Abschnitt beweisen wir die Existenz des Phänomens „Merkmalsverschmutzung“ anhand eines binären Klassifizierungsproblems basierend auf einem zweischichtigen ReLU-Netzwerk und analysieren die Ursache dieses Phänomens. Konkret gehen wir davon aus, dass die Eingabe in das Netzwerk aus einer linearen Kombination zweier Merkmale besteht: „Kernmerkmale“ und „Hintergrundmerkmale“. Unter diesen hängt die Verteilung der Kernmerkmale von der Kategoriebezeichnung ab (kann als das zu klassifizierende Objekt im Bildklassifizierungsproblem dargestellt werden), während die Verteilung der Hintergrundmerkmale nichts mit der Bezeichnung zu tun hat (kann als das zu klassifizierende Objekt dargestellt werden). Bildhintergrund und andere Elemente im Bildklassifizierungsproblem). Um die Beeinträchtigung durch andere Faktoren auszuschließen, treffen wir außerdem die folgenden Annahmen zu diesen beiden Arten von Merkmalen:Wir haben festgestellt, dass das neuronale Netzwerk selbst unter den oben genannten Bedingungen immer noch Hintergrundfunktionen lernt, die für die Aufgabe völlig irrelevant sind, während es Kernfunktionen lernt. Aufgrund der Kopplung dieser beiden Merkmale im Netzwerkgewichtsraum führt die Verteilungsverschiebung der Hintergrundmerkmale auch zu einer Erhöhung des Fehlers des neuronalen Netzwerks, wodurch die OOD-Generalisierung des Netzwerks verringert wird. Daher nennen wir diese Merkmalslernpräferenz neuronaler Netze „Merkmalsverschmutzung“. Im Folgenden stellen wir die Ursachen der Feature-Verschmutzung im Detail vor. Das schematische Diagramm der Gesamtanalyseidee lautet wie folgt:
Der Schlüsselpunkt in unserer Analyse ist, dass die Merkmalsverschmutzung tatsächlich mit der Tatsache zusammenhängt, dass Neuronen in neuronalen Netzen häufig eine asymmetrische Aktivierung (asymmetrische Aktivierung) aufweisen. für verschiedene Kategorien. Insbesondere können wir zeigen, dass nach genügend SGD-Iterationen zumindest ein erheblicher Teil der Neuronen im Netzwerk tendenziell positiv mit Stichproben einer Kategorie korreliert (wir nennen sie positive Stichproben dieses Neurons und verwenden ypos). stellt seine Kategorie dar) und behält gleichzeitig eine negative Korrelation mit der Stichprobe einer anderen Kategorie bei (wir nennen es die negative Stichprobe dieses Neurons, und yneg stellt seine Kategorie dar). Dies führt zu einer Kategorienasymmetrie bei der Aktivierung dieser Neuronen, wie in Satz 4.1 gezeigt:
Wie wirkt sich eine solche Kategorienasymmetrie auf den Merkmalslernprozess des neuronalen Netzwerks aus? Wir bemerken zunächst, dass für das k-te Neuron in der verborgenen Schicht des Netzwerks sein Gewichtsvektor wk nach der t-ten Iteration aufgeteilt werden kann:
In der obigen Formel sind Score und S bg stellt den Satz von Kernfunktionen bzw. Hintergrundfunktionen dar, wobei jedes mj einem Kernmerkmal oder Hintergrundmerkmal entspricht. Aus dieser Formel können wir ersehen, dass das Gewicht eines Neurons in seine Projektionen auf verschiedene Merkmale zerlegt werden kann (hier gehen wir davon aus, dass verschiedene mj orthogonale Einheitsvektoren sind). Darüber hinaus können wir beweisen, dass die Projektion des negativen Gradienten von wk auf jedes Hintergrundmerkmal mj, j zu Sbg gehört:
Für Neuronen mit Kategorie asymmetrischer Aktivierung, gemäß Theorem 4.1 können wir feststellen, dass sein Gradient hauptsächlich von der positiven Stichprobe y = ypos des Neurons abhängt und fast nichts mit der negativen Stichprobe y = yneg zu tun hat. Dies führt dazu, dass die in den positiven Proben vorhandenen Kernmerkmale und Hintergrundmerkmale gleichzeitig positive Gradientenprojektionen erhalten, und dieser Prozess hat nichts mit der Korrelation zwischen Merkmalen und Beschriftungen zu tun. Wie in Satz 4.2 gezeigt, beweisen wir, dass nach genügend SGD-Iterationen die Akkumulation der obigen Gradientenprojektion dazu führt, dass die vom Neuron gelernten Merkmale sowohl Kernmerkmale als auch gekoppelte Hintergrundmerkmale enthalten:
Aufgrund der Kopplung von Kernmerkmalen und Hintergrundmerkmalen in Neuronengewichten verringert die negative Verteilungsverschiebung der Hintergrundmerkmale die Aktivierung von Neuronen, was zu zusätzlichen OOD-Fehlern führt. Wie in Theorem 4.3 gezeigt, beschreiben wir quantitativ den Einfluss der Merkmalsverschmutzung auf das Generalisierungsrisiko von ID und OOD: Neuronale Netze, wir beweisen, dass nach dem Entfernen der Nichtlinearität des neuronalen Netzes keine Merkmalsverschmutzung mehr auftritt:
Wie in der Abbildung unten gezeigt, haben wir unsere theoretischen Ergebnisse durch numerische Experimente überprüft. Gleichzeitig haben wir unsere Schlussfolgerungen zusätzlich zum zweischichtigen ReLU-Netzwerk + SGD auch auf allgemeinere Einstellungen ausgeweitet, einschließlich anderer Arten von Aktivierungsfunktionen, Optimierer mit adaptiver Schrittgröße usw. Die Ergebnisse sind in Abbildung 3 dargestellt( d) ), was darauf hindeutet, dass die Kontamination von Merkmalen auch in allgemeineren Umgebungen weit verbreitet ist.
Gleichzeitig liefern wir auch weitere experimentelle Beweise und Feature-Visualisierung, um zu zeigen, dass in den tiefen Netzwerken wie ResNet und Vision Transformer, die wir täglich verwenden, auch das Phänomen der Feature-Verschmutzung auftritt, und können das erklären Beobachtungen in unseren Experimenten Die OOD-Generalisierungslücke erreicht. Wer sich für diesen Teil interessiert, kann sich Kapitel 5 unseres Originalpapiers ansehen.
Zusammenfassung und Diskussion
Abschließend listen wir einige Forschungspunkte auf, die in Zukunft möglicherweise wichtiger sind/vertieft fortgesetzt werden können. Wir freuen uns auch über alle, die Interesse haben, weiter mit uns zu kommunizieren:Über den Autor | Der Autor dieses Artikels, Zhang Tianren, ist Doktorand in der Abteilung für Automatisierung der Tsinghua-Universität. Sein Betreuer ist Professor Chen Feng. Während seiner Doktorarbeit führte der Autor hauptsächlich theoretische und algorithmische Forschung zu Fragen des Repräsentationslernens und der Generalisierung beim maschinellen Lernen durch. Er hat zahlreiche Artikel in führenden Konferenzen und Fachzeitschriften zum Thema maschinelles Lernen veröffentlicht, wie z. B. ICML, NeurIPS, ICLR, IEEE TPAMI usw. „Autorenzugehörigkeit“ | ak, E . , Bethge, M. und Brendel, W. Ist die Generalisierungsleistung von CLIP hauptsächlich auf die hohe Ähnlichkeit der Zugtests zurückzuführen?
Das obige ist der detaillierte Inhalt vonICML 2024 |. Merkmalsverschmutzung: Neuronale Netze lernen irrelevante Merkmale und können nicht verallgemeinern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!