Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  [Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

PHPz
PHPznach vorne
2023-10-10 13:41:05567Durchsuche

1. Kurze Einführung

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes LernenDieser Artikel demonstriert eine Methode zum Erlernen hochsemantischer Bilddarstellungen, ohne auf handgefertigte Datenerweiterung angewiesen zu sein. Das Papier stellt die Image-based Joint Embedding Prediction Architecture (I-JEPA) vor, eine nicht generative Methode für selbstüberwachtes Lernen aus Bildern. Die Idee hinter I-JEPA ist einfach: Die Darstellung verschiedener Ziel-Patches im selben Bild anhand eines einzelnen Kontext-Patches vorherzusagen. Die zentrale Designentscheidung, die I-JEPA zur Generierung semantischer Darstellungen leitet, ist die Maskierungsstrategie, insbesondere (a) Vorhersage mehrerer Zielfelder im Bild, (b) Probenahme von Zielfeldern in einem ausreichend großen Maßstab (15 % des Bildes – 20). %), (c) Die Verwendung ausreichend reichhaltiger (räumlich verteilter) Kontextblöcke ist von entscheidender Bedeutung. Empirisch stellte die Arbeit fest, dass I-JEPA in Kombination mit einem visuellen Transformator hoch skalierbar ist. In der Arbeit wird beispielsweise ein ViT-Huge/16 auf ImageNet in 38 Stunden mit 32 A100-GPUs trainiert, um eine starke Downstream-Leistung für ein breites Spektrum von Aufgaben zu erzielen, die unterschiedliche Abstraktionsebenen erfordern, von der linearen Klassifizierung bis hin zur Objektzählung und Tiefenvorhersage.

2. Forschungshintergrund

In der Computer Vision gibt es zwei gängige selbstüberwachte Bildlernmethoden.

Invarianzbasierte Methoden und Generierungsmethoden. Durch die Optimierung des Encoders durch einen invarianzbasierten Vortrainingsansatz können ähnliche Einbettungen für zwei oder mehr Ansichten desselben Bildes generiert werden. In der Regel werden Bildansichten mithilfe einer Reihe handgefertigter Methoden zur Datenerweiterung erstellt, z. B. zufälliger Skalierung, Zuschneiden, Farbdithering usw. Diese Pre-Training-Methoden können Darstellungen auf hoher semantischer Ebene generieren, führen aber gleichzeitig auch zu starken Verzerrungen, die sich negativ auf einige nachgelagerte Aufgaben oder sogar Pre-Training-Aufgaben mit unterschiedlichen Datenverteilungen auswirken können

Die Theorie des kognitiven Lernens geht davon aus dass Darstellungen in biologischen Systemen ein treibender Mechanismus hinter dem Lernen die Anpassung eines internen Modells ist, um Reaktionen auf sensorische Eingaben vorherzusagen. Diese Idee ist das Herzstück selbstüberwachter generativer Methoden, die Teile der Eingabe entfernen oder verfälschen und lernen, vorherzusagen, was verfälscht wird. Insbesondere Methoden zur Maskenentrauschung lernen Darstellungen, indem sie zufällige Maskenfelder aus der Pixel- oder Tokenebene der Eingabe rekonstruieren. Im Vergleich zu ansichtsinvarianten Methoden erfordert die Vortrainingsaufgabe von Masken weniger Vorkenntnisse und lässt sich leicht über Bildmodalitäten hinaus verallgemeinern. Die resultierenden Darstellungen weisen jedoch häufig niedrigere semantische Ebenen auf und verfügen nicht über ein invarianzbasiertes Vortraining für Standardauswertungen wie lineare Sondierungen und Übertragungseinstellungen mit begrenzter Überwachung semantischer Klassifizierungsaufgaben. Daher ist ein ausgefeilterer Anpassungsmechanismus (z. B. End-to-End-Feinabstimmung) erforderlich, um die vollen Vorteile dieser Methoden zu nutzen.

In dieser Arbeit untersucht das Papier, wie die semantische Ebene selbstüberwachter Darstellungen verbessert werden kann, ohne zusätzliche Vorkenntnisse codierter Bildtransformationen zu verwenden. Zu diesem Zweck stellt das Papier eine Bild-Joint-Embedding-Prediction-Architektur (I-JEPA) vor. Abbildung 3 veranschaulicht diesen Ansatz. Die Idee hinter I-JEPA besteht darin, fehlende Informationen in einem abstrakten Darstellungsraum vorherzusagen; beispielsweise bei einem gegebenen Kontext-Patch die Darstellung verschiedener Ziel-Patches im selben Bild vorherzusagen, wobei die Zieldarstellung von einem erlernten Ziel-Encoder-Netzwerk berechnet wird.

Im Vergleich zu generativen Methoden, die im Pixel-/Markerraum vorhersagen, verwendet I-JEPA abstrakte Vorhersageziele, die möglicherweise unnötige Details auf Pixelebene eliminieren, was dazu führt, dass das Modell mehr semantische Merkmale lernt. Eine weitere zentrale Designentscheidung, die I-JEPA bei der Erstellung semantischer Darstellungen unterstützt, ist die vorgeschlagene Multiblock-Maskierungsstrategie. Das Papier zeigt insbesondere, wie wichtig es ist, einen informativen (räumlich verteilten) Kontext-Patch zu verwenden, um mehrere Ziel-Patches (von ausreichend großem Maßstab) in einem Bild vorherzusagen. Neu geschriebener Inhalt: Im Vergleich zu generativen Methoden, die im Pixel-/Markerraum vorhersagen, nutzt I-JEPA abstrakte Vorhersageziele, wodurch möglicherweise unnötige Details auf Pixelebene eliminiert werden und das Modell dadurch mehr semantische Merkmale lernen kann. Eine weitere zentrale Designentscheidung von I-JEPA besteht darin, eine Mehrblock-Maskierungsstrategie zur Generierung semantischer Darstellungen anzuwenden. Das Papier zeigt insbesondere, wie wichtig es ist, informative (räumlich verteilte) Kontextfelder zu verwenden, um mehrere Zielfelder (von ausreichend großem Maßstab) in einem Bild vorherzusagen.

Basierend auf einer umfassenden empirischen Auswertung zeigt die Studie:

I-JEPA lernt kraftvoll Standardmäßige semantische Darstellungen ohne Verwendung handgefertigter Ansichtserweiterungen (Abbildung 1). I-JEPA übertrifft Pixelrekonstruktionsmethoden wie MAE bei der linearen ImageNet-1K-Erkennung, halbüberwachten 1 % ImageNet-1K und semantischen Übertragungsaufgaben.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes LernenI-JEPA konkurriert mit ansichtsinvarianten Pre-Training-Methoden bei semantischen Aufgaben und erzielt eine bessere Leistung bei Sehaufgaben auf niedriger Ebene wie Objektzählung und Tiefenvorhersage. Durch die Verwendung eines einfacheren Modells und einer weniger starren induktiven Vorspannung ist I-JEPA auf ein breiteres Spektrum von Aufgaben anwendbar.

I-JEPA ist außerdem skalierbar und effizient. Das Vortraining von ViT-H/14 auf ImageNet dauert etwa 2400 GPU-Stunden, was 50 % schneller ist als ViTB/16, das mit iBOT vorab trainiert wurde, und 140 % schneller als ViT-L/16, das mit MAE vorab trainiert wurde. Vorhersagen im Darstellungsraum reduzieren den gesamten Rechenaufwand für das selbstüberwachte Vortraining erheblich.

Selbstüberwachtes Lernen ist eine Methode des Repräsentationslernens, bei der ein System lernt, Beziehungen zwischen seinen Eingaben zu erfassen. Dieses Ziel lässt sich leicht mit dem Rahmen energiebasierter Modelle (EBMs) beschreiben, bei denen das Ziel der Selbstüberwachung darin besteht, inkompatiblen Eingaben hohe Energie und kompatiblen Eingaben niedrige Energie zuzuordnen. Viele bestehende generative und nicht generative selbstüberwachte Lernmethoden können tatsächlich in diesen Rahmen umgewandelt werden, siehe Abbildung 2

umgeschriebener Inhalt: Joint-Embedding Architectures (Joint-Embedding Architectures) sind eine Art degenerative Vortrainingsmethode wird im EBM-Framework zur Durchführung einer erzwungenen Konvertierung verwendet, siehe Abbildung 2a. Das Lernziel der gemeinsamen Einbettungsarchitektur besteht darin, dafür zu sorgen, dass kompatible Eingaben x und y ähnliche Einbettungen ausgeben, während inkompatible Eingaben unterschiedliche Einbettungen ausgeben. Beim bildbasierten Vortraining werden kompatible x- und y-Paare typischerweise durch zufälliges Anwenden manueller Datenerweiterung auf dieselben Eingabebilder erstellt

Die größte Herausforderung bei JEA ist der Zusammenbruch der Darstellung, bei dem die Energielandschaft flach ist (d. h. The Der Encoder erzeugt unabhängig vom Eingang einen konstanten Ausgang. In den letzten Jahren wurden verschiedene Methoden untersucht, um einen Zusammenbruch der Darstellung zu verhindern, wie z. B. kontrastive Verluste, die explizit negative Beispieleinbettungen vorantreiben, nicht kontrastive Verluste, die die Informationsredundanz von Einbettungen minimieren, und Clustering-basierte Methoden zur Maximierung der durchschnittlichen eingebetteten Entropie . Es gibt auch einige heuristische Methoden, die ein asymmetrisches Architekturdesign zwischen X-Encoder und Y-Encoder verwenden, um einen Zusammenbruch zu vermeiden. Generative Architekturen. Rekonstruktionsbasierte selbstüberwachte Lernmethoden können auch in EBM-Frameworks mithilfe generativer Architekturen umgesetzt werden, siehe Abbildung 2b.

Generative Architekturen lernen, das Signal y direkt aus einem kompatiblen Signal x zu rekonstruieren, indem sie ein zusätzliches (möglicherweise latentes) Decodernetzwerk für die Variable z verwenden den Wiederaufbau zu erleichtern. Beim bildbasierten Vortraining besteht ein gängiger Ansatz in der Computer Vision darin, Masken zu verwenden, um kompatible x-y-Paare zu generieren, wobei x eine Kopie des Bildes y ist, jedoch einige Patches maskiert sind. Die Konditionierungsvariable z entspricht dann einem Satz von (möglicherweise lernbaren) Masken und Positionsmarkierungen, die den Decoder des zu rekonstruierenden Bildfeldes angeben. Solange die Informationskapazität von z geringer ist als die des Signals y, konzentrieren sich diese Architekturen nicht auf den Zusammenbruch der Darstellung.

Gemeinsame Einbettung prädiktiver Architekturen. Wie in Abbildung 2c dargestellt, ähnelt die gemeinsame Einbettungsvorhersagearchitektur konzeptionell der generativen Architektur. Ein wesentlicher Unterschied besteht jedoch darin, dass die Verlustfunktion auf den Einbettungsraum und nicht auf den Eingaberaum angewendet wird. JEPA lernt, die Einbettung des Signals y aus einem kompatiblen Signal x vorherzusagen, indem es ein Vorhersagenetzwerk zusätzlicher (möglicherweise latenter) Variablen z verwendet, um die Vorhersage zu erleichtern. Das in der Arbeit vorgeschlagene I-JEPA bietet eine Instanziierung dieser Architektur im Kontext von Bildern unter Verwendung von Masken, siehe Abbildung 3. Im Gegensatz zu gemeinsamen Einbettungsarchitekturen strebt JEPA keine Darstellungen an, die gegenüber einer Reihe handgefertigter Datenerweiterungen invariant sind, sondern vielmehr Darstellungen, die sich gegenseitig vorhersagen, wenn zusätzliche Informations-Z-Bedingungen vorliegen. Wie bei gemeinsamen Einbettungsarchitekturen ist der Zusammenbruch der Darstellung jedoch auch für JEPA ein Problem. Der Artikel nutzt eine asymmetrische Architektur zwischen X- und Y-Encodern, um einen Darstellungskollaps in I-JEPA zu vermeiden.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

3. Methodeneinführung

Das Papier beschreibt nun die vorgeschlagene bildbasierte gemeinsame Einbettungsvorhersagearchitektur (I-JEPA), wie in Abbildung 3 dargestellt. Das Gesamtziel lautet wie folgt: Bei einem gegebenen Kontext-Patch die Darstellung verschiedener Ziel-Patches im selben Bild vorhersagen. Der Artikel verwendet die Visual Transformer (ViT)-Architektur als Kontext-Encoder, Ziel-Encoder und Prädiktor. Ein ViT besteht aus einem Stapel von Transformer-Schichten, von denen jede aus einer Selbstaufmerksamkeitsoperation und einem vollständig verbundenen MLP besteht. Die Encoder-/Prädiktor-Architektur des Artikels erinnert an den generative mask autoencoder (MAE)-Ansatz. Ein wesentlicher Unterschied besteht jedoch darin, dass die I-JEPA-Methode nicht generativ ist und Vorhersagen im Darstellungsraum getroffen werden.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

Bildklassifizierung

Um zu demonstrieren, dass I-JEPA Darstellungen auf hoher Ebene lernt, ohne sich auf eine handgefertigte Datenerweiterung zu verlassen, berichtet das Papier über Ergebnisse zu verschiedenen Bildklassifizierungsaufgaben unter Verwendung linearer Erkennungs- und teilweiser Feinabstimmungsprotokolle. In diesem Abschnitt betrachtet das Papier selbstüberwachte Modelle, die auf dem ImageNet-1K-Datensatz vorab trainiert wurden. Einzelheiten zur Implementierung des Vortrainings und der Bewertung finden Sie in Anhang A. Alle I-JEPA-Modelle werden in der Auflösung 224×224 trainiert, sofern nicht ausdrücklich anders angegeben.

ImageNet-1K Tabelle 1 zeigt die Leistung beim gemeinsamen linearen Bewertungsbenchmark ImageNet-1K. Nach dem selbstüberwachten Vortraining werden die Modellgewichte eingefroren und darüber hinaus ein linearer Klassifikator mit dem vollständigen ImageNet-1K-Trainingssatz trainiert. Im Vergleich zu gängigen maskierten Autoencodern (MAE) und data2vec-Methoden, die vor dem Training ebenfalls nicht auf einer umfangreichen manuellen Datenerweiterung basieren, stellt das Papier fest, dass I-JEPA die lineare Erkennungsleistung erheblich verbessert und gleichzeitig weniger Berechnungen erfordert. Darüber hinaus profitiert I-JEPA von der Skalierung. Mit der Auflösung 448 trainiertes ViT-H/16 erreicht die Leistung ansichtsinvarianter Methoden wie iBOT, ohne dass eine zusätzliche manuelle Datenerweiterung erforderlich ist.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

Geringe Stichprobengröße ImageNet-1K. Tabelle 2 zeigt die Leistung beim 1 % ImageNet-Benchmark. Diese Methoden nutzen vorab trainierte Modelle für die ImageNet-Klassifizierung und verwenden nur 1 % der ImageNet-Labels mit etwa 12 oder 13 Bildern pro Kategorie. Das Modell wird durch Feinabstimmung oder lineare Sondierung abgestimmt, je nachdem, was für die jeweilige Methode am besten funktioniert. Bei Verwendung einer ähnlichen Encoder-Architektur übertrifft I-JEPA MAE und erfordert weniger Epochen vor dem Training. I-JEPA mit der ViTH/14-Architektur hat eine vergleichbare Leistung wie ViT-L/16, das mit Daten 2vec vorab trainiert wurde, aber die Rechenlast ist deutlich geringer. Durch die Erhöhung der Bildeingabeauflösung bietet I-JEPA eine bessere Leistung als frühere Methoden, einschließlich gemeinsamer Einbettungsmethoden und der Nutzung zusätzlicher manueller Datenerweiterungsmethoden vor dem Training, wie z. B. MSN, DINO und iBOT

Transfer-Lernen. Tabelle 3 zeigt die Nutzungsleistung von linearen Sonden für verschiedene nachgelagerte Bildklassifizierungsaufgaben. I-JEPA übertrifft frühere Methoden, die keine Augmentation verwenden (MAE und Data2vec), deutlich und verringert die Lücke zu den besten Methoden, die vor dem Training handgefertigte Sicht-Invarianten nutzen, und übertrifft sogar die beliebten Methoden auf CIFAR100 und Place205 DINO.
[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

5. Lokale Vorhersageaufgaben

I-JEPA lernt die semantische Bilddarstellung und verbessert die Downstream-Bildklassifizierungsleistung früherer Methoden wie MAE und data2vec erheblich. Darüber hinaus profitiert I-JEPA von der Skalierung und kann die Lücke schließen und sogar darüber hinausgehen, indem es zusätzliche handgefertigte Datenerweiterungen auf Sichtinvarianz-basierten Methoden nutzt. In diesem Abschnitt stellen wir fest, dass I-JEPA auch lokale Bildmerkmale lernen und auf Sichtinvarianz basierende Methoden bei einfachen und intensiven Vorhersageaufgaben wie Objektzählung und Tiefenvorhersage übertreffen kann.

Tabelle 4 zeigt die Leistung bei verschiedenen Low-Level-Aufgaben mit linearer Sondierung. Insbesondere werden nach dem Vortraining die Gewichte des Modells eingefroren und darüber hinaus ein lineares Modell für die Objektzählung und Tiefenvorhersage im Clevr-Datensatz trainiert. Im Vergleich zu ansichtsinvarianten Methoden wie DINO und iBOT erfasst die I-JEPA-Methode vor dem Training effektiv Bildmerkmale auf niedriger Ebene und übertrifft diese bei der Objektzählung (Clevr/Count) und (weitgehend) Tiefenvorhersage (Clevr/Dist). . [Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen6. Skalierbarkeit

Der neu geschriebene Inhalt lautet wie folgt: Basierend auf dem Vergleich mit früheren Methoden ist I-JEPA hinsichtlich der Modelleffizienz hoch skalierbar. Abbildung 5 zeigt die halbüberwachten Ergebnisse der GPU-Stunden-Bewertung für 1 % von ImageNet-1K. I-JEPA erfordert weniger Rechenaufwand als frühere Methoden und erzielt eine starke Leistung, ohne auf manuelle Datenerweiterung angewiesen zu sein. Im Vergleich zu rekonstruktionsbasierten Methoden wie MAE, die Pixel direkt als Ziele usw. verwenden, führt I-JEPA durch die Berechnung von Zielen im Darstellungsraum zu einem zusätzlichen Overhead (die Zeit pro Iteration ist etwa 7 % langsamer).

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes LernenScale Skalierung der Datengröße . Das Papier stellt außerdem fest, dass I-JEPA von einem Vortraining an einem größeren Datensatz profitiert. Tabelle 5 zeigt die Übertragungslernleistung bei semantischen Aufgaben und Aufgaben auf niedriger Ebene, wenn die Größe des Datensatzes vor dem Training erhöht wird (IN1K vs. IN22K). Die Transferlernleistung bei diesen konzeptionell unterschiedlichen Aufgaben verbessert sich, wenn sie vorab auf größeren und vielfältigeren Datensätzen trainiert wird. Modellgröße skalieren. Tabelle 5 zeigt auch, dass I-JEPA von einer größeren Modellgröße profitiert, wenn es vorab auf IN22K trainiert wird. Im Vergleich zum ViT-H/14-Modell verbessert das Vortraining auf ViT-G/16 die Downstream-Leistung bei Bildklassifizierungsaufgaben wie Place205 und INat18 erheblich. Das ViTG/16-Modell verbessert die Leistung bei nachgelagerten Aufgaben auf niedriger Ebene nicht. ViT-G/16 verwendet eine größere Eingabe-Patch-Größe, was sich nachteilig auf lokale Vorhersageaufgaben auswirken kann.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

7. Prädiktorvisualisierungen können umgeschrieben werden

Die Funktion des Prädiktors in I-JEPA besteht darin, die Ausgabe des Kontextencoders auf das Positionsmasken-Token zu konditionieren, und das Vorhersagemasken-Token wird angegeben den Zielblock an der Position. Eine Frage ist, ob Prädiktoren, die auf Positionsmasken-Tokens basieren, lernen, die Positionsunsicherheit im Ziel korrekt zu erfassen. Um diese Frage qualitativ zu untersuchen, visualisieren wir die Ausgabe des Prädiktors. Nach dem Vortraining friert das Papier die Gewichte des Kontext-Encoders und des Prädiktors ein und trainiert einen Decoder gemäß dem RCDM-Framework, um den durchschnittlichen Pool der Prädiktor-Ausgabe wieder auf den Pixelraum abzubilden. Abbildung 6 zeigt die Decoder-Ausgabe für verschiedene Zufallsstartwerte. Merkmale, die allen Stichproben gemeinsam sind, stellen die Informationen dar, die in der durchschnittlichen gepoolten Prädiktordarstellung enthalten sind. Der I-JEPA-Prädiktor erfasst die Positionsunsicherheit korrekt und erzeugt hochrangige Objektteile mit korrekten Posen (z. B. die Rückseite eines Vogels und das Dach eines Autos). Unterschiedliche Massen in verschiedenen Proben stellen Informationen dar, die in der Darstellung nicht enthalten sind. In diesem Fall verwirft der I-JEPA-Prädiktor präzise Details und Hintergrundinformationen auf niedriger Ebene.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

8. Die Bedeutung von Ablationen

Vorhersage im Darstellungsraum. Tabelle 7 vergleicht die Low-Shot-Leistung bei der Berechnung von 1 % ImageNet-1K im Pixelraum und im Darstellungsraum. Der Artikel spekuliert, dass eine Schlüsselkomponente von I-JEPA darin besteht, dass der Verlust vollständig im Darstellungsraum berechnet wird, was es dem Zielencoder ermöglicht, abstrakte Vorhersageziele zu erzeugen, die irrelevante Details auf Pixelebene eliminieren. Aus Tabelle 7 geht klar hervor, dass die Vorhersage im Pixelraum zu einer erheblichen Verschlechterung der linearen Erkennungsleistung führt.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

Umgeschriebener Inhalt: Die Maskierungsstrategie wurde in Tabelle 8 geändert. Diese Studie reduziert die Anzahl der Zielblöcke in der im I-JEPA-Vortrainingsprozess vorgeschlagenen Multiblock-Maskenstrategie und passt den Maßstab der Kontext- und Zielblöcke an, wie in Abbildung 4 dargestellt. Wir haben I-JEPA für 300 Epochen mit verschiedenen Multiblock-Einstellungen trainiert und Leistungsvergleiche mit dem 1 % ImageNet-1K-Benchmark unter Verwendung linearer Sonden durchgeführt. Zusammenfassend haben wir herausgefunden, dass es sehr wichtig ist, mehrere relativ große (semantische) Ziel-Patches vorherzusagen, kombiniert mit informativen (räumlich verteilten) Kontext-Patches

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

Tabelle 6 im Vergleich zu anderen Maskierungsstrategien. Eine ähnliche Ablation wurde ebenfalls durchgeführt. Der Artikel vergleicht mit einer gerasterten Maskierungsstrategie, bei der das Bild in vier große Quadranten segmentiert wird und das Ziel darin besteht, einen Quadranten als Kontext zu verwenden, um die anderen drei Quadranten vorherzusagen. Der Artikel vergleicht auch traditionelle Block- und Zufallsmaskierungsstrategien, die üblicherweise für rekonstruktionsbasierte Methoden verwendet werden. Bei der Blockmaskierung ist das Ziel ein einzelner Bildbereich und der Kontext das Bildkomplement. Bei der Zufallsmaskierung ist das Ziel ein zufälliger (möglicherweise diskontinuierlicher) Satz von Bildfeldern und der Kontext ist das Komplement des Bildes. Beachten Sie, dass es bei allen betrachteten Maskierungsstrategien keine Überschneidung zwischen Kontext- und Zielblöcken gibt. Die vorgeschlagene Multiblock-Maskierungsstrategie ist der Schlüssel für I-JEPA zum Erlernen der semantischen Darstellung. Selbst der Wechsel zu herkömmlichen Blockmasken verringert die Leistung von ImageNet um mehr als 24 %.

[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen

9. Abschlusspapier

schlug eine Methode namens I-JEPA zum Erlernen der semantischen Bilddarstellung vor. Die Methode basiert nicht auf einer manuellen Datenerweiterung. Studien zeigen, dass I-JEPA durch Vorhersagen im Darstellungsraum schneller konvergiert als Pixelrekonstruktionsmethoden und Darstellungen auf hoher semantischer Ebene lernen kann. Im Vergleich zu Methoden, die auf Ansichtsinvarianz basieren, betont I-JEPA den Weg des Erlernens allgemeiner Darstellungen mithilfe gemeinsamer Einbettungsarchitekturen, ohne sich auf handgefertigte Ansichtsverbesserungen zu verlassen.

Anhang Siehe Originaltext, Originallink: https://arxiv.org /abs /2301.08243

Das obige ist der detaillierte Inhalt von[Papierinterpretation] Diagrammbasierte Architektur zur gemeinsamen Einbettungsvorhersage für selbstüberwachtes Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen