Heim >Technologie-Peripheriegeräte >KI >Einfach und universell: Das Visual Basic-Netzwerk beschleunigt das verlustfreie Training um das bis zu Dreifache. Tsinghua EfficientTrain++ wurde für TPAMI 2024 ausgewählt
Spalte des Computer Vision Institute
Spalte des Computer Vision Institut
Dieser Artikel stellt hauptsächlich einen Artikel vor, der gerade von IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) angenommen wurde: EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training.
In den letzten Jahren war „Skalierung“ einer der Protagonisten der Computer-Vision-Forschung. Mit der Zunahme der Modellgröße und des Trainingsdatenumfangs, der Weiterentwicklung von Lernalgorithmen und der weit verbreiteten Anwendung von Regularisierungs- und Datenverbesserungstechnologien werden visuelle Basisnetzwerke, die durch groß angelegtes Training erhalten werden (wie Vision Transformer und MAE, trainiert auf ImageNet1K/22K), DINOv2 usw.) hat bei vielen wichtigen visuellen Aufgaben wie der visuellen Erkennung, der Zielerkennung und der semantischen Segmentierung eine beeindruckende Leistung erzielt.
Allerdings bringt „Skalierung“ oft einen unerschwinglichen hohen Modellschulungsaufwand mit sich, der die Weiterentwicklung und industrielle Anwendung grundlegender Visionsmodelle erheblich behindert.
Um dieses Problem zu lösen, schlug das Forschungsteam der Tsinghua-Universität einen verallgemeinerten Lehrplan-Lernalgorithmus vor: EfficientTrain++. Die Kernidee besteht darin, das traditionelle Paradigma des Kurslernens zu fördern, bei dem es darum geht, „Daten von einfach bis schwierig zu überprüfen und zu verwenden und das Modell schrittweise zu trainieren“ und „Datendimensionen nicht zu filtern, immer alle Trainingsdaten zu verwenden, sondern jedes Merkmal während des Trainingsprozesses schrittweise aufzudecken“. „Merkmale oder Muster (Muster) von leicht bis schwer jeder Datenprobe.“
EfficientTrain++ hat mehrere wichtige Highlights:
Als nächstes werfen wir einen Blick auf die Details der Studie.
In den letzten Jahren hat die boomende Entwicklung groß angelegter Grundlagenmodelle den Fortschritt von künstlicher Intelligenz und tiefem Lernen erheblich vorangetrieben. Im Bereich Computer Vision haben repräsentative Arbeiten wie Vision Transformer (ViT), CLIP, SAM und DINOv2 bewiesen, dass die Vergrößerung der Größe neuronaler Netze und Trainingsdaten wichtige visuelle Aufgaben wie Erkennung, Erkennung und Segmentierung erheblich erweitern kann . Leistungsgrenzen.
Allerdings haben große Basismodelle oft einen hohen Trainingsaufwand. Abbildung 1 zeigt zwei typische Beispiele. Am Beispiel von acht NVIDIA V100- oder leistungsstärkeren GPUs würde es Jahre oder sogar Jahrzehnte dauern, um nur eine Trainingssitzung für GPT-3 und ViT-G abzuschließen. Solch hohe Schulungskosten stellen einen enormen Aufwand dar, der sich sowohl für die Wissenschaft als auch für die Industrie nur schwer leisten lässt. Oftmals können nur wenige Top-Institutionen den Fortschritt des Deep Learning vorantreiben, indem sie große Mengen an Ressourcen verbrauchen. Ein dringendes Problem, das gelöst werden muss, lautet daher: Wie kann die Trainingseffizienz großer Deep-Learning-Modelle effektiv verbessert werden?
Abbildung 1 Beispiel: Hoher Trainingsaufwand für große Deep-Learning-Grundmodelle
Für Computer-Vision-Modelle ist eine klassische Idee das Lehrplanlernen, wie in Abbildung 2 dargestellt, d Während des Modelltrainingsprozesses beginnen wir mit den „einfachsten“ Trainingsdaten und führen schrittweise Daten von einfach bis schwierig ein.
Abbildung 2: Klassisches Curriculum-Lernparadigma (Bildquelle: „A Survey on Curriculum Learning“, TPAMI'22)
Trotz der natürlichen Motivation wurde das Curriculum-Lernen jedoch nicht in großem Umfang zum Trainieren eingesetzt Visuelle Grundlagen Der Hauptgrund für die allgemeine Methode des Modells besteht darin, dass es zwei wesentliche Engpässe gibt, wie in Abbildung 3 dargestellt. Erstens ist es nicht einfach, einen effektiven Lehrplan (Curriculum) zu entwerfen. Die Unterscheidung zwischen „einfachen“ und „schwierigen“ Stichproben erfordert oft die Hilfe zusätzlicher Modelle vor dem Training, den Entwurf komplexerer AutoML-Algorithmen, die Einführung von Reinforcement Learning usw. und weist eine geringe Vielseitigkeit auf. Zweitens ist die Modellierung des Kurslernens selbst etwas unangemessen. Visuelle Daten in der natürlichen Verbreitung weisen häufig ein hohes Maß an Vielfalt auf (siehe Abbildung 3). Die Modelltrainingsdaten enthalten eine große Anzahl von Papageien mit unterschiedlichen Bewegungen Kamera, Papageien aus verschiedenen Perspektiven und Hintergründen sowie die vielfältigen Interaktionen zwischen Papageien und Menschen oder Objekten usw. ist es tatsächlich eine relativ grobe Methode, solche unterschiedlichen Daten nur durch eindimensionale Indikatoren von „einfach“ und „schwierig“ zu unterscheiden " und weit hergeholte Modellierungsmethoden.
Abbildung 3 Zwei wesentliche Engpässe, die eine groß angelegte Anwendung des Kurslernens beim Training visueller Grundmodelle behindern
Inspiriert von den oben genannten Herausforderungen schlägt dieser Artikel ein verallgemeinertes Lehrplan-Lernparadigma vor. Die Kernidee besteht darin, „Daten von einfach bis schwierig zu überprüfen und schrittweise zu trainieren.“ Das traditionelle Kurs-Lernparadigma wird erweitert zu „Keine Filterung der Datendimensionen, es werden immer alle Trainingsdaten verwendet, aber die Merkmale oder Muster von einfach bis schwierig jeder Datenprobe werden während des Trainingsprozesses nach und nach aufgedeckt“, wodurch die durch die verursachten Einschränkungen und suboptimalen Designs effektiv vermieden werden Datenscreening-Paradigmen werden eliminiert, wie in Abbildung 4 dargestellt.
Abbildung 4 Traditionelles Lehrplanlernen (Beispieldimension) vs. generalisiertes Lehrplanlernen (Feature-Dimension)Der Vorschlag dieses Paradigmas basiert hauptsächlich auf einem interessanten Phänomen:
Während des Trainingsprozesses eines Naturtalents Visuelles Modell: Obwohl das Modell jederzeit alle in den Daten enthaltenen Informationen abrufen kann, lernt das Modell natürlich immer zuerst, einige relativ einfache Unterscheidungsmerkmale (Muster) in den Daten zu identifizieren, und lernt dann nach und nach, schwierigere zu identifizieren Muster auf dieser Basis. Darüber hinaus ist diese Regel relativ universell und „relativ einfache“ Unterscheidungsmerkmale können sowohl im Frequenzbereich als auch im räumlichen Bereich leicht gefunden werden. In diesem Artikel wurde eine Reihe interessanter Experimente entworfen, um die oben genannten Ergebnisse zu demonstrieren, wie unten beschrieben. Aus Sicht des Frequenzbereichs sind „Niederfrequenzmerkmale“ für das Modell „relativ einfach“
. In Abbildung 5 trainierte der Autor dieses Artikels ein DeiT-S-Modell mithilfe von Standard-ImageNet-1K-Trainingsdaten und verwendete Tiefpassfilter mit unterschiedlichen Bandbreiten, um den Verifizierungssatz zu filtern, wobei nur die niederfrequenten Komponenten des Verifizierungsbildes beibehalten wurden. und berichtet auf dieser Grundlage über die Genauigkeit von DeiT-S anhand der tiefpassgefilterten Verifizierungsdaten während des Trainingsprozesses. Die Kurve der erhaltenen Genauigkeit im Verhältnis zum Trainingsprozess ist auf der rechten Seite von Abbildung 5 dargestellt. Wir können ein interessantes Phänomen beobachten: In den frühen Phasen des Trainings verringert die Verwendung nur tiefpassgefilterter Validierungsdaten die Genauigkeit nicht wesentlich, und der Trennungspunkt zwischen der Kurve und der Genauigkeit des normalen Validierungssatzes nimmt mit der Filterbandbreite zu und bewegt sich allmählich nach rechts. Dieses Phänomen zeigt, dass das Modell zwar immer Zugriff auf die niederfrequenten und hochfrequenten Teile der Trainingsdaten hat, sein Lernprozess jedoch auf natürliche Weise damit beginnt, sich nur auf niederfrequente Informationen zu konzentrieren, und die Fähigkeit, höherfrequente Merkmale zu identifizieren, allmählich erworben wird später im Training (dieses Phänomen Weitere Beweise finden Sie im Originaltext). Abbildung 5 Aus Sicht des Frequenzbereichs neigt das Modell natürlich dazu, zuerst zu lernen, niederfrequente Merkmale zu identifizieren. Dieser Befund wirft eine interessante Frage auf: Können wir einen Schulungslehrplan (Curriculum) entwerfen, der nur für beginnt? Das Modell? Zunächst eine visuelle Eingabe niederfrequenter Informationen bereitstellen und dann nach und nach hochfrequente Informationen einführen? Abbildung 6 untersucht die Idee, eine Tiefpassfilterung der Trainingsdaten nur während einer frühen Trainingsphase einer bestimmten Länge durchzuführen und den Rest des Trainingsprozesses unverändert zu lassen. Aus den Ergebnissen lässt sich erkennen, dass die endgültige Leistungsverbesserung zwar begrenzt ist, es jedoch interessant ist festzustellen, dass die endgültige Genauigkeit des Modells weitgehend erhalten bleiben kann, selbst wenn dem Modell über einen beträchtlichen Zeitraum nur niederfrequente Komponenten zur Verfügung gestellt werden Periode der frühen Trainingsphase, die auch mit der Beobachtung in Abbildung 5 übereinstimmt, dass „das Modell sich hauptsächlich auf das Lernen konzentriert, niederfrequente Merkmale in den frühen Phasen des Trainings zu identifizieren“. Diese Entdeckung hat den Autor dieses Artikels dazu inspiriert, über die Trainingseffizienz nachzudenken: Da das Modell in den frühen Phasen des Trainings nur niederfrequente Komponenten in den Daten benötigt und die niederfrequenten Komponenten weniger Informationen enthalten als die Originaldaten Kann das Modell die ursprüngliche Eingabe schneller verarbeiten als nur aus niederfrequenten Komponenten und mit geringerem Rechenaufwand effizient lernen? Abbildung 6 Die Bereitstellung nur niederfrequenter Komponenten für das Modell über einen langen Zeitraum des frühen Trainings hat keinen wesentlichen Einfluss auf die endgültige Leistung Tatsächlich ist diese Idee völlig realisierbar. Wie auf der linken Seite von Abbildung 7 gezeigt, führt der Autor dieses Artikels einen Zuschneidevorgang im Fourier-Spektrum des Bildes ein, um den niederfrequenten Teil auszuschneiden und ihn wieder dem Pixelraum zuzuordnen. Dieser Niederfrequenz-Zuschneidevorgang bewahrt alle Niederfrequenzinformationen genau und reduziert gleichzeitig die Größe der Bildeingabe, sodass der Rechenaufwand für das Lernen des Modells aus der Eingabe exponentiell reduziert werden kann. Wenn Sie diesen niederfrequenten Zuschneidevorgang verwenden, um die Modelleingabe in den frühen Phasen des Trainings zu verarbeiten, können Sie die gesamten Trainingskosten erheblich einsparen, erleiden aber dennoch nahezu keinen Leistungsverlust, da die für das Modelllernen erforderlichen Informationen vorhanden sind Das endgültige Modell und die experimentellen Ergebnisse sind in der unteren rechten Ecke von Abbildung 7 dargestellt. Abbildung 7 Niederfrequenz-Zuschneiden: Ermöglicht dem Modell, effizient nur aus Niederfrequenzinformationen zu lernen Neben Frequenzbereichsoperationen kann es auch aus der Perspektive der räumlichen Domänentransformation gefunden werden Ein „relativ einfaches“ Feature für das Modell. Beispielsweise sind natürliche Bildinformationen, die in rohen visuellen Eingaben enthalten sind und keiner starken Datenverbesserung oder Verzerrungsverarbeitung unterzogen wurden, für das Modell oft „einfacher“ und leichter zu erlernen, da sie aus realen Verteilungen abgeleitet sind Informationen, Invarianz usw., die durch Vorverarbeitungstechniken wie Datenverbesserung eingeführt werden, sind für das Modell oft schwer zu erlernen (ein typisches Beispiel ist auf der linken Seite von Abbildung 8 dargestellt). Tatsächlich wurde in bestehenden Forschungsarbeiten auch beobachtet, dass die Datenerweiterung vor allem in den späteren Phasen des Trainings eine Rolle spielt (z. B. „Improving Auto-Augment via Augmentation-Wise Weight Sharing“, NeurIPS’20). In dieser Dimension kann das Paradigma des allgemeinen Kurslernens leicht erreicht werden, indem einfach die Intensität der Datenerweiterung geändert wird, um dem Modell nur natürliche Bildinformationen bereitzustellen, die in den Trainingsdaten leichter zu erlernen sind in der Anfangsphase der Ausbildung. Auf der rechten Seite von Abbildung 8 wird RandAugment als repräsentatives Beispiel verwendet, um diese Idee zu verifizieren. RandAugment enthält eine Reihe gängiger Transformationen zur Verbesserung räumlicher Daten (z. B. zufällige Rotation, sich ändernde Schärfe, affine Transformation, sich ändernde Belichtung usw.). Es ist zu beobachten, dass das Training des Modells ausgehend von einer schwächeren Datenerweiterung die endgültige Leistung des Modells effektiv verbessern kann, und diese Technik ist mit dem Zuschneiden bei niedriger Frequenz kompatibel. Abbildung 8 Finden der „leichter zu erlernenden“ Merkmale des Modells aus der Perspektive des Luftraums: eine Datenverbesserungsperspektive Bis zu diesem Punkt wurden in diesem Artikel der Kernrahmen und die Annahmen des allgemeinen Kurslernens vorgeschlagen und indem sie zwei Schlüsselphänomene im Frequenzbereich und im räumlichen Bereich aufdecken, beweisen sie die Rationalität und Wirksamkeit des allgemeinen Kurslernens. Auf dieser Grundlage vervollständigt dieses Papier eine Reihe systematischer Arbeiten, die im Folgenden aufgeführt sind. Aus Platzgründen lesen Sie bitte für weitere Forschungsdetails das Originalpapier. Der in diesem Artikel schließlich erhaltene allgemeine Lernplan für den EfficientTrain++-Kurs ist in Abbildung 9 dargestellt. EfficientTrain++ passt die Bandbreite der Niederfrequenzbeschneidung im Frequenzbereich und die Intensität der Datenverbesserung im räumlichen Bereich dynamisch an, basierend auf dem Verbrauchsprozentsatz des gesamten Rechenaufwands des Modelltrainings. Es ist erwähnenswert, dass EfficientTrain++ als Plug-and-Play-Methode ohne weitere Hyperparameteranpassung oder -suche direkt auf eine Vielzahl visueller Basisnetzwerke und verschiedene Modelltrainingsszenarien angewendet werden kann und der Effekt relativ stabil ist . Abbildung 9 Einheitlicher und integrierter allgemeiner Kurs-Lernplan: EfficientTrain++ Als Plug-and-Play-Methode reduziert EfficientTrain++ den tatsächlichen Trainingsaufwand verschiedener Visual Basic-Netzwerke auf ImageNet-1K um etwa das 1,5-fache, ohne grundsätzlich die Leistung zu verlieren oder zu verbessern. Abbildung 10 ImageNet-1K-Versuchsergebnisse: Leistung von EfficientTrain++ auf einer Vielzahl von Visual Basic-Netzwerken Der Gewinn von EfficientTrain++ ist universell für unterschiedliche Trainings-Overhead-Budgets und bei genau gleicher Leistung, DeiT/ Swin Das Trainingsbeschleunigungsverhältnis auf ImageNet-1K beträgt etwa das 2-3-fache. Abbildung 11 ImageNet-1K-Versuchsergebnisse: Leistung von EfficientTrain++ bei verschiedenen Trainings-Overhead-Budgets EfficientTrain++ kann auf ImageNet-22k eine 2-3-fache leistungsverlustfreie Beschleunigung vor dem Training erreichen. Abbildung 12 ImageNet-22K-Versuchsergebnisse: Leistung von EfficientTrain++ bei größeren Trainingsdaten Bei kleineren Modellen kann EfficientTrain++ erhebliche Leistungsverbesserungen an der Obergrenze erzielen. Abbildung 13 ImageNet-1K-Versuchsergebnisse: EfficientTrain++ kann die Leistungsobergrenze kleinerer Modelle erheblich verbessern EfficientTrain++ ist auch für selbstüberwachte Lernalgorithmen (wie MAE) effektiv. Abbildung 14 EfficientTrain++ kann auf selbstüberwachtes Lernen (wie MAE) angewendet werden Das von EfficientTrain++ trainierte Modell verliert auch bei nachgelagerten Aufgaben wie Zielerkennung, Instanzsegmentierung und semantischer Segmentierung nicht an Leistung. Abbildung 15 COCO-Zielerkennung, COCO-Instanzsegmentierung und experimentelle Ergebnisse der semantischen ADE20K-Segmentierung
III. Experimentelle Ergebnisse
Das obige ist der detaillierte Inhalt vonEinfach und universell: Das Visual Basic-Netzwerk beschleunigt das verlustfreie Training um das bis zu Dreifache. Tsinghua EfficientTrain++ wurde für TPAMI 2024 ausgewählt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!