Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

WBOY
WBOYnach vorne
2023-04-30 23:34:10639Durchsuche

In letzter Zeit nimmt das große Sprachmodell Waffenkrieg den größten Raum im Freundeskreis ein. Es gibt viele Artikel darüber, was diese Modelle können und welchen kommerziellen Wert sie haben. Als junger Forscher, der sich seit vielen Jahren mit künstlicher Intelligenz beschäftigt, mache ich mir jedoch mehr Sorgen um die technischen Prinzipien dieses Wettrüstens und darum, wie diese Modelle zum Nutzen der Menschheit entwickelt werden. Anstatt zu untersuchen, wie diese Modelle zu Geld gemacht und so konstruiert werden können, dass sie mehr Menschen Vorteile bringen, möchte ich den Grund für dieses Phänomen untersuchen und herausfinden, was wir Forscher tun können, um „durch KI ersetzt zu werden“, bevor KI den Menschen ersetzt . Dann gehen Sie ehrenvoll in den Ruhestand“ und unternehmen Sie etwas dagegen.

Vor drei Jahren, als GPT-3 in der Technologiewelt für Aufruhr sorgte, versuchte ich, die riesige Familie hinter GPT auf historische Weise zu analysieren. Ich habe den technischen Kontext hinter GPT in chronologischer Reihenfolge sortiert (Abbildung 1) und versucht, die technischen Prinzipien hinter dem Erfolg von GPT zu erklären. In diesem Jahr scheint ChatGPT, der jüngere Sohn von GPT-3, schlauer zu sein und kann per Chat mit Menschen kommunizieren, wodurch mehr Menschen auf die neuesten Fortschritte im Bereich der Verarbeitung natürlicher Sprache aufmerksam werden. In diesem historischen Moment sollten wir uns als KI-Historiker vielleicht einen Moment Zeit nehmen, um auf die Ereignisse der letzten Jahre zurückzublicken. Der erste Artikel verwendet GPT-3 als Ausgangspunkt, daher handelt es sich bei dieser Serie tatsächlich um eine Aufzeichnung der Post-GPT-Ära (Post-GPT-Buch). Als ich die Veränderungen in der GPT-Familie untersuchte, wurde mir klar, dass die meisten Geschichten miteinander zusammenhängen zu Transformer, daher ist der Name dieses Artikels Transformer-Familie. Bild 1. Alte GPT-Genealogie. Ausgehend von Word Embedding [1,2] bezieht der Vektor (eine Zahlenfolge) die Semantik des Textes auf seltsame, aber effektive Weise ein. Abbildung 2 zeigt eine Illustration dieser Darstellung: dargestellt durch Zahlen (König – Mann + Frau =). Königin). Auf dieser Grundlage wurde diese riesige NLP-Familie (Natural Language Processing) geschaffen.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 2. Word2Vec-Diagramm (König – Mann + Frau = Königin)

Danach entdeckte sein ältester Sohn ELMo [3] die Bedeutung des Kontexts, wie zum Beispiel die folgenden zwei Sätze:

„Oh! Du hast meine Lieblingspizza gekauft, ich liebe dich so sehr!“ „Ich liebe dich so sehr“ bedeutet offensichtlich etwas anderes. ELMo löste dieses Problem erfolgreich, indem es „einem Modell eine Wortfolge gab und das Modell dann aufforderte, das nächste Wort und das vorherige Wort (Kontext) vorherzusagen“.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Gleichzeitig entdeckte ein entfernter Verwandter von Word Embedding ein weiteres Problem: Wenn Menschen einen Satz verstehen, konzentrieren sie sich auf einige Wörter. Ein offensichtliches Phänomen ist, dass wir manchmal in unserer eigenen Muttersprache lesen werden leicht ignoriert, weil unsere Aufmerksamkeit beim Verständnis dieser Passage nicht auf sie gerichtet ist. Daher schlug er den Aufmerksamkeitsmechanismus vor [4], aber der Aufmerksamkeitsmechanismus war zu diesem Zeitpunkt noch sehr früh und konnte nicht alleine funktionieren, sodass er nur an Sequenzmodelle wie RNN und LSTM angehängt werden konnte. Abbildung 3 zeigt den Kombinationsprozess von Aufmerksamkeitsmechanismus und RNN und erklärt auch, warum Aufmerksamkeit selbst nicht alleine funktionieren kann. Lassen Sie uns kurz über den Arbeitsprozess des NLP-Modells sprechen. Zuerst haben wir einen Satz wie „Ich liebe dich, China“. Dies sind fünf Zeichen, die in Abbildung 3 in x_1-x_5 umgewandelt werden können, und dann wird jedes Zeichen angezeigt Die Wörter, die wir gerade gesagt haben, sind h_1-h_5 in Abbildung 3, und dann werden sie schließlich ausgegeben, z. B. „Ich liebe China“ (Übersetzungsaufgabe), also x_1'-x_3' Abbildung 3. Der verbleibende Teil in Abbildung 3 ist der Aufmerksamkeitsmechanismus, der in Abbildung 3 A ist. Dies entspricht der Zuweisung eines Gewichts zu jedem h, sodass wir wissen, welche Wörter beim Konvertieren des aktuellen Wortes wichtiger sind. Spezifische Details finden Sie in dem Artikel, den ich ursprünglich geschrieben habe (beginnend mit word2vec und über den riesigen Stammbaum von GPT). Es ist ersichtlich, dass die digitale Darstellung hier die Grundlage der gesamten Aufgabe ist, weshalb der Aufmerksamkeitsmechanismus nicht alleine funktionieren kann.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 3. Frühe Fotos – Achtung und leistungsstarke RNN-Kombination (Quelle: Achtung für RNN Seq2Seq-Modelle (1,25 x Geschwindigkeit empfohlen) - YouTube)

Zu diesem Zeitpunkt ist Transformer als stolzer direkter Verwandter der königlichen Familie damit nicht einverstanden Art der Arbeit, die von anderen abhängt. In dem Artikel „Aufmerksamkeit ist alles, was Sie brauchen“ (Sie brauchen nur den Aufmerksamkeitsmechanismus) [5] wurde eine eigene unabhängige Methode vorgeschlagen und das Wort „Aufmerksamkeitsmechanismus“ hinzugefügt, um „Selbst“ zu werden -attention"-Mechanismus", der diese Zahlenfolge nur mithilfe des Aufmerksamkeitsmechanismus generieren kann. Wir nutzen die traditionelle chinesische Medizin, um diese Veränderung zu erklären. Man kann sagen, dass der anfängliche Aufmerksamkeitsmechanismus die Dosierung jedes Materials ist, aber wenn Sie schließlich das Medikament besorgen, liegt das Medikament in den Händen eines Medikamentensammlers wie RNN oder LSTM. Natürlich muss es auch das Rezept sein, das wir verschreiben basierend auf der Apotheke (RNN, Welche Medizin gibt es in LSTM). Was Transformer macht, ist einfach, das Recht zum Sammeln von Medikamenten zurückzunehmen (Wertmatrix hinzufügen) und dann die Art und Weise der Medikamentenverschreibung zu ändern (Schlüssel und Abfragematrizen hinzufügen). Zu diesem Zeitpunkt kann die Quelle als Aufbewahrungsbox in einem Geschäft für traditionelle chinesische Medizin betrachtet werden. Die Medikamente in der Aufbewahrungsbox bestehen aus dem Adressschlüssel (Name des Medikaments) und dem Wert (Medikament). Derzeit gibt es eine Abfrage mit Schlüssel = Abfrage (Rezept), und der Zweck besteht darin, den entsprechenden Wertwert (Medizin) aus der Aufbewahrungsbox zu nehmen, der der Aufmerksamkeitswert ist. Die Adressierung erfolgt durch den Vergleich der Ähnlichkeit zwischen der Abfrage und der Adresse des Elements Key in der Aufbewahrungsbox. Der Grund, warum es Soft-Adressierung genannt wird, bedeutet, dass wir nicht nur ein Medikament aus der Aufbewahrungsbox finden, sondern es auch aus finden können Jeder Schlüssel wird aus der Adresse abgerufen. Die Wichtigkeit des abgerufenen Inhalts (die Menge) wird anhand der Ähnlichkeit zwischen Abfrage und Schlüssel bestimmt. Anschließend wird der Wert gewichtet und summiert, sodass der endgültige Wert (ein Paar) entsteht Traditionelle Chinesische Medizin) kann abgerufen werden, was Aufmerksamkeit wert ist. Daher betrachten viele Forscher den Aufmerksamkeitsmechanismus als einen Sonderfall der Soft-Adressierung, was auch sehr vernünftig ist [6].

Von da an begann Transformer offiziell, die Familie zum Wohlstand zu führen.

Transformer-Nachfolge

Tatsächlich ist aus Abbildung 1 ersichtlich, dass Transformer der wohlhabendste Nachkomme in Opas Familie ist, und das ist der Beweis dass das Thema „Aufmerksamkeit ist alles was man braucht“ durchaus begründet war. Obwohl ich gerade über den von ihm vorgeschlagenen Selbstaufmerksamkeitsmechanismus gesprochen habe, wurde im vorherigen Artikel (beginnend mit word2vec und dem riesigen Stammbaum von GPT) bereits ausführlich über den Evolutionsprozess des Transformators gesprochen Werfen wir einen Blick auf die Transformatorarchitektur.

Einfach ausgedrückt können wir uns Transformer als „Schauspieler“ vorstellen. Für diesen „Schauspieler“ ist der Encoder wie das Gedächtnis des Schauspielers, der für die Konvertierung der Zeilen verantwortlich ist in eine Zwischendarstellung umgewandelt (abstrahiert in etwas, von dem wir nicht wissen, was es im Kopf ist, also das Verständnis des Schauspielers), und der Decoder ist wie die Leistung des Schauspielers dafür verantwortlich, das Verständnis im Kopf in eine Darstellung umzuwandeln den Bildschirm. Der wichtigste Selbstaufmerksamkeitsmechanismus ist hier die Konzentration des Schauspielers, die die Aufmerksamkeit des Schauspielers automatisch an verschiedene Positionen anpassen kann, wodurch alle Zeilen besser verstanden werden und es ihm ermöglicht wird, in verschiedenen Situationen natürlicher und reibungsloser zu agieren.

Genauer gesagt können wir uns Transformer als eine große „Sprachverarbeitungsfabrik“ vorstellen. In dieser Fabrik ist jeder Arbeiter (Encoder) dafür verantwortlich, eine Position in der Eingabesequenz (sagen wir ein Wort) zu verarbeiten, sie zu verarbeiten und umzuwandeln und sie dann an den nächsten Arbeiter (Encoder) weiterzugeben. Jeder Mitarbeiter verfügt über eine detaillierte Stellenbeschreibung (Selbstaufmerksamkeitsmechanismus), die detailliert beschreibt, wie Eingaben vom aktuellen Standort verarbeitet und Verknüpfungen zu früheren Standorten hergestellt werden. In dieser Fabrik kann jeder Arbeiter gleichzeitig an seinen eigenen Aufgaben arbeiten, sodass die gesamte Fabrik große Mengen an Eingabedaten effizient verarbeiten kann.

Transformer Sobald er erschien, eroberte er den Thron ohne große Spannung direkt aufgrund seiner starken Stärke und zwei ehrgeizigen Söhnen (BERT und GPT). BERT (Bidirektionale Encoder-Repräsentationen von Transformers) [1] erbte den Encoder-Teil von Transformer und gewann die erste Hälfte des Wettbewerbs, verlor jedoch aufgrund seiner Einschränkungen in Bezug auf die Vielseitigkeit gegen GPT. Der ehrliche GPT (Generative Pre-Trained Transformer) [7-10] erbte den Decoder-Teil, lernte ehrlich von Grund auf, lernte menschliche Kommunikationsmethoden und erreichte schließlich in der zweiten Hälfte das Überholen.

Natürlich hören Transformers Ambitionen hier natürlich nicht auf. „Aufmerksamkeit ist alles, was Sie brauchen“ bezieht sich nicht nur auf den NLP-Bereich. Bevor wir auf den Streit zwischen GPT und BERT eingehen, werfen wir zunächst einen Blick darauf, was ihr Vater getan hat. „Neue Genealogie – viele Prinzen“ Wir können einen Blick darauf werfen, wie weit sich die Transformer-Familie unter der starken Entwicklung von Transformer (neue Genealogie) entwickelt hat. Wie aus dem vorherigen „Schauspieler“-Beispiel hervorgeht, stellt Transformer eine Lernmethode dar, die der menschlichen Logik entspricht und daher nicht nur Text, sondern auch Bilder verarbeiten kann. Abbildung 2 fasst den starken familiären Hintergrund der Transformer-Familie zusammen. Transformer ermöglicht GPT und BERT nicht nur, weiterhin neue Wege im ursprünglichen NLP-Bereich (Natural Language Processing) zu beschreiten, sondern hat auch damit begonnen, sich im Bereich Computer Vision zu engagieren. Auch seine jüngeren Söhne (von Google usw. vorgeschlagenes ViT) glänzen auf diesem Gebiet. Im Jahr 2021 löste Vision Transformer eine große Explosion aus, und eine große Anzahl von Arbeiten, die auf Vision Transformer basierten, eroberten Computer-Vision-Aufgaben. Als Familie kommuniziert die Transformer-Familie natürlich immer miteinander, und so entstand CLIP, das Text und Bilder verbindet (KI-Malerei). Ende 2022 war Stable Diffusion vor ChatGPT sehr beliebt. Darüber hinaus öffnet CLIP auch der Transformer-Familie neue Türen zur Multimodalität. Können Worte neben Worten und Bildern auch Musik machen und auch Bilder zeichnen? Es entstanden auch multimodale und Multitasking-Transformer. Kurz gesagt: Ein Transformer, der im NLP-Bereich bei Null angefangen hat, ist zu einem „König von Zhou“ geworden, der nach harter Entwicklungsarbeit Prinzen anvertrauen kann.

Es gibt viele Prinzen, es muss ein wohlhabendes Zeitalter sein.

Abbildung 4. Der zunehmend wohlhabende Stammbaum der Transformer-Familie

Ein kurzer Test – Vision Transformer [12]

Bevor wir über GPT sprechen, müssen wir zunächst über das erste sprechen Leistung von Transformer Ein mutiger Versuch – das heißt, meinen jüngeren Sohn in den Lebenslaufbereich einbinden zu lassen. Werfen wir zunächst einen Blick auf das Leben des jüngeren Sohnes: Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Sein Vater Transformer wurde 2017 in einer Zeitung mit dem Titel „Attention is All You Need“ geboren. Im Jahr 2019 schlug Google eine Vision Transformer (ViT)-Architektur vor, die Bilder direkt verarbeiten kann, ohne Faltungsschichten (CNN) zu verwenden. Der Titel der Arbeit ist so einfach wie eh und je: „Ein Bild sagt mehr als 16 x 16 Wörter“. Wie in Abbildung 5 dargestellt, besteht die Grundidee darin, das Eingabebild in eine Reihe kleiner Blöcke zu unterteilen, die bei der Verarbeitung von Artikeln in der Vergangenheit als Text verstanden werden können, und diese kleinen Blöcke dann wie in Vektoren umzuwandeln normal Der Transformer behandelt Text auf die gleiche Weise. Während im Bereich der Verarbeitung natürlicher Sprache (NLP) der Aufmerksamkeitsmechanismus von Transformer versucht, die Beziehung zwischen verschiedenen Wörtern im Text zu erfassen, versucht ViT im Bereich der Computer Vision (CV) die Beziehung zwischen verschiedenen Teilen darin zu erfassen das Bild.

  • Abbildung 5. Wie ViT Bilder verarbeitet (Quelle: Are Transformers better than CNN's at Image Recognition? | by Arjun Sarkar | Towards Data Science)

Danach verschiedene Transformer-basierte Modelle tauchen endlos auf und haben bei entsprechenden Aufgaben Ergebnisse erzielt, die über CNN hinausgehen. Was sind also die Vorteile von Transformer? Kehren wir zum Filmbeispiel zurück und sehen uns den Unterschied zwischen Transformer und CNN an:

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Stellen Sie sich vor, Sie sind Regisseur und müssen die Positionen der Schauspieler arrangieren und verschiedene Elemente an den richtigen Stellen platzieren. Verwenden Sie geeignetes Licht, damit das gesamte Bild harmonisch und schön wirkt. Für CNN ist es wie ein professioneller Fotograf, der jedes Bild Pixel für Pixel aufnimmt und dann einige untergeordnete Merkmale wie Kanten und Texturen extrahiert. Anschließend werden diese Merkmale zu übergeordneten Merkmalen wie Gesichtern, Aktionen usw. kombiniert und schließlich ein Rahmen erstellt. Während der Film fortschreitet, wiederholt CNN diesen Vorgang, bis der gesamte Film gedreht ist.

Für ViT ist es wie ein Art Director, der das gesamte Bild als Ganzes betrachtet und dabei Faktoren wie Hintergrund, Licht, Farbe usw. berücksichtigt. , denn jedem Schauspieler wird die passende Position und der richtige Winkel zugewiesen, um ein perfektes Bild zu erstellen. ViT aggregiert diese Informationen dann zu einem Vektor und verarbeitet ihn mithilfe eines mehrschichtigen Perzeptrons, wodurch ein Frame entsteht. Im weiteren Verlauf des Films wiederholt ViT diesen Vorgang, bis der gesamte Film erstellt ist.

Zurück zur Bildverarbeitungsaufgabe: Nehmen wir an, wir haben ein 224x224 Pixel großes Bild einer Katze und möchten es mithilfe eines neuronalen Netzwerks klassifizieren. Wenn wir ein herkömmliches Faltungs-Neuronales Netzwerk verwenden, kann es mehrere Faltungs- und Pooling-Schichten verwenden, um die Bildgröße schrittweise zu verringern und schließlich einen kleineren Merkmalsvektor zu erhalten, der dann durch eine vollständig verbundene Schicht klassifiziert wird. Das Problem bei dieser Methode besteht darin, dass wir während des Faltungs- und Pooling-Prozesses nach und nach Informationen im Bild verlieren, da wir nicht die Beziehung zwischen allen Pixeln gleichzeitig berücksichtigen können. Darüber hinaus können wir aufgrund der Reihenfolgebeschränkung der Faltungs- und Pooling-Schichten keinen globalen Informationsaustausch durchführen. Wenn wir dagegen den Transformer und den Selbstaufmerksamkeitsmechanismus verwenden, um dieses Bild zu verarbeiten, können wir das gesamte Bild direkt als Sequenz behandeln und Selbstaufmerksamkeitsberechnungen dafür durchführen. Bei dieser Methode geht die Beziehung zwischen den Pixeln nicht verloren und ermöglicht eine globale Informationsinteraktion.

Darüber hinaus Da die Selbstaufmerksamkeitsberechnung parallelisierbar ist, können wir das gesamte Bild gleichzeitig verarbeiten, was die Geschwindigkeit erheblich beschleunigt die Berechnung. . Angenommen, wir haben einen Satz: „Ich esse gerne Eis“, der 6 Wörter enthält. Unter der Annahme, dass wir zum Verständnis dieses Satzes ein Modell verwenden, das auf dem Selbstaufmerksamkeitsmechanismus basiert, kann der Transformer:

  • Minimieren Sie die gesamte Rechenkomplexität von Jede Schicht: In einem Modell, das auf dem Selbstaufmerksamkeitsmechanismus basiert, müssen wir nur das Aufmerksamkeitsgewicht zwischen jedem Wort und allen anderen Wörtern berechnen, sodass der Berechnungsbetrag jeder Schicht nur von der Eingabelänge und nicht von der Größe abhängt verborgene Ebene. In diesem Beispiel beträgt die Eingabelänge 6 Wörter, sodass die Rechenkomplexität jeder Schicht nur von der Anzahl dieser 6 Wörter abhängt.
  • Maximieren Sie die Anzahl parallelisierbarer Berechnungen: Ein Modell, das auf dem Selbstaufmerksamkeitsmechanismus basiert, kann gleichzeitig die Aufmerksamkeitsgewichtung zwischen jedem Wort und allen anderen Wörtern berechnen, sodass Berechnungen durchgeführt werden können hochgradig parallelisiert, was das Modelltraining und die Inferenz beschleunigt.

ViT benötigt jedoch große Datensätze und hochauflösende Bilder, um sein volles Potenzial auszuschöpfen. Während Vision Transformers im CV-Bereich hervorstechen, sind CNN wird im Bereich Computer Vision immer noch häufiger eingesetzt und erforscht und bietet Vorteile bei Aufgaben wie der Zielerkennung und -segmentierung.

Aber das spielt keine Rolle, Sie haben es gut genug gemacht, und die ursprüngliche Absicht Ihres Vaters, sich bei CV zu engagieren, bestand nicht darin, CNN zu ersetzen, er hatte eine ehrgeizigere Absicht Ziel.

Die Grundlage dieses Ziels ist das „Zusätzlich“, das ich zuvor erwähnt habe.

Erster Auftritt – CLIP [13]

Wie ich bereits sagte, Transformer hat ein ehrgeizigeres Ziel, nämlich „großes Model“ , ein super super großes Modell. Zusätzlich zu dem Transformator, von dem ich im vorherigen Artikel sagte, dass er globale Informationen besser erhalten kann, sind eine geringere Rechenkomplexität und eine bessere Parallelität zur Grundlage für die Unterstützung großer Modelle geworden.

Im Jahr 2021 bereitet sich GPT neben den großen Fortschritten von Vision Transformer auch intensiv auf GPT3.5 vor, ein Modellarbeiter, der sich keine Auszeit nehmen kann, hat zu einem neuen Höhepunkt geführt – der Verbindung von Text und Bildern . Dieser Höhepunkt war auch der erste Startschuss für das „große Modell“-Projekt außerhalb des NLP-Bereichs. Zu diesem Zeitpunkt haben sich die Mängel von Transformer bei visuellen Aufgaben hier in Vorteile verwandelt. „ViT benötigt große Datensätze und hochauflösende Bilder, um sein volles Potenzial auszuschöpfen.“ Anders ausgedrückt: „ViT kann große Datensätze und hochauflösende Bilder verarbeiten.“

Lassen Sie uns wie üblich zunächst darüber sprechen, was CLIP ist. Der vollständige Name von

CLIP lautet „Contrastive Language-Image Pre-Training“. Offensichtlich ist die Grundidee „Kontrastives Lernen“ im traditionellen Lebenslaufbereich. Wenn wir uns neues Wissen aneignen, lesen wir verschiedene Bücher und Artikel, um viele Informationen zu erhalten. Wir merken uns jedoch nicht einfach alle Wörter und Sätze in jedem Buch oder Artikel. Stattdessen versuchen wir, Ähnlichkeiten und Unterschiede zwischen den Informationen zu finden. Beispielsweise stellen wir möglicherweise fest, dass die Art und Weise, wie ein Thema beschrieben wird und die vorgestellten Schlüsselkonzepte in verschiedenen Büchern unterschiedlich sind, die darin beschriebenen Konzepte jedoch im Wesentlichen gleich sind. Diese Art, Ähnlichkeiten und Unterschiede zu finden, ist eine der Grundideen des kontrastiven Lernens. Wir können uns jedes Buch oder jeden Artikel als ein anderes Beispiel vorstellen, und Bücher oder Artikel zum gleichen Thema können als unterschiedliche Exemplare derselben Kategorie betrachtet werden. Beim kontrastiven Lernen trainieren wir das Modell, um zu lernen, wie diese verschiedenen Kategorien von Stichproben unterschieden werden können, um ihre Ähnlichkeiten und Unterschiede zu erfahren.

Lassen Sie uns als Nächstes etwas akademischer vorgehen. Nehmen wir an, Sie möchten einem Modell beibringen, Automarken zu identifizieren. Sie könnten eine Reihe beschrifteter Bilder von Autos haben, jedes mit einem Markenetikett, z. B. „Mercedes-Benz“, „BMW“, „Audi“ usw. Beim traditionellen überwachten Lernen geben Sie das Bild und das Markenlabel zusammen in das Modell ein und lassen das Modell lernen, das richtige Markenlabel vorherzusagen.

Aber beim kontrastiven Lernen können Sie unbeschriftete Bilder verwenden, um das Modell zu trainieren. Angenommen, Sie haben eine Reihe unbeschrifteter Autobilder. Sie können diese Bilder in zwei Gruppen einteilen: positive Proben und negative Proben. Positivproben sind Bilder derselben Marke aus verschiedenen Blickwinkeln, während Negativproben Bilder verschiedener Marken sind. Als Nächstes können Sie das Modell mithilfe von kontrastivem Lernen so trainieren, dass positive Stichproben derselben Marke näher beieinander liegen und negative Stichproben verschiedener Marken weiter voneinander entfernt sind. Auf diese Weise kann das Modell lernen, markenspezifische Merkmale aus Bildern zu extrahieren, ohne ihm explizit das Markenlabel jedes Bildes mitteilen zu müssen.

Offensichtlich handelt es sich hierbei um ein selbstüberwachtes Lernmodell. CLIP ist ebenfalls ein ähnliches selbstüberwachtes Lernmodell, mit dem Unterschied, dass sein Ziel darin besteht, Sprache und Bilder zu verbinden, damit der Computer die Beziehung zwischen Text und Bildern verstehen kann.

Stellen Sie sich vor, Sie lernen eine Reihe von Vokabellisten, in denen jedes Wort seine Definition und das entsprechende Bild hat. Sie können sich jedes Wort und das entsprechende Bild als Paar vorstellen. Ihre Aufgabe besteht darin, die Korrelation zwischen diesen Wörtern und Bildern herauszufinden, d. h. welche Wörter zu welchen Bildern passen und welche nicht.

Wie in Abbildung 6 dargestellt, sind diese Wort- und Bildpaare für den kontrastiven Lernalgorithmus der sogenannte „Anker“ (Ankerstichprobe) und „positiv“ (positive Stichprobe). „Anker“ bezieht sich auf das Objekt, das wir lernen möchten, und „positiv“ ist die Stichprobe, die mit „Anker“ übereinstimmt. Das Gegenteil ist „negativ“ (negative Probe), also eine Probe, die nicht mit dem „Anker“ übereinstimmt.

Beim kontrastiven Lernen paaren wir „Anker“ und „positiv“ und versuchen, sie zu unterscheiden. Wir werden auch „Anker“ und „Negativ“ paaren und versuchen, sie zu unterscheiden. Dieser Prozess kann so verstanden werden, dass nach Ähnlichkeiten zwischen „Anker“ und „Positiv“ gesucht und Ähnlichkeiten zwischen „Anker“ und „Negativ“ beseitigt werden.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 6. Illustration des kontrastiven Lernens [14]. Anker sind im Allgemeinen zugeschnittene und gedrehte Originalbilder, oder bekannte Bilder derselben Kategorie können einfach und grob als unbekannte Bilder (möglicherweise derselben Kategorie) oder bereits bekannte Bilder definiert werden .

Um dieses Ziel zu erreichen, trainiert CLIP zunächst eine große Anzahl von Bildern und Texten vor und verwendet dann das vorab trainierte Modell, um nachgelagerte Aufgaben wie Klassifizierung, Abruf und Generierung auszuführen. Das CLIP-Modell nutzt eine neue selbstüberwachte Lernmethode, die Text und Bilder gleichzeitig verarbeitet und durch Training lernt, diese zu verbinden. Es teilt einen Aufmerksamkeitsmechanismus zwischen Text und Bildern und verwendet einen einfachen Satz einstellbarer Parameter, um diese Zuordnung zu erlernen. Es verwendet einen transformatorbasierten Text-Encoder und einen CNN-basierten Bild-Encoder und berechnet dann die Ähnlichkeit zwischen den Bild- und Texteinbettungen. CLIP lernt, Bilder und Text zu verknüpfen, indem es ein kontrastives Lernziel verwendet, das die Konsistenz zwischen in den Daten vorhandenen Bild-Text-Paaren maximiert und die Konsistenz zwischen zufällig ausgewählten Bild-Text-Paaren minimiert.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 7. CLIP-Illustration [13]. Im Vergleich zu Abbildung 6 ist es einfach zu verstehen, dass sowohl das Positive als auch das Negative in Abbildung 6 Text sind.

Wenn wir beispielsweise CLIP verwenden möchten, um festzustellen, ob es sich bei einem Bild um „Roter Strand“ handelt, können wir diese Textbeschreibung und ein Bild eingeben. CLIP generiert ein Vektorpaar, um ihre Beziehung darzustellen. Wenn der Abstand zwischen diesem Vektorpaar sehr klein ist, bedeutet dies, dass das Bild möglicherweise ein „roter Strand“ ist und umgekehrt. Mit diesem Ansatz ermöglicht CLIP Aufgaben wie Bildklassifizierung und Bildsuche.

Zurück zum vollständigen Namen: Das letzte Wort von CLIP ist Vortraining. Daher ist sein Kern immer noch ein vorab trainiertes Modell, es kann jedoch für verschiedene nachgelagerte Aufgaben verwendet werden, bei denen es um das Abgleichen von Bildern und Text geht, z. B. die Bildklassifizierung, Null -Shot-Lernen und Bildbeschreibung generieren usw. Beispielsweise kann CLIP verwendet werden, um Bilder in Kategorien zu klassifizieren, die durch Bezeichnungen in natürlicher Sprache vorgegeben sind, etwa „Fotos von Hunden“ oder „Landschaften“. CLIP kann auch zum Generieren von Bildunterschriften verwendet werden, indem ein Sprachmodell verwendet wird, das auf den von CLIP extrahierten Bildmerkmalen basiert. Darüber hinaus kann CLIP verwendet werden, um Bilder aus Text zu generieren, indem generative Modelle verwendet werden, die auf von CLIP extrahierten Textmerkmalen basieren.

DALL-E & Stable Diffusion

Mit Hilfe von CLIP ist ein neuer Prinz auferstanden – sein Name ist AIGC (KI generierter Inhalt). Tatsächlich ist ChatGPT im Wesentlichen eine Art AIGC, aber in diesem Abschnitt sprechen wir hauptsächlich über KI-Malerei. Werfen wir zunächst einen Blick auf die Entwicklungsgeschichte der kleinen Familie der KI-Malerei:

  • 2021.01, OpenAI veröffentlichte DALL-E [15] (KI-Malerei-Software), die GPT-3 verbessert, sodass GPT-3 Bilder generiert statt Text (Image Transformer Network)
  • Fast gleichzeitig (2021.01) veröffentlichte OpenAI CLIP [13]
  • 2021.05 veröffentlichten Google Brain und DeepMind Stable Diffusion [17] und iterieren weiterhin neue Versionen . Es verwendet einen eingefrorenen CLIP-Text-Encoder, um das Modell basierend auf Texthinweisen anzupassen. Eine stabile Diffusion zerlegt den Bilderzeugungsprozess in einen Laufzeit-„Diffusion“-Prozess. Beginnend mit nur Rauschen wird das Bild schrittweise korrigiert, bis überhaupt kein Rauschen mehr vorhanden ist, wodurch es näher an die bereitgestellte Textbeschreibung herankommt.
  • 2022.04, DALL-E-2 [16] veröffentlicht. Es kann realistische Bilder und Grafiken basierend auf Beschreibungen in natürlicher Sprache erstellen. DALL-E-2 verwendet ein zweiteiliges Modell, bestehend aus einem Prior und einem Decoder. Das vorherige ist ein GPT-3-Modell, das CLIP-Bilderinbettungen basierend auf Texthinweisen generiert. Der Decoder ist ein Diffusionsmodell, das Bilder basierend auf CLIP-Einbettungen generiert. DALL-E-2 kann auch Outpainting, Inpainting und Änderungen an vorhandenen Bildern durchführen.

Die Abstammung dieser Familie ist sichtbar. Der älteste Bruder CLIP verband Bilder und Text, und sein Zwillingsbruder DALL-E nutzte die Gelegenheit, um die Aufgabe von Text zu Bild vorzuschlagen. Um diese Aufgabe zu verbessern, verbesserte ein entfernter Cousin, Stable Diffusion, den Algorithmus zur Bilderzeugung. Schließlich lernte DALL-E-2 voneinander und kombinierte die Vorteile von GPT-3, CLIP und Stable Diffusion, um seine eigene KI zu vervollständigen Lackieranlage.

Angenommen, Sie sind Maler und DALL-E ist Ihr Werkzeugkasten für das Original-DALL-E. In dieser Metapher gibt es zwei Hauptwerkzeuge im Werkzeugkasten: eines ist der Pinsel und das andere ist die Palette.

Brush ist der Decoder von DALL-E, der eine gegebene Textbeschreibung in ein Bild umwandelt. Die Palette ist der Encoder von DALL-E, der jede Textbeschreibung in einen Merkmalsvektor umwandeln kann.

Wenn Sie eine Textbeschreibung erhalten, verwenden Sie zunächst die Farbpalette, um einen Merkmalsvektor zu generieren. Anschließend können Sie Ihren Pinsel nehmen und anhand der Merkmalsvektoren ein Bild erstellen, das der Beschreibung entspricht. Wenn Sie Details benötigen, verwenden Sie einen feineren Pinsel und bei Bedarf einen gröberen Pinsel.

Im Gegensatz zu einem Maler verwendet DALL-E neuronale Netze anstelle von Pinseln und Paletten. Dieses neuronale Netzwerk verwendet eine Struktur namens Image Transformer Network. Bei der Generierung von Bildern verwendet DALL-E das zuvor erwähnte GPT-3-Modell, um CLIP-Bildeinbettungen zu generieren, die Textbeschreibungen entsprechen. DALL-E verwendet dann einen Strahlsuchalgorithmus, um eine Folge möglicher Bilder zu generieren, die mit der Eingabetextbeschreibung übereinstimmen, und leitet sie in einen Decoder ein, um das endgültige Bild zu erzeugen. Dieser Einbettungsvektor wird mithilfe einer Technik namens kontrastives Lernen trainiert, die ähnliche Bilder und Texte in benachbarte Räume einbettet, sodass sie einfacher kombiniert werden können. Beachten Sie, dass DALLE hier CLIP nicht direkt einschließt, sondern die Text- und Bildeinbettungen von CLIP verwendet, um den Transformator und VAE zu trainieren.

Was den Strahlsuchalgorithmus betrifft, der beim Generieren von Bildern verwendet wird, handelt es sich tatsächlich um einen gierigen Suchalgorithmus, der die optimale Sequenz in einer begrenzten Anzahl von Kandidaten finden kann. Die Grundidee der Strahlsuche besteht darin, dass bei jeder Erweiterung der aktuellen Sequenz nur die k Kandidaten mit der höchsten Wahrscheinlichkeit beibehalten werden (k wird als Strahlbreite bezeichnet) und andere Kandidaten mit geringer Wahrscheinlichkeit verworfen. Dies reduziert den Suchraum und verbessert die Effizienz und Genauigkeit. Die spezifischen Schritte bei der Verwendung der Strahlsuche zum Generieren von Bildern in DALLE sind wie folgt:

  • Kodieren Sie die Eingabetextbeschreibung in einen Vektor und dienen Sie als erste Eingabe des Transformatormodells.
  • Erzeugen Sie ausgehend von einem speziellen Startsymbol Pixel für Pixel eine Bildsequenz. Jedes Mal, wenn ein Pixel generiert wird, wird das Transformatormodell verwendet, um die Wahrscheinlichkeitsverteilung des nächsten Pixels vorherzusagen, und die k Kandidatenpixel mit der höchsten Wahrscheinlichkeit werden als Erweiterung der aktuellen Sequenz ausgewählt.
  • Berechnen Sie für jede erweiterte Sequenz ihre kumulative Wahrscheinlichkeit, behalten Sie die k Sequenzen mit der höchsten Wahrscheinlichkeit bei und verwerfen Sie andere Sequenzen.
  • Wiederholen Sie die Schritte 2 und 3, bis ein spezielles Endsymbol generiert wird oder die maximale Längenbeschränkung erreicht ist.
  • Gibt die Sequenz mit der höchsten Wahrscheinlichkeit als endgültig generiertes Bild zurück.

Das gleiche Gemälde, wie zeichnet man eine stabile Diffusion? Wenn wir ein Kunstwerk malen möchten, benötigen wir normalerweise eine gute Komposition und einige spezifische Elemente, aus denen es besteht. Stabile Diffusion ist eine solche Methode zur Bilderzeugung, die den Bilderzeugungsprozess in zwei Teile unterteilt: den Diffusionsprozess und den Rekonstruktionsprozess. Stellen Sie sich den Diffusionsprozess als das Zusammenmischen einer Reihe verstreuter Pinsel, Farben und einer Leinwand vor, wodurch nach und nach immer mehr Elemente auf der Leinwand entstehen. Während dieses Prozesses wussten wir weder, wie das endgültige Bild aussehen würde, noch konnten wir die endgültige Position jedes Elements bestimmen. Wir können diese Elemente jedoch nach und nach hinzufügen und anpassen, bis das gesamte Gemälde fertig ist. Dann ist die Eingabetextbeschreibung wie eine grobe Beschreibung des Werks, das wir zeichnen möchten, und ein Strahlsuchalgorithmus wird verwendet, um eine Feinabstimmung zwischen der Textbeschreibung und dem generierten Bild durchzuführen. Bei diesem Prozess modifizieren und passen wir Elemente ständig an, damit sie besser zu dem von uns gewünschten Bild passen. Letztendlich wird das resultierende Bild genau mit der Textbeschreibung übereinstimmen und das Kunstwerk wiedergeben, das wir uns vorgestellt haben.

Wie in Abbildung 8 dargestellt, ist das Diffusionsmodell hier ein generatives Modell, das die Verteilung von Daten lernt, indem es den Daten schrittweise Rauschen hinzufügt und dann den Prozess der Wiederherstellung der Originaldaten umkehrt. Die stabile Diffusion verwendet einen vorab trainierten Variations-Autoencoder (VAE), um Bilder in niedrigdimensionale latente Vektoren zu codieren, und ein transformatorbasiertes Diffusionsmodell, um Bilder aus den latenten Vektoren zu generieren. Stable Diffusion verwendet außerdem einen eingefrorenen CLIP-Text-Encoder, um Texthinweise in Bilderinbettungen umzuwandeln, um das Diffusionsmodell zu konditionieren.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 8. Stabiler Diffusionsprozess. Der erste ist der obere Pfeil, der kontinuierlich zu einem Bild hinzugefügt wird, und schließlich wird es zu einem reinen Rauschbild. Anschließend wird der untere Pfeil verwendet, um das Rauschen schrittweise zu beseitigen und dann das Originalbild wiederherzustellen. (Bildquelle: Von DALL・E zur stabilen Diffusion: Wie funktionieren Modelle zur Text-zu-Bild-Generierung? | Tryolabs)

Es ist erwähnenswert, dass der Diffusionsprozess in Stable Diffusion ein zufälliger Prozess ist, sodass das generierte Bild jedes Mal anders ist, selbst bei derselben Textbeschreibung. Diese Zufälligkeit macht die erzeugten Bilder vielfältiger und erhöht zudem die Unsicherheit des Algorithmus. Um die erzeugten Bilder stabiler zu machen, verwendet Stable Diffusion einige Techniken, z. B. das Hinzufügen von allmählich zunehmendem Rauschen während des Diffusionsprozesses und die Verwendung mehrerer Rekonstruktionsprozesse, um die Bildqualität weiter zu verbessern.

Stable Diffusion hat auf Basis von DALL-E große Fortschritte gemacht:

  • #🎜 🎜#Lösung: Eine stabile Diffusion kann Bilder mit bis zu 1024×1024 Pixeln erzeugen, während DALL-E derzeit nur Bilder mit 256×256 Pixeln erzeugen kann.
  • Geschwindigkeit: Eine stabile Diffusion erfordert mehrere Iterationen, um ein Bild zu erzeugen, daher ist sie langsamer. DALL-E kann Bilder in einem Durchgang erzeugen und ist daher schneller.
  • Flexibilität: Stabile Diffusion kann vorhandene Bilder erweitern, patchen und ändern, während DALL-E Bilder nur aus Textaufforderungen generieren kann.
  • Authentizität: Eine stabile Diffusion kann realistischere und detailliertere Bilder erzeugen, insbesondere bei komplexen und abstrakten Beschreibungen. DALL-E kann einige Bilder erzeugen, die nicht den physikalischen Gesetzen oder dem gesunden Menschenverstand entsprechen.

Aus diesem Grund fügt DALL-E-2 seinem Modell auch das Diffusionsmodell hinzu. #? Princes führen Reformen in vollem Gange durch, auch das GPT-Team hat im Stillen gearbeitet. Wie eingangs erwähnt, verfügte GPT-3 bereits bei seiner ersten Veröffentlichung über starke Fähigkeiten, aber seine Verwendungsmethode war nicht so „nicht technisch benutzerfreundlich“, sodass die Wellen, die es verursachte, alle in der technischen Welt waren und nicht sehr begeistert waren Erstens, und es löst sich aufgrund der hohen Gebühren zunehmend auf.

Transformer ist sehr unzufrieden und hat darüber nachgedacht und beschlossen, es zu reformieren!

Der erste, der auf den Aufruf zur Reform reagierte und den ersten Schritt machte, war GPT 3.5:

# 🎜🎜# „Ich bin dumm und kann mir keinen guten Weg vorstellen, mich zu reformieren, also lasst uns zuerst ein solides Fundament legen.“

GPT3.5 basiert also auf GPT-3 und verwendet eine Art von Trainingsdaten namens Text+Code, das heißt, basierend auf den Textdaten werden einige Programmiercodedaten hinzugefügt. Einfach ausgedrückt wird ein größerer Datensatz verwendet. Dadurch kann das Modell Code besser verstehen und generieren, wodurch die Vielfalt und Kreativität des Modells erhöht wird. Text+Code sind text- und codebasierte Trainingsdaten, die von OpenAI aus dem Web gesammelt und organisiert werden. Es besteht aus zwei Teilen: Text und Code. Bei Text handelt es sich um in natürlicher Sprache beschriebene Inhalte wie Artikel, Kommentare, Gespräche usw. Code ist etwas, das in einer Programmiersprache wie Python, Java, HTML usw. geschrieben ist. Text+Code-Trainingsdaten können es dem Modell ermöglichen, Code besser zu verstehen und zu generieren, wodurch die Vielfalt und Kreativität des Modells verbessert wird. Bei Programmieraufgaben kann das Modell beispielsweise entsprechenden Code basierend auf Textbeschreibungen generieren, und der Code weist eine hohe Korrektheit und Lesbarkeit auf. Bei der Aufgabe zur Inhaltsgenerierung kann das Modell den entsprechenden Text basierend auf der Codebeschreibung generieren, und der Text ist äußerst konsistent und interessant. Text+Code-Trainingsdaten können es dem Modell auch ermöglichen, mehrsprachige, multimodale und multidomänenbezogene Daten und Aufgaben besser zu verarbeiten. Beispielsweise kann das Modell bei Sprachübersetzungsaufgaben eine genaue und reibungslose Übersetzung basierend auf der Korrespondenz zwischen verschiedenen Sprachen durchführen. Bei der Bildgenerierungsaufgabe kann das Modell entsprechende Bilder basierend auf Text- oder Codebeschreibungen generieren, und die Bilder weisen eine hohe Klarheit und Wiedergabetreue auf.

Die zweite Person, die auf den Anruf antwortete, war Instruct GPT, der ein neues Problem entdeckte:

# 🎜🎜# „Wenn wir mit den Menschen eins sein wollen, müssen wir besser auf ihre Meinungen hören.“

So entstand die berühmte neue Auslandshilfe, nämlich die RLHF-Trainingsstrategie. RLHF ist eine Trainingsstrategie, die auf Reinforcement Learning basiert und der vollständige Name lautet Reinforcement Learning from Human Feedback. Seine Kernidee besteht darin, dem Modell während des Trainingsprozesses einige Anweisungen zu geben und es basierend auf der Ausgabe des Modells zu belohnen oder zu bestrafen. Dies ermöglicht es dem Modell, Anweisungen besser zu befolgen und verbessert die Kontrollierbarkeit und Glaubwürdigkeit des Modells. Tatsächlich verfügt GPT-3.5 auch über menschliches Feedback. Welche Änderungen haben sich nach dem Hinzufügen von Verstärkungslernen (Reinforcement Learning) ergeben?

  • Das menschliche Feedback von GPT3.5 wird direkt zur Feinabstimmung der Parameter des Modells verwendet, während das RLHF von Instruct GPT zum Trainieren eines Belohnungsmodells verwendet wird und dieses Belohnungsmodell dann zur Steuerung des Verhaltens von verwendet wird das Modell. Das menschliche Feedback von
  • GPT3.5 basiert auf der Bewertung einer einzelnen Ausgabe, während das RLHF von Instruct GPT auf Vergleichen zwischen mehreren Ausgaben basiert.
  • Das menschliche Feedback von GPT3.5 wird nur einmal durchgeführt, während RLHF von Instruct GPT mehrere Iterationen durchführen kann, kontinuierlich neue Vergleichsdaten sammelt, neue Belohnungsmodelle trainiert und neue Strategien optimiert.

Mit anderen Worten, es sind weniger menschliche Investitionen erforderlich, aber es bringt größere Vorteile für das Modell. L r Abbildung 9. RLHF-Prozess (Quelle: GPT-4 (openai.com))

wie in Abbildung 9 dargestellt, RLHF-Trainingsstrategie. Es ist in zwei Phasen unterteilt: Vortraining und Feinabstimmung. In der Vortrainingsphase verwendet das Modell denselben Datensatz wie GPT-3 für unbeaufsichtigtes Lernen, um die Grundkenntnisse und Regeln der Sprache zu erlernen. In der Feinabstimmungsphase verwendet das Modell einige manuell gekennzeichnete Daten für das verstärkende Lernen, um zu lernen, wie auf der Grundlage von Anweisungen geeignete Ausgaben generiert werden.

Manuell gekennzeichnete Daten bestehen aus zwei Teilen: Anweisungen und Feedback. Anweisungen sind in natürlicher Sprache beschriebene Aufgaben, wie zum Beispiel „Schreibe ein Gedicht über den Frühling“ oder „Erzähl mir einen Witz über einen Hund.“ Feedback ist eine numerische Bewertung, z. B. „1“ für „schlecht“ oder „5“ für „ausgezeichnet“. Das Feedback wird von menschlichen Annotatoren auf der Grundlage der Modellausgabe gegeben und spiegelt die Qualität und Angemessenheit der Modellausgabe wider. Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

In der Feinabstimmungsphase verwendet das Modell einen Algorithmus namens Actor-Critic für verstärkendes Lernen. Der Actor-Critic-Algorithmus besteht aus zwei Teilen: Actor und Critic. Ein Akteur ist ein Generator, der auf der Grundlage von Anweisungen eine Ausgabe erzeugt. Kritiker ist ein Bewerter, der den ausgegebenen Belohnungswert basierend auf Feedback bewertet. Schauspieler und Kritiker arbeiten zusammen und konkurrieren miteinander und aktualisieren ständig ihre eigenen Parameter, um den Belohnungswert zu erhöhen. RLHF-Trainingsstrategien können dafür sorgen, dass das Modell den Anweisungen besser folgt und die Kontrollierbarkeit und Glaubwürdigkeit des Modells verbessern. Beispielsweise kann das Modell bei Schreibaufgaben gemäß den Anweisungen Texte unterschiedlichen Stils und Themas generieren, und die Texte weisen eine hohe Kohärenz und Logik auf. Bei Konversationsaufgaben kann das Modell auf der Grundlage von Anweisungen Antworten mit unterschiedlichen Emotionen und Tönen generieren, und die Antworten sind äußerst relevant und höflich.

Nach der Reform und Anhäufung seiner Vorgänger hatte ChatGPT, der flexiblere jüngere Sohn der GPT-Familie, schließlich das Gefühl, dass es an der Zeit war, basierend auf Instruct GPT einen Dialogmodus einzuführen, der eher dem Menschen entspricht Kommunikationsmethoden, die direkt eine große Revolution in der menschlichen Gesellschaft auslösten (Hunderte Millionen Benutzer), und es ist kostenlos. Nach mehreren Jahren des Ruhens wurde die GPT-Familie schließlich zum Blockbuster und zum beliebtesten Prinzen der Transformer-Familie . Es gewann direkt den Nachfolgekampf und wurde Prinz.

Gleichzeitig ist der Prinz nicht alles, was Transformer zu bieten hat:

„Eine mächtige Dynastie braucht nicht so viele Prinzen.“ unify „

Unify the Princes – die Ära der großen Models

GPT-4: „Diese Ära ist die Ära der großen Models, sagte ich“ (bushi)

.

Das aktuelle ChatGPT basiert bereits auf GPT-4. Da GPT-4 Angst vor der schnellen Reaktion seiner Konkurrenten hat, sind die meisten technischen Details eigentlich geschlossen. Aus seinen Funktionen geht jedoch hervor, dass GPT-4 nicht nur den Textdialog, sondern auch KI-Mapping-Funktionen hinzugefügt hat. Die GPT-Familie hat aus ihrer ruhenden Erfahrung der letzten Jahre eine Wahrheit erkannt, dass große Vorbilder Gerechtigkeit bedeuten, und möchte diese Wahrheit auf verschiedene Bereiche ausweiten.

Wenn Sie tiefer in die Überlegungen hinter diesem Prinzip eintauchen, könnte es die Art sein, große Modelle zu trainieren. GPT-3 ist derzeit eines der größten Sprachmodelle. Es verfügt über 100 Mal mehr als sein Vorgänger GPT-2 und 10 Mal mehr als das bisher größte ähnliche NLP-Modell großes Vorhersagemodell oder.

Werfen wir also zunächst einen Blick darauf, wie die Modellarchitektur und Trainingsmethoden von GPT-3 eine solche Skalierung und Leistung erreichen:

  • Verteiltes Training: GPT-3 verwendet eine verteilte Trainingsmethode werden über mehrere Rechenknoten verteilt und über Kommunikationsprotokolle koordiniert und synchronisiert. Dadurch können die Rechenressourcen und der Speicherplatz mehrerer Knoten genutzt werden, um den Modelltrainingsprozess zu beschleunigen und größere Modelle und Daten zu unterstützen.
  • GPT-3 verwendet etwa 2000 GPU-Knoten für verteiltes Training. Jeder Knoten verfügt über mehrere GPUs und jede GPU verfügt über den gleichen Videospeicher.
  • GPT-3 verwendet zwei verteilte Trainingsmethoden: Datenparallelität und Modellparallelität.
  • Datenparallelität bezieht sich auf die Aufteilung der Daten in mehrere Teilmengen. Jeder Knoten verarbeitet eine Teilmenge, aktualisiert die Parameter des Modells auf jedem Knoten und synchronisiert dann die Parameter zwischen allen Knoten.
  • Modellparallelität bezieht sich auf die Aufteilung des Modells in mehrere Teile. Jeder Knoten verarbeitet einen Teil, berechnet die Ausgabe und den Gradienten des Teils auf jedem Knoten und leitet dann die Ausgabe und den Gradienten an alle Knoten weiter.
  • GPT-3 verwendet einen hybriden Datenparallelismus- und Modellparallelismus-Ansatz, d. h. Datenparallelität wird innerhalb jedes Knotens und Modellparallelität zwischen verschiedenen Knoten verwendet. Dadurch kann die Rechenleistung und Kommunikationsbandbreite der GPU vollständig ausgenutzt werden, während gleichzeitig der Kommunikationsaufwand und die Speichernutzung reduziert werden.
  • Aktivierungsfunktionsprüfpunkt: GPT-3 verwendet eine Technologie namens Aktivierungsfunktionsprüfpunkt, das heißt, während des Vorwärtsausbreitungsprozesses des Modells speichert nur der Wert der Aktivierungsfunktion einiger Ebenen anstelle von Werten ​für alle Schichten . Dadurch kann Videospeicherplatz eingespart werden, da der Wert der Aktivierungsfunktion den größten Teil des Videospeichers einnimmt. Wenn während des Backpropagation-Prozesses des Modells die Werte der Aktivierungsfunktionen bestimmter Schichten verwendet werden müssen, werden diese neu berechnet, anstatt sie aus dem Videospeicher zu lesen. Dadurch wird etwas Rechenzeit geopfert und dafür mehr Videospeicherplatz zur Verfügung gestellt, was größere Modelle und Chargengrößen ermöglicht.
  • Sparse-Attention-Mechanismus: GPT-3 verwendet eine Technologie namens Sparse-Attention-Mechanismus, d. h. bei der Berechnung der Selbstaufmerksamkeit werden nur einige Wörter in der Eingabesequenz und nicht alle Wörter berücksichtigt. Dies kann den Rechenaufwand und die Speichernutzung reduzieren, da die Komplexität der Selbstaufmerksamkeit direkt von der Länge der Eingabesequenz abhängt. GPT-3 verwendet einen spärlichen Aufmerksamkeitsmechanismus, der auf lokalen Fenstern und globalen Blöcken basiert und die Eingabesequenz in mehrere Blöcke unterteilt. Jeder Block führt nur Aufmerksamkeitsberechnungen mit mehreren benachbarten Blöcken durch, und jeder Block führt auch Aufmerksamkeitsberechnungen mit einigen zufällig ausgewählten globalen Blöcken durch. Dadurch wird sichergestellt, dass das Modell sowohl lokale als auch globale Informationen erfassen kann, während gleichzeitig die Rechenkomplexität und der Speicherverbrauch reduziert werden.

Als ChatGPT dies sah, runzelte er leicht die Stirn und schien ein wenig unzufrieden mit der GPT-3-Lösung: „Das ist nicht genug.“

„Große Modelle sind zwar der aktuelle Trend, aber sie sollten nicht einfach verwendet werden.“ Für den Wettbewerb. Bevor wir ein großes Modell trainieren, müssen wir mehr Details und technische Herausforderungen berücksichtigen, um sicherzustellen, dass es stabil und effizient läuft und nützliche Ergebnisse liefert Super. Parameter und Modellinitialisierung sind sehr wichtig. Die Auswahl von Hyperparametern wie Lernrate, Stapelgröße und Anzahl der Iterationen hat einen erheblichen Einfluss auf die Konvergenzgeschwindigkeit, Stabilität und Leistung des Modells, während die Modellinitialisierung den Gewichtungswert bestimmt vor Beginn des Trainings, was sich auf die Qualität der Ergebnisse auswirkt. Diese Parameter müssen auf der Grundlage empirischer Experimente oder theoretischer Analysen sorgfältig abgestimmt werden, um eine optimale Leistung des Modells sicherzustellen

„Zweitens müssen wir verschiedene Aspekte des Trainingsprozesses optimieren, z. B. Hardwarekonfiguration, Netzwerkbandbreite, Datenladegeschwindigkeit, Modellarchitektur usw., um einen hohen Durchsatz zu erzielen und Engpässe zu vermeiden Diese Aspekte können die Verarbeitungsgeschwindigkeit und -effizienz des Modells erheblich verbessern. Beispielsweise kann die Verwendung eines schnelleren Speichergeräts oder Datenformats die Datenladezeit mithilfe einer größeren Stapelgröße verkürzen oder den Kommunikationsaufwand mithilfe einer einfacheren oder spärlicheren Methode verringern Das Modell kann die Rechenzeit usw. verkürzen , Datenqualitätsprobleme usw. Um diese Probleme zu vermeiden oder zu beheben, müssen wir das Verhalten und die Leistung des Modells genau überwachen und Debugging-Tools und -Techniken verwenden, um etwaige Fehler oder Mängel zu identifizieren und zu beheben. Maßnahmen und Schutzmechanismen wie Clipping, Regularisierung, Verwerfen, Rauschinjektion, Datenfilterung, Datenanreicherung usw. zur Verbesserung der Robustheit und Zuverlässigkeit des Modells 🎜 #„In dieser Zeit sind große Modelle zwar wichtig, aber die Das bloße Streben nach Skalierung ermöglicht es dem Modell nicht, nützliche Ergebnisse zu erzielen. Nur durch durchdachtes Training und Optimierung können große Modelle ihr Potenzial wirklich ausschöpfen und der Menschheit bessere Ergebnisse bringen. Der Prinz hat recht.

Der Untergang der starken Prinzen - BERT

Am Ende ist ein mageres Kamel größer als ein Pferd, obwohl BERT in den Schatten gestellt wurde von GPT kürzlich, aber schließlich war es einst ein mächtiger Prinz. Unter der unaufhaltsamen Entwicklung von GPT behält BERT immer noch sein eigenes Lehen. Wenn es um Modelle zur Verarbeitung natürlicher Sprache geht, war BERT (Bidirektionale Encoder-Repräsentationen von Transformers) einst ein sehr beliebtes Modell, da es bei vielen Aufgaben sehr gut funktionierte. Bei seiner Erstveröffentlichung war es nahezu unschlagbar, sogar erfolgreicher als GPT. Dies liegt daran, dass BERT mit anderen Zielen und Vorteilen entwickelt wurde als GPT.

BERTs Ziel ist es, die Fähigkeiten der Kontextmodellierung auf ein völlig neues Niveau zu heben, um nachgelagerte Aufgaben wie Textklassifizierung und Fragenbeantwortung besser zu unterstützen. Dieses Ziel wird durch das Training eines bidirektionalen Transformer-Encoders erreicht. Dieser Encoder ist in der Lage, sowohl die linke als auch die rechte Seite der Eingabesequenz zu berücksichtigen, was zu einer besseren Kontextdarstellung führt, sodass BERT den Kontext besser modellieren kann, was die Leistung des Modells bei nachgelagerten Aufgaben verbessert.

Im Laufe der Zeit hat das Aufkommen der GPT-Modellreihe es GPT-3 jedoch ermöglicht, BERT bei mehreren Aufgaben zu übertreffen. Ein möglicher Grund dafür ist, dass die Modelle der GPT-Serie stärker auf generative Aufgaben wie Textgenerierung und Dialogsysteme ausgerichtet sind, während BERT sich eher auf Klassifizierungs- und Frage-Antwort-Aufgaben konzentriert. Darüber hinaus verwenden die Modelle der GPT-Serie größere Parameter und mehr Daten für das Training, wodurch sie auch bei einem breiteren Aufgabenspektrum eine bessere Leistung erzielen können.

Natürlich ist BERT immer noch ein sehr nützliches Modell, insbesondere für einige Aufgaben, bei denen es darum geht, Text zu klassifizieren oder Fragen zu beantworten. Die Modelle der GPT-Serie eignen sich besser für generative Aufgaben wie Textgenerierung und Dialogsysteme. Insgesamt haben beide Modelle ihre einzigartigen Vorteile und Einschränkungen, und wir müssen das geeignete Modell basierend auf den Anforderungen der spezifischen Aufgabe auswählen.

Der Kampf um die Prostituierte – das bedrohliche Segment Anything Model (SAM) [20]

Wie ich bereits sagte, arbeite ich hart im Stillen Im Big Brother GPT sorgte der Modellarbeiter Transformer damals für großes Aufsehen im CV-Bereich (ViT) und im multimodalen Bereich (CLIP), aber am Ende wurden sie alle zu erfahrenen Babys Sie wurden von den Alten unterrichtet Vater Transformer zum bevorzugten Prinzen GPT, und erzielte schließlich Erfolg Die sogenannte Vereinheitlichung von GPT-4.

ViT und CLIP, in deren Knochen Transformer-Blut fließt, sind sicherlich nicht glücklich: „Hat der Generalprinz Xiang Ning den Mumm? Bruder, nicht.“ Er lernt von uns? Wir können auch von ihm lernen ."

So wurde SAM geboren. Auf der offiziellen Website beschreiben sie es so:

Segment Anything Model (SAM): ein neues KI-Modell von Meta AI, das jedes Objekt „ausschneiden“ kann, in jedem Bild, mit einem einzigen Klick

Einfach ausgedrückt können wir uns SAM als einen effizienten „Bildbearbeitungsmaster“ vorstellen, der verschiedene Objekte in Bildern durch verschiedene Eingabeaufforderungen genau identifizieren und segmentieren kann. Wenn wir beispielsweise mit der Maus auf einen Punkt im Bild klicken, schneidet SAM automatisch das Objekt aus, an dem sich dieser Punkt befindet, wie ein erfahrener Maler. Wenn wir das Wort „Katze“ eingeben, verhält sich SAM wie ein kluger Detektiv , wir finden und schneiden automatisch alle Katzen im Bild aus; wenn wir SAM einen Zielerkennungsrahmen geben, schneidet SAM die Objekte im Rahmen genau aus wie ein erfahrener Chirurg. SAMs Fähigkeit zur Zero-Sample-Generalisierung macht es zu einem wahren „universellen Bearbeitungsmeister“. Das bedeutet, dass SAM sie mühelos identifizieren und zerschneiden kann, egal ob es sich um gewöhnliche Objekte wie Autos, Bäume und Gebäude oder um seltene Objekte wie Dinosaurier, Außerirdische und Zauberstäbe handelt. Diese leistungsstarke Fähigkeit beruht auf dem fortschrittlichen Modelldesign und dem großen Datensatz. Ich habe vier sehr komplexe Szenenbeispiele aus dem Originalpapier ausgewählt (Abbildung 10), um zu veranschaulichen, was SAM leisten kann.

Beginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer

Abbildung 10. Beispiel für die Wirkung von SAM. Sie können jede Farbe im Bild bearbeiten und extrahieren, was einem effizienten PS-Master (Bildbearbeitungsmaster) entspricht.

Um es einfach auszudrücken: Wenn andere aufgeregt zu uns kamen, um Forderungen zu stellen, mussten wir immer hilflos fragen, warte einen Moment, kannst du es bereitstellen? ? Welche Art von Daten? Jetzt nicht nötig, Zumindest im Lebenslaufbereich kommt es dem KI-Verständnis der nicht technisch versierten Masse näher.

Um die oben genannten leistungsstarken Funktionen zu realisieren, schauen wir uns an, wie ViT und CLIP lautstark zusammenwirken:

# 🎜🎜#ViT: „Obwohl ich zuvor hauptsächlich Bildklassifizierungsaufgaben durchgeführt habe, eignet sich meine Architektur auch für die Bildsegmentierung, da ich das Bild in eine Reihe von Blöcken zerlege und diese dann parallel verarbeite.“ „Meine Vorteile: SAM kann meine Vorteile der parallelen Verarbeitung und der globalen Aufmerksamkeit erben und dadurch eine effiziente Bildsegmentierung erreichen. Basierend auf meiner gemeinsamen Trainingsmethode kann SAM auch verschiedene Arten von Eingabeaufforderungen (Frageaufforderungen und visuelle Aufforderungen) verarbeiten.“ wird gebildet (Abbildung 11), ViT wird als Bildkodierer verwendet und CLIP wird zum Kodieren von Eingabeaufforderungsinformationen verwendet. Die Idee ist gut, aber wie man es macht – natürlich lernen Sie von Big Brother!

„Wir möchten vorab trainierte Sprachmodelle für Bildsegmentierungsaufgaben verwenden, genau wie die Verwendung von Texteingabeaufforderungen, damit Sprachmodelle Text generieren oder vorhersagen können. Mit CLIP, unseren Hinweisen.“ kann sehr umfangreich sein, was Punkte, Kästchen, Masken und Text sein kann, die dem Sprachmodell mitteilen, was im Bild segmentiert werden soll. Das heißt, bei jeder Eingabeaufforderung kann eine gültige Segmentierungsmaske (Segmentierungsergebnis) erhalten werden Maske bedeutet, dass selbst wenn die Eingabeaufforderung mehrdeutig ist (z. B. ein Hemd oder eine Person), die Ausgabe eine angemessene Maske für eines der Objekte sein sollte, genau wie der große Bruder GPT (Sprachmodell) auch eine kohärente Antwort auf eine geben kann Mehrdeutige Eingabeaufforderung. Wir haben uns für diese Aufgabe entschieden, weil sie es uns ermöglicht, das Sprachmodell auf natürliche Weise vorab zu trainieren und Eingabeaufforderungen für verschiedene Segmentierungsaufgaben zu implementieren. 🎜🎜#

Abbildung 11. SAM-Modellarchitektur Die bereits erwähnten leistungsstarken Fähigkeiten haben die Machbarkeit dieser Idee bestätigt. Es muss jedoch erwähnt werden, dass SAM das Modell zwar nicht mehr neu trainieren muss, es jedoch immer noch einige Einschränkungen aufweist, wie beim ersten Start von chatGPT. Im Abschnitt „Einschränkungen“ des Papiers weist die Autorseite deutlich auf einige Einschränkungen und Mängel von SAM hin, wie z. B. Mängel bei Details, Konnektivität, Grenzen usw. sowie bei Aufgaben wie interaktiver Segmentierung, Echtzeit-Texteingabeaufforderungen , Semantik und Panoramasegmentierung, während gleichzeitig die Vorteile einiger domänenspezifischer Tools anerkannt werden.

Zum Beispiel habe ich in der Demo zwei einfache Tests durchgeführt: Der eine ist die Läsionserkennung im Bereich der medizinischen Bilder, weil die Läsionen zu klein und schwer zu erkennen sind; der zweite ist der Porträtschnitt, der Schnitt Das Porträt sieht auf den ersten Blick gut aus, aber die Haare sind immer noch nicht sehr natürlich und man kann bei genauem Hinsehen immer noch die Schnittspuren erkennen.

Natürlich ist das doch ein guter Anfang. Diese beiden Jungs haben gerade erst mit ihrem Geschäft begonnen und arbeiten immer noch hart. Was für ein Fahrrad wollen sie? Warten wir also ab, was das Ergebnis dieses Erbstücks sein wird!

Zusammenfassung

Transformer Die riesige Familie der Maison kann dieser Artikel offensichtlich nicht erklären, wenn es um Ergebnisse basierend auf Transformer geht , wir Kontinuierliche Innovation in diesem Bereich ist zu sehen: Vision Transformer (ViT) demonstriert die erfolgreiche Anwendung von Transformer im Bereich Computer Vision, der Bildpixeldaten ohne manuelles Feature-Engineering direkt verarbeiten kann. DALL-E und CLIP nutzten Transformer für Bilderzeugungs- und Bildklassifizierungsaufgaben und demonstrierten damit seine überlegene Leistung beim visuellen semantischen Verständnis. Stable Diffusion schlägt einen stabilen Diffusionsprozess vor, der Wahrscheinlichkeitsverteilungen modellieren kann, die auf Aufgaben wie Bildsegmentierung und -generierung angewendet werden können. Diese Ergebnisse zeigen zusammen die breiten Anwendungsaussichten des Transformer-Modells, und wir müssen zugeben, dass eines Tages in der Zukunft „Aufmerksamkeit alles ist, was Sie brauchen.“

Kurz gesagt, wir können an diesen Ergebnissen die Vitalität kontinuierlicher Innovation im Bereich der künstlichen Intelligenz erkennen. Ob GPT oder BERT oder Vision Transformer, DALL-E, CLIP, Stable Diffusion usw., diese Errungenschaften stellen den neuesten Fortschritt auf dem Gebiet der künstlichen Intelligenz dar.

Was die große Prüfung (ChatGPT) betrifft, ist die aktuelle Situation wahrscheinlich so:

Studenten Nehmen Sie dieses Semester gut am Unterricht teil, können Sie sich an die Stimme und das Lächeln des Lehrers erinnern, als er in dieser Klasse über diesen Wissenspunkt sprach, und sogar mit der Planung des Studienplans für das nächste Semester beginnen.

Die pseudoakademischen Meister kommen jeden Tag zum Unterricht und besetzen die erste Reihe. Sie beginnen, „ein Buch pro Tag“ zu lesen , eine Woche“ mit den Drecksäcken. „Ein Semester“, der einzige Unterschied besteht darin, dass das Lehrbuch nicht ganz neu ist und noch ein wenig Erinnerung an den Lehrbuchinhalt vorhanden ist, was nicht als vollständiges Erlernen neuen Wissens gilt.

Was die echten Drecksäcke betrifft...

„Wissen kommt, Wissen kommt, Wissen kommt von.“ von allen Seiten Sende es aus allen Richtungen“

Eigentlich denke ich, dass man vor der Abschlussprüfung ruhig bleiben sollte, egal ob man ein falscher akademischer Meister oder ein Drecksack ist Schauen Sie sich an, was in diesem Semester gelehrt wird, leihen Sie sich Notizen von Top-Akademikern aus oder entscheiden Sie sich sogar dafür, die Prüfung zu verschieben. Für Spitzenakademiker ist Geschwindigkeit eine Selbstverständlichkeit. Für falsche Akademiker und Drecksäcke ist Geschwindigkeit schädlich.

Im Wettbewerb im Bereich der künstlichen Intelligenz ist kontinuierliche Innovation entscheidend. Daher sollten wir als Forscher die neuesten Entwicklungen auf diesem Gebiet genau beobachten und bescheiden und aufgeschlossen bleiben, um den kontinuierlichen Fortschritt auf dem Gebiet der künstlichen Intelligenz voranzutreiben.

Das obige ist der detaillierte Inhalt vonBeginnen Sie mit GPT-3 und schreiben Sie weiterhin den riesigen Stammbaum von Transformer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen