Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  LLM-Zukunftsarchitektur: Wer dürfte die Dominanz von Transformer erschüttern?

LLM-Zukunftsarchitektur: Wer dürfte die Dominanz von Transformer erschüttern?

WBOY
WBOYnach vorne
2024-01-01 22:59:53690Durchsuche

Im Bereich der großen Modelle scheint Transformer, der immer fest auf der C-Position lag, in letzter Zeit die Tendenz zu haben, überholt zu werden.

Dieser Herausforderer ist eine Forschung namens „Mamba“, die SOTA-Leistung in mehreren Modalitäten wie Sprache, Audio und Genomik erreicht hat. In Bezug auf die Sprachmodellierung übertrifft das Mamba-3B-Modell Transformer-Modelle gleicher Größe und ist mit Transformer-Modellen vergleichbar, die doppelt so groß sind, sowohl in der Vorschulung als auch in der nachgelagerten Bewertung.

LLM-Zukunftsarchitektur: Wer dürfte die Dominanz von Transformer erschüttern?

Nachdem das Papier veröffentlicht wurde, sorgte es für großes Aufsehen. Nachdem sie erstaunt waren, stellten alle fest, dass es nur zwei Autoren des Papiers gab. Einer ist Albert Gu, Assistenzprofessor der Abteilung für maschinelles Lernen an der Carnegie Mellon University, und der andere ist Tri, Chefwissenschaftler von Together.AI und Assistenzprofessor von Informatik an der Princeton University (Eingehende Post).

Eine wichtige Neuerung dieser Forschung ist die Einführung einer Architektur namens „Selective SSM (Selective State Space Model)“ im Vergleich zum Selbstaufmerksamkeitsmechanismus in Transformer Wenn sich der Kontext beispielsweise um das 32-fache erhöht, kann die Leistung von Mamba um das 1000-fache in tatsächlichen Daten erhöht werden Erreichen Sie 5. Verdoppeln Sie die Verbesserung des Inferenzdurchsatzes. Und diese sind untrennbar mit selektivem SSM verbunden.

Nachdem viele Forscher die hervorragende Leistung von Mamba gesehen hatten, wurden sie neugierig auf die Forschung im Zusammenhang mit SSM (State Space Model).

In einem aktuellen Interview führte Nathan Lambert, ein Forscher für maschinelles Lernen am Allen Institute for Artificial Intelligence (AI2), einen ausführlichen Austausch mit Tri Dao, einem der Autoren des Mamba-Artikels, und Michael Poli, ein Wissenschaftler ebenfalls von Together.AI.

Sie diskutierten hauptsächlich über die Zukunft der LLM-Architektur. Darüber hinaus diskutierten diese drei Forscher auch die Anwendungsaussichten des State Space Model (SSM) im aufstrebenden LLM-Markt. Die an der Konversation beteiligten Wissenspunkte sind ebenfalls relativ intensiv, z. B. warum der Aufmerksamkeitsmechanismus in Transformer effektiv ist, wo seine Erweiterungsgrenzen liegen, eine Einführung in Mamba und seine Hardwareoptimierung sowie Diskussionen über zukünftige Architekturvorhersagen.

Das Folgende ist der Inhalt des Gesprächs.

Warum der Aufmerksamkeitsmechanismus effektiv ist

Nathan Lambert: Lassen Sie uns zunächst diskutieren, warum der Aufmerksamkeitsmechanismus effektiv ist und welche Grenzen der Aufmerksamkeitsmechanismus hat. Wie viel von Transformer basiert auf dem Aufmerksamkeitsmechanismus, gibt es andere Mechanismen und welche Herausforderungen können in dieser Hinsicht auftreten?

Tri Dao: Ja, der sogenannte Transformer ist die Architektur, die derzeit die meisten der aufregenden Anwendungen antreibt, die wir sehen. Wie Sie sagten, ist der Aufmerksamkeitsmechanismus die Kernschicht. Tatsächlich hat der Aufmerksamkeitsmechanismus bereits in den Jahren 2014 bis 2015 Aufmerksamkeit erregt, und dann erschien das Konzept des Transformers, das den Aufmerksamkeitsmechanismus integriert und sich auf die miteinander verflochtene Verwendung von mehrschichtigem Perzeptron (MLP) und Aufmerksamkeitsmechanismus konzentriert.

Ich denke, ein großer Teil des Erfolgs liegt darin, dass diese Modelle scheinbar gut skalierbar sind. Sie können das Modell vergrößern, indem Sie mehr Parameter und Daten hinzufügen. Das ist das Erfolgsgeheimnis. Auch wenn es jetzt offensichtlich erscheint, glaube ich nicht, dass dies vor fünf Jahren ein klares Konzept war.

Transformer ist aus mehreren Gründen erfolgreich: Erstens ist es allgemein genug, um aus großen Datenmengen viel lernen zu können. Zweitens ist es sehr hardwarefreundlich. Im Gegensatz zu früheren rekurrenten neuronalen Netzen (RNN) gibt es keine Abhängigkeit von der Reihenfolge.

Es läuft also sehr gut auf GPUs und TPUs, ist skalierbar und nutzt die Hardware sehr effizient. Ich arbeite auch persönlich daran, die Hardware effizienter zu nutzen. Das ist also das Erfolgsgeheimnis: Erstellen Sie eine Architektur, die sowohl vielseitig als auch skalierbar ist. Wenn Sie sich für NLP interessieren, sollten Sie vielleicht darüber nachdenken, eine induktive Vorspannung hinzuzufügen, um das Modell zu verbessern. Persönlich denke ich, dass Transformer eine sehr allgemeine Architektur ist, sehr skalierbar und sehr hardwarefreundlich.

Nathan Lambert: Ja, ja. Im Nachhinein scheint alles offensichtlich. Wenn man nun die Alternativen untersucht, ist die Kontextlänge eine interessante Dimension. Michael, was denkst du?

Michael Poli: Ja, ich habe ein paar Dinge zu sagen. Zunächst einmal gibt es immer noch viele hervorragende Studien, die versuchen, Transformer anhand erster Prinzipien zu erklären. Warum kann er diese interessanten Schaltkreise erlernen? Die Leute werden den Berechnungsprozess aufschlüsseln, z. B. Kopfkombinationen in verschiedenen Transformatoren usw.

Es gibt einige Arbeiten zum Verständnis von Transformer als codierte Programmiersprache. Aber ich denke, wie Trey bereits erwähnt hat, gibt es in Transformer einige wirklich interessante Designoptionen. Der miteinander verflochtene Einsatz von Aufmerksamkeit und MLP ist sehr wichtig. Darüber hinaus war Transformer zu Beginn erfolgreich, weil es einige Techniken übernahm, die für RNN und andere traditionelle NLP-Modelle entwickelt wurden, wie z. B. die Verwendung von Gating-Mechanismen, um zu regulieren, welche Informationen das Modell aufnimmt, und um zu entscheiden, ob bestimmte Inhalte in dieser parallelen Form verwendet werden sollten . die Geschwindigkeit, mit der es vergessen wird. Es scheint, dass es einige Juwelen gibt, die auf der GPU optimiert werden können. Es ist nicht einfach, aber es kann optimiert werden.

Aufmerksamkeitsberechnungen wachsen quadratisch

Nathan Lambert: Ja, die sind großartig. Der spezifischere Punkt, den ich hervorheben möchte, ist, dass der Aufmerksamkeitsmechanismus letztendlich einen Rechenaufwand aufweist, der quadratisch mit der Länge der Eingabesequenz zunimmt. Angenommen, Sie haben eine Eingabesequenz der Länge L und möchten eine Sequenz ebenfalls der Länge L ausgeben. Wenn Sie sich mit den mathematischen Details befassen und sich ansehen, was passiert, wenn die meisten Bibliotheken Schlussfolgerungen ziehen, werden Sie feststellen, dass Sie diese obere dreieckige Aufmerksamkeitsmatrix haben, in der Sie nur vergangene Teile des Textes berücksichtigen können. Mit fortschreitender Verarbeitung werden Sie feststellen, dass eine L-Quadrat-Beziehung entsteht, bei der das erste Token nur ein Element berücksichtigt und jedes nachfolgende Token dann immer mehr frühere Token berücksichtigt. Wir haben gerade RNNs besprochen und wie einige nichtaufmerksame Methoden dies tun können, ohne den gesamten Textverlauf in einer Sequenz zu betrachten. Wenn Sie eine lange Eingabeaufforderung an Ihren Chatbot-GPT schreiben, möchten Sie dann wirklich, dass alle Informationen darin kodiert sind? Welche anderen Möglichkeiten haben wir neben dieser dichten Aufmerksamkeitsmatrix?

Tri Dao: Wiederkehrende neuronale Netze stammen aus den 1980er Jahren. Zu den bekanntesten gehören vielleicht Long Short-Term Memory Networks (LSTM) und Gated Recurrent Units (GRU). Sie waren zwischen 2012 und 2016, als sie die SOTA-Technologie im NLP waren, sehr beliebt für Übersetzungen, Spracherkennung usw.

Sie verarbeiten Text nacheinander: Sie beobachten die Token einzeln, ändern dann den verborgenen Zustand und aktualisieren den verborgenen Zustand jedes Mal, wenn ein neuer Token gesehen wird. Ich denke, dass dies in gewisser Weise die Art und Weise nachahmt, wie das menschliche Gehirn Informationen verarbeitet, so als würde man einen Satz oder einen Absatz lesen, als würde man Informationen in seinem Gehirn speichern. Wenn Sie mit dem Lesen eines Dokuments fertig sind, können Sie möglicherweise Fragen zu diesem Dokument beantworten, ohne erneut auf das Dokument zurückgreifen zu müssen. So funktioniert RNN also. Sie verarbeiten Text und ändern dann den verborgenen Zustand, eine Darstellung, die zum Generieren neuer Token oder zum Klassifizieren von Dokumenten verwendet werden kann.

Um 2016 herum waren diese Methoden sehr beliebt. Als jedoch die experimentellen Ergebnisse bekannt wurden, stellten wir nach und nach fest, dass ihre Leistung nicht so gut war wie die von Transformer. Wie Sie erwähnt haben, verfügt der Transformer über eine quadratische Erweiterungseigenschaft, sodass jeder Token mit allen vorherigen Token verglichen wird, was eine sehr einfache Möglichkeit zur Informationsverbreitung bietet. Ich glaube, das ist einer der Gründe, warum Transformer und Aufmerksamkeitsmechanismen so gut funktionieren.

Kürzlich wurde festgestellt, dass einige neue RNN-Architekturen eine gute Leistung erbringen, darunter RWKV eine der früheren. Ich bewundere dieses Projekt sehr, das vom Forscher Bo Peng entwickelt wurde. Es scheint auf einzigartige Weise mit Transformer zu konkurrieren, was das starke Potenzial von RNN demonstriert.

Nathan Lambert: Ja. Ich habe diesen Artikel auch schon einmal gelesen. Auf technischer Ebene versuchten sie, etwas Ähnliches wie die Abfrage von Schlüsselwerten im Aufmerksamkeitsmechanismus durch zwei lineare RNNs zu replizieren, um im Wesentlichen potenzielle Probleme wie die Erweiterung der spezifischen Aufmerksamkeit zu beseitigen. Diese beiden RNNs weisen ein besseres Langkontextverhalten und unterschiedliche Implementierungsregeln auf. Außerdem trainierten sie Modelle mit bis zu 14 Milliarden Parametern. Dies führt mich auch zu einigen Fragen, die ich als nächstes stellen möchte, darunter Mamba und Streifenhyäne. Wir können einzeln reden.

Was für ein Modell ist die Gestreifte Hyäne?

Nathan Lambert: Ich bin in die Together-API gegangen und habe einen Vergleichstest zwischen Mistral und Striped Hyena durchgeführt. Die Ergebnisse zeigen, dass die Streifenhyäne ein gutes Sprachmodell ist. Es beantwortet die meisten Fragen ohne offensichtlichen Fehlermodus. Michael, was haltet Ihr von diesem Modell?

Michael Poli: Zunächst möchte ich sagen, dass es einen interessanten Zusammenhang zwischen diesen neuen Methoden gibt. Es gibt eine konvexe Menge mit einem Mittelpunkt, und die Korrelation zwischen linearer Aufmerksamkeit (d. h. Aufmerksamkeit ohne Softmax), linearem RNN und zustandsbasiertem Modell (SSM) ist alle in dieser konvexen Menge enthalten. Bis zu einem gewissen Grad ist die mathematische Formulierung dieses zugrunde liegenden Modells dieselbe, und ich meine hier nicht die Infrastruktur, sondern das zugrunde liegende Modell.

Dann können Sie in verschiedene Richtungen entwickeln. Jede Richtung hat ihre eigenen Kompromisse, z. B. Feature-Mapping-Richtung und Kernel-Richtung. Wenn Sie also den Softmax auflösen oder entfernen, können Sie beim Umgang mit Abfragen und Schlüsseln einen anderen Ansatz wählen. Diese Abfragen und Schlüssel sind die Grundeinheiten, aus denen Ihre Aufmerksamkeitsmatrix besteht. Nach dem Entfernen des Softmax können Sie andere Kernel-ähnliche Funktionen erstellen oder andere Funktionen, von denen Sie hoffen, dass sie der Funktion des Aufmerksamkeitsmechanismus nahe kommen.

Sie können so etwas wie eine Taylor-Approximation oder eine Taylor-Erweiterung durchführen. Man erhält eine etwas andere Perspektive, aber etwas sehr Ähnliches. Sie können sich der Zeitvarianz zuwenden. Das bedeutet, dass Sie das RNN so ändern, dass seine Berechnungen stärker von der Eingabesequenz abhängen. Das heißt, die Berechnung in einem linearen RNN wird durch die Eingabesequenz bestimmt. Sie können Dinge wie Tore verwenden, und wir haben viel daran gearbeitet, beispielsweise die interne Spannung mit zusätzlichen Toren zu aktualisieren, damit Sie Ihre Festzustandsdimensionen besser nutzen können. Die dritte Richtung ist – zumindest meiner Meinung nach – die Verwendung von Faltungsformen und die stärkere Verwendung anderer Arten von linearen Operatoren, die immer noch kombinierbar sind und trotzdem ein paralleles Training ermöglichen.

Der Inhalt hier umfasst also zeitinvariante Systeme. Ich könnte diese Punkte im Detail erläutern, aber es gibt Modelle, die zwischen Faltung und Schleife umschalten können, die zudem mit zusätzlichen Gating-Mechanismen ausgestattet sind. Ein Projekt, an dem ich beteiligt war, entstand aus der dritten Art von Architektur, die ich gerade erwähnt habe. Was wir wirklich versuchen, ist die Schaffung einer Architektur mit der besten Leistung pro Gleitkommaoperation. Ein Grundsatz, den wir wiederholt überprüft haben, ist, dass es den Anschein hat, dass man durch die Kombination verschiedener Ebenen, verschiedener Modulkategorien und sogar vollständiger Aufmerksamkeitsebenen etwas Besseres als die einzelnen Komponenten erhält.

Wir versuchen also, die kombinatorischen Aspekte dieser Modelle besser zu verstehen. Dieses Verständnis hilft uns, vorab trainierte Modelle mit besserer Leistung pro Gleitkommaoperation zu erstellen. Mit diesem Modell haben wir einen vollständigen Satz von Skalierungsgesetzen ausgeführt. Die Hybridisierung brachte uns auch einige Vorteile, weil wir etwas wollten, das sofort verwendet werden konnte, und das den Prozess viel einfacher machte.

Bei der Feinabstimmung für längere Kontexte können wir einige der für Transformers entwickelten Techniken übernehmen. Überraschenderweise funktionieren diese Techniken bei Hybriden genauso gut. Beispielsweise wird die lineare Skalierung für Rotationseinbettungen usw. verwendet. Wenn Sie sich für die Details interessieren, können Sie mehr erfahren. Daher ist dieses Projekt in erster Linie ein experimenteller Versuch herauszufinden, wie weit wir in der aktuellen Umgebung gehen können.

Was ist Mamba?

Nathan Lambert: Gestreifte Hyäne wird mithilfe einer neuen Reihe von Modelltransplantationstechniken (Modelltransplantation) optimiert, die es uns ermöglichen, die Modellarchitektur während des Trainings zu ändern. Für mich fühlt es sich so an Es ist viel los, Dinge wie Daten, über die man wahrscheinlich nicht viel reden kann.

Was die Dateninterpretation betrifft, denke ich, dass es immer noch einige Dinge gibt, die nicht gut erklärt sind, insbesondere einige längere Kontextdaten. Ich frage mich, ob Sie uns erklären können, was diese Daten aus Modellperspektive bedeuten? Schon eine kurze Zusammenfassung wäre für uns ein tolles Erlebnis gewesen.

Es gibt viele coole Jobs in diesem Bereich, daher gibt es viele neue Projekte im KI-Bereich, zum Beispiel versuchen einige Leute, das Lama-Modell auseinanderzunehmen und es weiter zu trainieren . Tatsächlich ist es ein bisschen wild, wenn Leute versuchen, leistungsstarke Modelle zu nehmen und sie kleiner zu machen, während sie dennoch die gleichen Leistungsvorteile wie die größeren Modelle erhalten.

Das ist zwar etwas abseits des Themas, aber was ich nicht erwartet habe, ist, dass, wenn man den sozialen Medien folgt, Leute sagen werden: „Oh, am Ende hat das staatliche Nichtaufmerksamkeitsmodell gewonnen.“ Meiner Meinung nach verschleiert diese Aussage viele interessante Details.

Okay, kommen wir zurück zu Mamba. Wenn ich mich richtig erinnere, glaube ich, dass das größte Modell in der Mamba-Suite 280 Millionen Parameter hat und die Benchmark-Werte der NLP-Benchmarks, einschließlich GPT J und der Pythia-Modellsuite, sehr gut sind.

Tri Dao: Mamba war eine Zusammenarbeit zwischen mir und Albert Gu, einem Doktoranden an der Stanford University, wo wir uns kennengelernt haben, und der jetzt Assistenzprofessor an der CMU ist. Es war also eine wundervolle Zusammenarbeit und ich verdanke Mambas Erfolg ihm. Albert hat sich der Erforschung von Zustandsraummodellen verschrieben. Wie bereits erwähnt, beschäftigte er sich in gewisser Weise mit linearen Tensoren, linearem RNN, Faltung, neuronalen Netzwerken und anderen Bereichen.

In mehreren Projekten, an denen ich in der Vergangenheit teilgenommen habe, habe ich mich auch der Erforschung von Raum und Zustandsraum gewidmet. Meine Forschungsperspektive ist, wie man den Zustandsraum hardwareeffizienter machen und seine Leistung verbessern kann. Es war großartig, mit Albert Gu zusammenzuarbeiten. Ich denke, der Forschungsprozess im Zusammenhang mit Mamba war eher ein Beweis dafür, dass Zustandsräume tatsächlich genauso gut sein können wie Transformationen in der NLP-Welt? Daher Mamba, die Forschung, die darauf hindeutet, dass der Zustandsraum besser für Audio geeignet sein könnte. Für Zustandsraummodelle war es jedoch schon immer am schwierigsten, Sprache zu erhalten und gut umzusetzen.

Darüber hinaus ist Sprache auch das, was den Menschen jetzt am meisten am Herzen liegt, daher ist meine Arbeit eher ein Proof of Concept, das heißt, wir wollen zeigen, dass das Zustandsraummodell auch wettbewerbsfähig sein kann und sogar mit Transformer konkurrieren kann . Die Anzahl der in unseren Experimenten verifizierten Token liegt zwischen 3 Milliarden und 300 Milliarden.

Absolut gesehen sind das also keine sehr leistungsstarken Modelle, das sind nicht die Modelle, die wir wirklich wollen. Ich denke, was wir machen, ist eher ein akademischer Vergleich. Wenn beispielsweise die gleiche Anzahl von Token trainiert wird, ist das Zustandsraummodell möglicherweise etwas besser als der Transformator.

Diese Sache ist für uns besonders spannend und ich denke, Albert drängt schon seit einiger Zeit darauf.

Das Ergebnis ist, dass unsere Forschung möglicherweise schnellere Schlussfolgerungen ziehen kann und wir möglicherweise eine andere Art haben, zu verstehen, wie kontextuelles Lernen stattfindet. Ich freue mich auf meine zukünftige Arbeit.

Mamba-Hardwareoptimierung

Nathan Lambert: Können Sie uns ein wenig darüber erzählen, was es eigentlich braucht, um diese neuen CUDA-Kernel zu implementieren?

Tri Dao: Was die Untersuchung des Zustandsraums betrifft, handelt es sich in gewisser Weise um ein wiederkehrendes neuronales Netzwerk. Die Zustandsgröße ist der Puffer, den Sie zum Speichern von Informationen beim Durchlaufen oder Verarbeiten einer Sequenz verwenden.

In gewissem Sinne kann Transformer auch so verstanden werden. Der gesamte gespeicherte Verlauf wird oft als KV-Cache bezeichnet. Für RNNs haben sie einen Zustand mit fester Größe; für Transformatoren kann man sich die Zustandsgröße als zunehmend vorstellen. Darüber hinaus ist unsere Intuition, dass die Leistung des Modells umso besser ist, je größer die Zustandsgröße ist.

Um also die Informationen zu speichern, die Sie sich merken müssen, benötigen Sie mehr Platz. Frühere Modelle (wie S4 usw.) hatten ziemlich große verborgene Zustandsgrößen und verwendeten Faltungsansichten, um eine Verdinglichung des Zustands zu vermeiden.

Wir würden gerne mehr Eingabeabhängigkeiten in die Schleife integrieren. Dies hindert uns jedoch daran, Faltungsansichten zu verwenden, die die Effizienz verbessern können.

Also mussten wir einen anderen Weg finden, die Effizienz zu verbessern, also konzentrierten wir uns auf die Verbesserung der Effizienz der GPU. Die Idee ist, dass wir eine große Zustandsgröße haben möchten, aber keinen tatsächlichen GPU-Speicher wie HBM verwenden müssen. Wir können den großen Zustand in einem schnelleren Speicher namens SRAM speichern. Sie können es sich wie einen vorstellen Zwischenspeicher. Wenn Sie sich mit CPUs besser auskennen, handelt es sich dabei normalerweise um Cache und RAM.

Wenn Sie also einen größeren Staat haben, können Sie ihn im Cache speichern, damit Sie nicht zu sehr leiden.

Architekturvorhersagen für 2024

Nathan Lambert: Meine derzeit stärkste Erkenntnis zu GPU vs. TPU ist, dass MoE in TPU nicht gut funktioniert, weil man etwas MoE auf die Basisschicht legen muss.

Beim verteilten Training kann die Feedforward-Schicht letztendlich auf verschiedene TPU-Knoten verteilt sein und TPUs kommunizieren über benachbarte Knoten. Daher wird die TPU in dieser Hinsicht stärker betroffen sein als die GPU. Was wird in diesem Bereich im Jahr 2024 passieren?

Tri Dao: Ich denke, Transform ist immer noch eine sehr leistungsstarke Architektur, die jetzt auf eine Billion Parameterebenen skaliert werden kann. Die Leute neigen dazu, die leistungsstärksten Modelle zu haben, die am effizientesten auf der Hardware laufen größter Support in Sachen Software.

Ich habe in letzter Zeit einige neue Ideen, wie zum Beispiel den Zustandsraum. Wir haben gesehen, wie Michael erwähnte, dass das Mischen dieser Komponenten die Leistung zu verbessern scheint. Ich denke, das wurde am Modell der Größe 7B demonstriert, und vielleicht kann das Zustandsraummodell bei größeren Modellen funktionieren.

Derzeit konzentrieren sich die meisten Menschen auf den Daten- und Infrastrukturaufbau auf Basis der Lime-Architektur. Obwohl die bestehende Transformer-Architektur immer noch sehr leistungsfähig ist und in Produktionsumgebungen weitgehend unterstützt wird, gibt es auch einige Randbereiche, wie z. B. lange Kontexte. Audio, Genomik usw. Es wäre sehr interessant, alternative Architekturen in diesen Bereichen zu untersuchen. Diese Bereiche werfen bedeutsame wissenschaftliche Fragen auf, etwa ob Modelle Anweisungen und Intuition wie Menschen verstehen und ob sie mit quantitativen Methoden arbeiten können.

Auch wenn die Transformer-Architektur derzeit noch verwendet wird, können in Zukunft weitere neue Ideen und Komponenten integriert werden, z. B. das Hinzufügen weiterer Ebenen und Aufmerksamkeitsmechanismen usw., obwohl sie möglicherweise immer noch Transformer heißen.

Kurz gesagt, obwohl der aktuelle Bereich der künstlichen Intelligenz tendenziell konservativ ist und sich auf moderne Architektur konzentriert, entstehen nach und nach neue Architekturen und Ideen. Diese neuartigen Perspektiven und Methoden können neue Entwicklungen für die Entwicklung künstlicher Intelligenz mit sich bringen Richtung.

Michael Poli: Ja, ich stimme Tri Dao zu 100 % zu, der Aufmerksamkeitsmechanismus ist als Rechengrundelement immer noch wichtig. Auf effiziente und bequeme Weise kann der Aufmerksamkeitsmechanismus die Zustandskapazität des Sequenzprozessors effektiv erhöhen.

Es gibt einen Kompromiss zwischen Zustandsdimensionen und Sequenzlänge. Wenn die Modellgröße größer wird, das heißt, das Modell breiter wird, werden effektiv mehr Zustände und Sequenzlängen eingeführt. Infolgedessen verschwinden möglicherweise einige Randeffekte und einige Kompromisse ändern sich, insbesondere bei sehr großen Modellen wie 14B, 30B usw.

In Zukunft wird die architektonische Gestaltung interessanter und komplexer werden und es wird mehr Innovationen geben. Ob Hybridmodelle oder die Einführung neuer Module, wir werden weitere spannende Innovationen sehen.

Mehr Vorhersagen für KI

Mixture of Experts (MoE) und State Space Models haben sich laut Nathan Lambert in letzter Zeit als beliebter Trend herauskristallisiert Man hat wirklich versucht, frühe Versuche und Verbesserungen am Hybrid-Expertenmodell vorzunehmen. Die Modelltransplantation wird jetzt praktischer.

Es war sehr interessant, diese Entwicklungen zu verfolgen, und wir hoffen, dass diese Entwicklungen Akademikern und Wissenschaftlern mehr Möglichkeiten bieten, die Diskussion in der Branche zu beeinflussen, insbesondere jetzt, da sich die Branche mehr auf die Skalierung von Modellen konzentriert. Ich schlage vor, dass Open-Source-Unternehmen spezifische Verbesserungen an ihren Sprachmodellen vornehmen sollten, um kommerzielle Vorteile zu erzielen.

Gibt es noch etwas, worauf Sie beim maschinellen Lernen achten? Es geht nicht unbedingt um das Zustandsraummodell. Worauf freust du dich nächstes Jahr am meisten?

Tri Dao

: Ich persönlich denke, dass Daten immer noch der wichtigste Faktor sind. Wir werfen einen tieferen Blick darauf, wie sich Daten auf die Modellleistung auswirken, beispielsweise durch einige synthetische Aufgaben, die stark mit der Modellleistung korrelieren. Dieser Ansatz war die Hauptmotivation und das Hauptbeispiel in unseren Veröffentlichungen und Forschungsarbeiten. Wir werden uns in der kommenden Zeit auf Daten konzentrieren.

Während die ganze Architekturarbeit Spaß macht und es Spaß macht, sie effizient auf der Hardware laufen zu lassen, geht es am Ende immer noch um die Daten. Wenn Sie das Skalierungsgesetz verstehen, wissen Sie, dass unterschiedliche Modellarchitekturen oft die gleiche Steigung, nur unterschiedliche Offsets haben. Das Einzige, was die Steigung zu verändern scheint, ist die Qualität der Daten.

Michael Poli

: Ja, wir haben die Daten hinzugefügt. Die Daten sind wirklich interessant, wie die Miniaturisierung des Architekturentwurfs, das Herausfinden und Aufschlüsseln der verschiedenen Aspekte, die mit Aufgaben wie der Sprachmodellierung verbunden sind, und wir versuchen, sie in etwas zu packen, das zur Iteration verwendet werden kann, was sehr spannend ist.

Ich persönlich bin sehr gespannt auf neue Anwendungen, insbesondere auf die Genomforschung, aber aus technischer Sicht sehen wir einen Wandel. Derzeit sind Sprachen immer noch der Bereich, der die meisten Klicks und das größte Interesse hervorruft, aber ich denke, das wird sich mit der Zeit ändern.

Nathan Lambert

: Ja, alle reden über Sprache, aber ich denke, Bilder und Videos werden die Dinge sein, die einen enormen Wert generieren. Ich weiß nicht, wo die Obergrenze der Sprache liegt. Ich bin gespannt, ich habe angefangen, das auszuprobieren, ich nehme den Text eines Blogs und lasse ihn vom Modell in ein Bild und dann in ein Video mit Audio umwandeln, alles mit einem Python-Skript, das ist es wirklich einfach Mach es. Da stimme ich Ihnen zu, es sind Dinge interessant, die über die Sprache hinausgehen.

Tri Dao

: Wenn Sie all diese Dinge zusammenfügen, funktionieren sie Ihrer Erfahrung nach tatsächlich einigermaßen gut?

Nathan Lambert

: Es ist noch nicht so perfekt. Die von DALL・E generierten Bilder sind relativ ähnlich, aber meine Methode ist einfach sehr einfach und verwende eine Systemaufforderung, um das Modell verschiedene generieren zu lassen So ein Bild, ich denke, ich kann es besser machen. Soweit ich weiß, wird es in wahrscheinlich einem Jahr eine Text-zu-Video-API geben, und dann werde ich auf die API umsteigen und es wird eine großartige Erfahrung sein.

Tri Dao

: Ja, ich denke, dass diese Fortschritte einen großen wirtschaftlichen Wert generieren, und das sehen wir bereits. Viele Unternehmen greifen mittlerweile auf diese Technologien zurück. Ich denke, es wird die Art und Weise, wie wir arbeiten, und, wie Sie bereits erwähnt haben, die Art und Weise, wie wir arbeiten und spielen, verändern. Es ist also eine sehr aufregende Zukunft.

Originallink: https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?cnotallow=5d10d34c97637bebcfeba6470c0f0d9b

Das obige ist der detaillierte Inhalt vonLLM-Zukunftsarchitektur: Wer dürfte die Dominanz von Transformer erschüttern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen