Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

WBOY
WBOYnach vorne
2023-09-27 14:01:272676Durchsuche

Hier ist eine Zusammenfassung einiger meiner Gedanken zum RWKV-Podcast: https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen


Warum ist die Bedeutung von Alternativen so wichtig?

Mit der Revolution der künstlichen Intelligenz im Jahr 2023 befindet sich die Transformer-Architektur derzeit auf ihrem Höhepunkt. In der Eile, die erfolgreiche Transformer-Architektur zu übernehmen, übersieht man jedoch leicht die Alternativen, aus denen man lernen kann.

Als Ingenieure sollten wir nicht einen Einheitsansatz verfolgen und für jedes Problem die gleiche Lösung verwenden. Wir sollten in jeder Situation die Vor- und Nachteile abwägen; andernfalls könnte die Gefangenschaft in den Beschränkungen einer bestimmten Plattform und das Gefühl, „zufrieden“ zu sein, weil man nicht weiß, dass es Alternativen gibt, die Entwicklung über Nacht auf die Zeit vor der Befreiung zurückführen nicht nur im Bereich der künstlichen Intelligenz, sondern ein historisches Muster, das sich von der Antike bis zur Gegenwart wiederholt.

Eine Seite in der Geschichte von SQL Wars, eine Geschichte über den Wettbewerb und die Konfrontation zwischen Datenbankverwaltungssystemen. In dieser Geschichte konkurrieren verschiedene Datenbankverwaltungssysteme wie Oracle, MySQL und SQL Server hart um Marktanteile und technische Vorteile. Diese Wettbewerbe spiegeln sich nicht nur in Leistung und Funktionalität wider, sondern umfassen auch viele Aspekte wie Geschäftsstrategie, Marketing und Benutzerzufriedenheit. Diese Datenbankverwaltungssysteme führen ständig neue Funktionen und Verbesserungen ein, um mehr Benutzer und Unternehmen dazu zu bewegen, sich für ihre Produkte zu entscheiden. Eine Seite in der Geschichte des SQL-Krieges, die die Entwicklung und Veränderungen der Datenbankverwaltungssystembranche miterlebt und uns auch wertvolle Erfahrungen und Lehren geliefert hat


Ein bemerkenswertes Beispiel in der Softwareentwicklung in letzter Zeit ist SQL Der NoSQL-Trend entstand, als Server begannen, physische Einschränkungen zu unterliegen. Startups auf der ganzen Welt wechseln aus „Größen“-Gründen zu NoSQL, obwohl sie bei weitem nicht in der Nähe dieser Größenordnungen sind

Allerdings kommt es im Laufe der Zeit zu einer zunehmenden Konsistenz und einem NoSQL-Verwaltungsaufwand sowie zu einem enormen Sprung bei den Hardwarefunktionen in Bezug auf SSD-Geschwindigkeit und -Kapazität, SQL-Server haben aufgrund ihrer Benutzerfreundlichkeit in letzter Zeit ein Comeback erlebt und mittlerweile verfügen mehr als 90 % der Startups über ausreichende Skalierbarkeit

SQL und NoSQL sind zwei verschiedene Datenbanktechnologien. SQL ist die Abkürzung für Structured Query Language, die hauptsächlich zur Verarbeitung strukturierter Daten verwendet wird. NoSQL bezieht sich auf eine nicht relationale Datenbank, die für die Verarbeitung unstrukturierter oder halbstrukturierter Daten geeignet ist. Während einige Leute denken, dass SQL besser ist als NoSQL oder umgekehrt, bedeutet dies in Wirklichkeit nur, dass jede Technologie ihre eigenen Vor- und Nachteile sowie Anwendungsfälle hat. In einigen Fällen eignet sich SQL möglicherweise besser für die Verarbeitung komplexer relationaler Daten, während NoSQL besser für die Verarbeitung umfangreicher unstrukturierter Daten geeignet ist. Dies bedeutet jedoch nicht, dass nur eine Technologie gewählt werden kann. Tatsächlich nutzen viele Anwendungen und Systeme in der Praxis Hybridlösungen aus SQL und NoSQL. Abhängig von den spezifischen Anforderungen und dem Datentyp kann die am besten geeignete Technologie zur Lösung des Problems ausgewählt werden. Daher ist es wichtig, die Merkmale und Anwendungsszenarien jeder Technologie zu verstehen und eine fundierte Entscheidung basierend auf der spezifischen Situation zu treffen. Egal, ob es sich um SQL oder NoSQL handelt, jede hat ihre eigenen einzigartigen Lernpunkte und bevorzugten Anwendungsfälle, die aus ähnlichen Technologien gelernt und untereinander besprochen werden können Transformer Architektur?

Typischerweise umfasst dies Berechnungen, Kontextgröße, Datensatz und Ausrichtung. In dieser Diskussion konzentrieren wir uns auf die Berechnung und die Kontextlänge:


Der quadratische Berechnungsaufwand aufgrund der O(N^2)-Erhöhung pro verwendetem/generiertem Token. Dies macht Kontextgrößen über 100.000 sehr teuer, was sich auf Inferenz und Training auswirkt. Der aktuelle GPU-Mangel verschärft dieses Problem.

Die Kontextgröße schränkt den Aufmerksamkeitsmechanismus ein, wodurch die Anwendungsfälle von „Smart Agents“ (wie smol-dev) stark eingeschränkt werden und eine Lösung des Problems erzwungen wird. Größere Kontexte erfordern weniger Problemumgehungen.

  • Also, wie lösen wir dieses Problem?
  • Wir stellen vor: RWKV: ein linearer T-Transformer neue Kategorie Das Erste

, das die oben genannten drei Einschränkungen direkt angeht, indem es Folgendes unterstützt:

  • Linearer Rechenaufwand, unabhängig von der Kontextgröße.
  • Erlauben Sie in CPUs (insbesondere ARM) eine angemessene Token-/Sekundenausgabe im RNN-Modus mit geringeren Anforderungen.
  • Als RNN gibt es keine feste Kontextgrößenbeschränkung. Alle Grenzwerte in der Dokumentation sind Richtlinien – Sie können sie feinabstimmen.

Während wir KI-Modelle weiter auf Kontextgrößen von 100k und mehr skalieren, beginnt der quadratische Rechenaufwand exponentiell zu wachsen.

Allerdings gab Linear Transformer die rekurrente neuronale Netzwerkarchitektur nicht auf und löste deren Engpässe, was einen Ersatz erforderlich machte.

Allerdings hat das neu gestaltete RNN die skalierbaren Lektionen von Transformer gelernt, wodurch RNN ähnlich wie Transformer funktionieren und diese Engpässe beseitigen kann.

Bringen Sie sie mit Transformers in Bezug auf die Trainingsgeschwindigkeit wieder ins Spiel – ermöglichen Sie ihnen, bei O(N)-Kosten effizient zu laufen und gleichzeitig im Training auf über 1 Milliarde Parameter zu skalieren und dabei ähnliche Leistungsniveaus beizubehalten. ... x+ Wachstum bei 2k Token-Anzahl und über 100-faches Wachstum bei einer Token-Länge von 100.000

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Mit 14B-Parametern ist RWKV der größte lineare Open-Source-Transformer, ähnlich wie GPT NeoX und andere Datensätze (wie der Pile) vergleichbar sind.


Die Leistung des RWKV-Modells ist mit bestehenden Transformatormodellen ähnlicher Größe vergleichbar, wie verschiedene Benchmarks zeigen

Aber einfacher ausgedrückt bedeutet das: Was?

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Vorteile


Inferenz/Training ist 10x oder mehr billiger als Transformer in größeren Kontextgrößen


in. RNN Modus Herunter, okay. Läuft langsam, sehr eingeschränkt Hardware Ähnliche Leistung wie Transformer auf demselben Datensatz

  • RNN hat keine technische Kontextgrößenbeschränkung (unbegrenzter Kontext!)
  • Disad Vorteile
  • Problem mit dem Schiebefenster, verlustbehafteter Speicher über einen bestimmten Punkt hinaus


Keine Skalierung über 14B-Parameter hinaus möglichNicht so gut wie Transformatoroptimierung und -einführung

  • . Also während RWKV hat die 60B+ Parameterskala von LLaMA2 noch nicht erreicht, mit der richtigen Unterstützung und den richtigen Ressourcen hat es das Potenzial, dies zu geringeren Kosten und in einer breiteren Umgebung zu tun, insbesondere da Modelle tendenziell kleiner und effizienter sind
  • Wenn Sie Da der Anwendungsfall für die Effizienz wichtig ist, bedenken Sie dies. Dies ist jedoch nicht die endgültige Lösung – der Schlüssel liegt in gesunden Alternativen

Wir sollten darüber nachdenken, andere Alternativen und ihre Vorteile kennenzulernen

Diffusionsmodell: Texttraining ist schneller Langsam, aber äußerst flexibel für Multi-Epochen-Training. Herauszufinden, warum das so ist, kann helfen, die Token-Krise zu lindern.


Generative Adversarial Networks/Agents: Techniken können verwendet werden, um den erforderlichen Trainingssatz auf ein bestimmtes Ziel zu trainieren, selbst wenn es sich um ein textbasiertes Modell ohne Datensatz handelt.

Originaltitel: Introducing RWKV: The Rise of Linear Transformers and Exploring Alternatives, Autor:

picocreator


. https ://www.php.cn/ link/b433da1b32b5ca96c0ba7fcb9edba97d

Das obige ist der detaillierte Inhalt vonWir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen