Heim > Artikel > Technologie-Peripheriegeräte > Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen
Hier ist eine Zusammenfassung einiger meiner Gedanken zum RWKV-Podcast: https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e
Warum ist die Bedeutung von Alternativen so wichtig?
Mit der Revolution der künstlichen Intelligenz im Jahr 2023 befindet sich die Transformer-Architektur derzeit auf ihrem Höhepunkt. In der Eile, die erfolgreiche Transformer-Architektur zu übernehmen, übersieht man jedoch leicht die Alternativen, aus denen man lernen kann.
Als Ingenieure sollten wir nicht einen Einheitsansatz verfolgen und für jedes Problem die gleiche Lösung verwenden. Wir sollten in jeder Situation die Vor- und Nachteile abwägen; andernfalls könnte die Gefangenschaft in den Beschränkungen einer bestimmten Plattform und das Gefühl, „zufrieden“ zu sein, weil man nicht weiß, dass es Alternativen gibt, die Entwicklung über Nacht auf die Zeit vor der Befreiung zurückführen nicht nur im Bereich der künstlichen Intelligenz, sondern ein historisches Muster, das sich von der Antike bis zur Gegenwart wiederholt.
Eine Seite in der Geschichte von SQL Wars, eine Geschichte über den Wettbewerb und die Konfrontation zwischen Datenbankverwaltungssystemen. In dieser Geschichte konkurrieren verschiedene Datenbankverwaltungssysteme wie Oracle, MySQL und SQL Server hart um Marktanteile und technische Vorteile. Diese Wettbewerbe spiegeln sich nicht nur in Leistung und Funktionalität wider, sondern umfassen auch viele Aspekte wie Geschäftsstrategie, Marketing und Benutzerzufriedenheit. Diese Datenbankverwaltungssysteme führen ständig neue Funktionen und Verbesserungen ein, um mehr Benutzer und Unternehmen dazu zu bewegen, sich für ihre Produkte zu entscheiden. Eine Seite in der Geschichte des SQL-Krieges, die die Entwicklung und Veränderungen der Datenbankverwaltungssystembranche miterlebt und uns auch wertvolle Erfahrungen und Lehren geliefert hat
Ein bemerkenswertes Beispiel in der Softwareentwicklung in letzter Zeit ist SQL Der NoSQL-Trend entstand, als Server begannen, physische Einschränkungen zu unterliegen. Startups auf der ganzen Welt wechseln aus „Größen“-Gründen zu NoSQL, obwohl sie bei weitem nicht in der Nähe dieser Größenordnungen sind
Allerdings kommt es im Laufe der Zeit zu einer zunehmenden Konsistenz und einem NoSQL-Verwaltungsaufwand sowie zu einem enormen Sprung bei den Hardwarefunktionen in Bezug auf SSD-Geschwindigkeit und -Kapazität, SQL-Server haben aufgrund ihrer Benutzerfreundlichkeit in letzter Zeit ein Comeback erlebt und mittlerweile verfügen mehr als 90 % der Startups über ausreichende Skalierbarkeit
SQL und NoSQL sind zwei verschiedene Datenbanktechnologien. SQL ist die Abkürzung für Structured Query Language, die hauptsächlich zur Verarbeitung strukturierter Daten verwendet wird. NoSQL bezieht sich auf eine nicht relationale Datenbank, die für die Verarbeitung unstrukturierter oder halbstrukturierter Daten geeignet ist. Während einige Leute denken, dass SQL besser ist als NoSQL oder umgekehrt, bedeutet dies in Wirklichkeit nur, dass jede Technologie ihre eigenen Vor- und Nachteile sowie Anwendungsfälle hat. In einigen Fällen eignet sich SQL möglicherweise besser für die Verarbeitung komplexer relationaler Daten, während NoSQL besser für die Verarbeitung umfangreicher unstrukturierter Daten geeignet ist. Dies bedeutet jedoch nicht, dass nur eine Technologie gewählt werden kann. Tatsächlich nutzen viele Anwendungen und Systeme in der Praxis Hybridlösungen aus SQL und NoSQL. Abhängig von den spezifischen Anforderungen und dem Datentyp kann die am besten geeignete Technologie zur Lösung des Problems ausgewählt werden. Daher ist es wichtig, die Merkmale und Anwendungsszenarien jeder Technologie zu verstehen und eine fundierte Entscheidung basierend auf der spezifischen Situation zu treffen. Egal, ob es sich um SQL oder NoSQL handelt, jede hat ihre eigenen einzigartigen Lernpunkte und bevorzugten Anwendungsfälle, die aus ähnlichen Technologien gelernt und untereinander besprochen werden können Transformer Architektur?
Typischerweise umfasst dies Berechnungen, Kontextgröße, Datensatz und Ausrichtung. In dieser Diskussion konzentrieren wir uns auf die Berechnung und die Kontextlänge:
Der quadratische Berechnungsaufwand aufgrund der O(N^2)-Erhöhung pro verwendetem/generiertem Token. Dies macht Kontextgrößen über 100.000 sehr teuer, was sich auf Inferenz und Training auswirkt. Der aktuelle GPU-Mangel verschärft dieses Problem.
Die Kontextgröße schränkt den Aufmerksamkeitsmechanismus ein, wodurch die Anwendungsfälle von „Smart Agents“ (wie smol-dev) stark eingeschränkt werden und eine Lösung des Problems erzwungen wird. Größere Kontexte erfordern weniger Problemumgehungen.
, das die oben genannten drei Einschränkungen direkt angeht, indem es Folgendes unterstützt:
Während wir KI-Modelle weiter auf Kontextgrößen von 100k und mehr skalieren, beginnt der quadratische Rechenaufwand exponentiell zu wachsen.
Allerdings gab Linear Transformer die rekurrente neuronale Netzwerkarchitektur nicht auf und löste deren Engpässe, was einen Ersatz erforderlich machte.
Allerdings hat das neu gestaltete RNN die skalierbaren Lektionen von Transformer gelernt, wodurch RNN ähnlich wie Transformer funktionieren und diese Engpässe beseitigen kann.
Bringen Sie sie mit Transformers in Bezug auf die Trainingsgeschwindigkeit wieder ins Spiel – ermöglichen Sie ihnen, bei O(N)-Kosten effizient zu laufen und gleichzeitig im Training auf über 1 Milliarde Parameter zu skalieren und dabei ähnliche Leistungsniveaus beizubehalten. ... x+ Wachstum bei 2k Token-Anzahl und über 100-faches Wachstum bei einer Token-Länge von 100.000
Mit 14B-Parametern ist RWKV der größte lineare Open-Source-Transformer, ähnlich wie GPT NeoX und andere Datensätze (wie der Pile) vergleichbar sind.
Die Leistung des RWKV-Modells ist mit bestehenden Transformatormodellen ähnlicher Größe vergleichbar, wie verschiedene Benchmarks zeigen
Aber einfacher ausgedrückt bedeutet das: Was?
Vorteile
Inferenz/Training ist 10x oder mehr billiger als Transformer in größeren Kontextgrößen
in. RNN Modus Herunter, okay. Läuft langsam, sehr eingeschränkt Hardware Ähnliche Leistung wie Transformer auf demselben Datensatz
Keine Skalierung über 14B-Parameter hinaus möglichNicht so gut wie Transformatoroptimierung und -einführung
Wir sollten darüber nachdenken, andere Alternativen und ihre Vorteile kennenzulernen
Diffusionsmodell: Texttraining ist schneller Langsam, aber äußerst flexibel für Multi-Epochen-Training. Herauszufinden, warum das so ist, kann helfen, die Token-Krise zu lindern.
Originaltitel: Introducing RWKV: The Rise of Linear Transformers and Exploring Alternatives, Autor:
picocreator
. https ://www.php.cn/ link/b433da1b32b5ca96c0ba7fcb9edba97d
Das obige ist der detaillierte Inhalt vonWir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!