Heim >Technologie-Peripheriegeräte >KI >Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der Welt

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der Welt

WBOY
WBOYnach vorne
2024-02-19 21:30:39886Durchsuche

Während große Modelle auf den Markt kommen, wird auch der Status von Transformer nach und nach in Frage gestellt.

Kürzlich hat RWKV das Eagle 7B-Modell veröffentlicht, das auf der neuesten RWKV-v5-Architektur basiert.

Eagle 7B glänzt in mehrsprachigen Benchmarks und liegt in englischen Tests auf Augenhöhe mit Topmodellen.

Gleichzeitig verwendet Eagle 7B eine RNN-Architektur, wodurch die Inferenzkosten um mehr als das 10- bis 100-fache reduziert werden. Es kann als das umweltfreundlichste 7B bezeichnet werden Modell der Welt.

Da das Papier zu RWKV-v5 möglicherweise erst im nächsten Monat veröffentlicht wird, stellen wir zunächst das Papier zu RWKV zur Verfügung, der ersten Nicht-Transformer-Architektur, die Parameter auf mehrere zehn Milliarden skaliert.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

Papieradresse: https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2023 hat diese Arbeit von führenden Universitäten, Forschungseinrichtungen und Technologieunternehmen angenommen Welt.

Das Folgende ist das offizielle Bild von Eagle 7B, das zeigt, dass dieser Adler über Transformers fliegt.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

Eagle 7B

Eagle 7B verwendet Trainingsdaten von 1,1T (Billionen) Token aus mehr als 100 Sprachen. Im untenstehenden mehrsprachigen Benchmark-Test belegt Eagle 7B im Durchschnitt den ersten Platz.

Benchmarks umfassen xLAMBDA, xStoryCloze, xWinograd und xCopa, die 23 Sprachen abdecken, sowie vernünftiges Denken in ihren jeweiligen Sprachen.

Eagle 7B gewann in drei von ihnen den ersten Platz. Obwohl einer von ihnen Mistral-7B nicht besiegte und den zweiten Platz belegte, waren die vom Gegner verwendeten Trainingsdaten viel höher als die von Eagle.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

Der unten abgebildete Englischtest enthält 12 separate Benchmarks, gesundes Menschenverstandsdenken und Weltwissen.

Im englischen Leistungstest liegt das Niveau von Eagle 7B nahe bei Falcon (1,5T), LLaMA2 (2T), Mistral (>2T) und ist vergleichbar mit MPT-7B, das ebenfalls etwa 1T-Training verwendet Daten.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

Und in beiden Tests hat die neue v5-Architektur im Vergleich zur vorherigen v4 insgesamt einen großen Sprung gemacht.

Eagle 7B wird derzeit von der Linux Foundation gehostet und ist unter der Apache 2.0-Lizenz für die uneingeschränkte persönliche oder kommerzielle Nutzung lizenziert.

Mehrsprachige Unterstützung

Wie bereits erwähnt, stammen die Trainingsdaten von Eagle 7B aus mehr als 100 Sprachen, während die 4 oben verwendeten mehrsprachigen Benchmarks nur 23 Sprachen umfassen.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

Obwohl es den ersten Platz erreichte, musste Eagle 7B insgesamt einen Verlust einstecken. Schließlich kann der Benchmark-Test die Leistung des Modells in mehr als 70 anderen Sprachen nicht direkt bewerten.

Die zusätzlichen Schulungskosten werden Ihnen nicht dabei helfen, Ihr Ranking zu verbessern. Wenn Sie sich auf Englisch konzentrieren, erzielen Sie möglicherweise bessere Ergebnisse als jetzt.

——Warum macht RWKV das? Der Beamte sagte:

Inklusive KI für alle auf dieser Welt aufbauen – nicht nur für die Engländer

Unter den vielen Rückmeldungen zum RWKV-Modell ist das häufigste:

Der mehrsprachige Ansatz schadet Die englische Bewertung des Modells hat die Entwicklung des linearen Transformators verlangsamt.

Es ist unfair, die mehrsprachige Leistung mit einem rein englischen Modell zu vergleichen. Offiziell heißt es: „In den meisten Fällen stimmen wir diesen zu.“ Meinungen,"

„Aber wir haben nicht vor, das zu ändern, denn wir bauen KI für die Welt – und es ist nicht nur eine englischsprachige Welt.“ Die Weltbevölkerung spricht Englisch (ungefähr 1,3 Milliarden Menschen), aber durch die Unterstützung der 25 wichtigsten Sprachen der Welt kann das Modell ungefähr 4 Milliarden Menschen oder 50 % der Weltbevölkerung erreichen.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltDas Team hofft, dass die künstliche Intelligenz der Zukunft allen helfen kann, indem sie beispielsweise die Ausführung von Modellen auf Low-End-Hardware zu einem niedrigen Preis ermöglicht und beispielsweise mehr Sprachen unterstützt.

Das Team wird den mehrsprachigen Datensatz schrittweise erweitern, um ein breiteres Spektrum an Sprachen zu unterstützen und die Abdeckung langsam auf 100 % der Regionen der Welt auszudehnen – um sicherzustellen, dass keine Sprache übersehen wird.

Datensatz + skalierbare Architektur

Während des Trainingsprozesses des Modells gibt es ein bemerkenswertes Phänomen:

Da der Umfang der Trainingsdaten weiter zunimmt, verbessert sich die Leistung des Modells allmählich. Wenn die Trainingsdaten etwa 300 B erreichen, zeigt das Modell eine ähnliche Leistung wie Python-6.9b mit einer Trainingsdatengröße von 300 B.

Bild

Dieses Phänomen ist das gleiche wie bei einem zuvor mit der RWKV-v4-Architektur durchgeführten Experiment – ​​das heißt, wenn die Trainingsdatengröße gleich ist, ist die Leistung eines linearen Transformators wie RWKV gleich ähnlich wie Transformer.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltWir kommen also nicht umhin zu fragen: Wenn dies tatsächlich der Fall ist, sind die Daten für die Leistungsverbesserung des Modells wichtiger als die genaue Architektur?

Bild

Wir wissen, dass die Berechnungs- und Speicherkosten des Transformer-Klassenmodells quadratisch sind, während in der Abbildung oben die Berechnungskosten der RWKV-Architektur nur linear mit der Anzahl der Token ansteigen.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltVielleicht sollten wir nach effizienteren und skalierbaren Architekturen suchen, um die Zugänglichkeit zu verbessern, die Kosten von KI für alle zu senken und die Umweltbelastung zu verringern.

RWKV

Die RWKV-Architektur ist ein RNN mit LLM-Leistung auf GPT-Ebene und kann gleichzeitig wie Transformer parallel trainiert werden.

RWKV vereint die Vorteile von RNN und Transformer – hervorragende Leistung, schnelle Inferenz, schnelles Training, Einsparung von VRAM, „unbegrenzte“ Kontextlänge und freie Satzeinbettung. RWKV nutzt den Aufmerksamkeitsmechanismus nicht.

Die folgende Abbildung zeigt den Vergleich der Rechenkosten zwischen RWKV- und Transformer-Modellen:

Bilder

Um die zeitlichen und räumlichen Komplexitätsprobleme von Transformer zu lösen, haben Forscher verschiedene Architekturen vorgeschlagen:

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBild

Die RWKV-Architektur besteht aus einer Reihe gestapelter Restblöcke. Jeder Restblock besteht aus einem zeitlichen Misch- und einem Kanalmisch-Unterblock mit einer Schleifenstruktur.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltDie linke Seite des Das Bild unten zeigt RWKV-Blockelemente, rechts der RWKV-Restblock und der letzte Header für die Sprachmodellierung.

Bild

Rekursion kann als lineare Interpolation zwischen der aktuellen Eingabe und der Eingabe des vorherigen Zeitschritts ausgedrückt werden (wie durch die diagonale Linie in der Abbildung unten dargestellt), die für jede Linearität unabhängig sein kann Projektion der Eingabeeinbettungsanpassung.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltHier wird auch ein Vektor eingeführt, der den aktuellen Token separat verwaltet, um mögliche Verschlechterungen auszugleichen.

Das RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der WeltBilder

RWKV kann im sogenannten zeitlichen Parallelitätsmodus effizient parallelisiert werden (Matrixmultiplikation).

In einem wiederkehrenden Netzwerk wird normalerweise die Ausgabe des vorherigen Moments als Eingabe des aktuellen Moments verwendet. Dies zeigt sich insbesondere bei der autoregressiven Decodierungsinferenz für Sprachmodelle, bei der jedes Token berechnet werden muss, bevor der nächste Schritt eingegeben wird, sodass RWKV seine RNN-ähnliche Struktur, den sogenannten temporalen Modus, nutzen kann.

In diesem Fall kann RWKV für die Dekodierung während der Inferenz bequem rekursiv formuliert werden. Dabei wird jedes Ausgabetoken nur auf der Grundlage des neuesten Status genutzt. Die Größe des Status ist konstant, im Gegensatz dazu ist die Sequenzlänge irrelevant.

fungiert dann als RNN-Decoder und sorgt für konstante Geschwindigkeit und Speicherbedarf im Verhältnis zur Sequenzlänge, sodass längere Sequenzen effizienter verarbeitet werden können.

Im Gegensatz dazu wächst der KV-Cache der Selbstaufmerksamkeit kontinuierlich im Verhältnis zur Sequenzlänge, was zu einer geringeren Effizienz und einem erhöhten Speicherbedarf und einer höheren Zeit führt, wenn die Sequenz länger wird.

Referenz:

https://www.php.cn/link/fda2217a3921c464be73975603df7510

Das obige ist der detaillierte Inhalt vonDas RNN-Modell fordert die Transformer-Hegemonie heraus! 1 % Kosten und Leistung vergleichbar mit Mistral-7B, unterstützt mehr als 100 Sprachen, die meisten auf der Welt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen