Heim >Technologie-Peripheriegeräte >KI >1 Token beendet das LLM-Digitalcodierungsproblem! Neun große Institutionen haben gemeinsam xVal veröffentlicht: Auch Zahlen, die nicht im Trainingssatz enthalten sind, können vorhergesagt werden!
Obwohl die Leistung großer Sprachmodelle (LLM) bei Textanalyse- und Generierungsaufgaben sehr leistungsstark ist, liegt es an einem einheitlichen und vollständigen Mechanismus zur Segmentierung von Zahlenwörtern, wenn es um Zahlenprobleme wie die Multiplikation mit mehreren Ziffern geht Das Modell wird Probleme haben. Infolgedessen kann LLM die Semantik von Zahlen nicht verstehen und zufällige Antworten erstellen.
Eines der Hindernisse dafür, dass LLM in der Datenanalyse im wissenschaftlichen Bereich derzeit nicht weit verbreitet ist, ist das Problem der digitalen Kodierung.
Vor Kurzem haben neun Forschungseinrichtungen, darunter das Flatiron Institute, das Lawrence Berkeley National Laboratory, die University of Cambridge, die New York University und die Princeton University, gemeinsam ein neues digitales Kodierungsschema xVal veröffentlicht, das nur einen Token zum Kodieren aller Zahlen erfordert.
Link zum Papier: https://arxiv.org/pdf/2310.02989.pdf
xVal repräsentiert den wahren Zielwert durch numerische Skalierung des Einbettungsvektors des dedizierten Tokens ([NUM]) und In Kombination mit der modifizierten numerischen Argumentationsmethode sorgt die xVal-Strategie dafür, dass das Modell bei der Zuordnung zwischen Eingabezeichenfolgennummern und Ausgabenummern erfolgreich durchgängig kontinuierlich ist, wodurch es besser für Anwendungen im wissenschaftlichen Bereich geeignet ist.
Bewertungsergebnisse zu synthetischen und realen Datensätzen zeigen, dass xVal nicht nur eine bessere Leistung erbringt und mehr Token einspart als bestehende numerische Codierungsschemata, sondern auch bessere Interpolationsverallgemeinerungseigenschaften aufweist.
Das standardmäßige LLM-Wortsegmentierungsschema unterscheidet nicht zwischen Zahlen und Text, daher ist es unmöglich, Werte zu quantifizieren.
Es gab bereits frühere Arbeiten, um alle Zahlen in Form einer wissenschaftlichen Notation auf einen begrenzten Satz von Prototypzahlen (Prototypzahlen) abzubilden, wobei 10 als Basis verwendet wurde, oder um den Kosinusabstand zwischen Zahleneinbettungen zu berechnen, um die Zahl widerzuspiegeln Numerische Differenzen wurden erfolgreich zur Lösung linearer Algebraprobleme wie der Matrixmultiplikation eingesetzt.
Bei kontinuierlichen oder glatten Problemen im wissenschaftlichen Bereich können Sprachmodelle jedoch Interpolations- und Out-of-Distribution-Generalisierungsprobleme immer noch nicht gut bewältigen, da LLM nach der Codierung von Zahlen in Text immer noch diskreter Natur bei der Codierung und Decodierung ist Stufen ist es schwierig, ungefähre kontinuierliche Funktionen zu lernen. Die Idee von
xVal besteht darin, die numerische Größe multiplikativ zu kodieren und sie im Einbettungsraum in eine lernbare Richtung auszurichten, was die Art und Weise, wie Zahlen in der Transformer-Architektur verarbeitet und interpretiert werden, stark verändert.
xVal verwendet einen einzigen Token für die digitale Codierung, was die Vorteile der Token-Effizienz und eines minimalen Vokabularbedarfs bietet.
In Kombination mit dem modifizierten numerischen Argumentationsparadigma ist der Wert des Transformer-Modells kontinuierlich (glatt), wenn die Näherungsfunktion kontinuierlich oder glatt ist, wenn die Näherungsfunktion kontinuierlich oder glatt ist.
xVal verwendet keine unterschiedlichen Token für unterschiedliche Zahlen, sondern bettet Werte direkt entlang spezifischer lernbarer Richtungen in den Einbettungsraum ein.
Unter der Annahme, dass die Eingabezeichenfolge sowohl Zahlen als auch Text enthält, analysiert das System zunächst die Eingabe, extrahiert alle Werte und erstellt dann eine neue Zeichenfolge, in der die Zahlen durch [NUM] ersetzt werden Symbol und multiplizieren Sie dann den Einbettungsvektor von [NUM] mit seinem entsprechenden Wert.
Der gesamte Codierungsprozess kann für die Maskensprachenmodellierung (MLM) und die autoregressive (AR) Generierung verwendet werden.
Implizite Normalisierung über Layer-Norm basierend auf Layer-Normalisierung
In der spezifischen Implementierung muss die multiplikative Einbettung von xVal im ersten Transformer-Block nach der Normalisierung des Codierungsvektors für die obere Position und der Layer-Norm hinzugefügt werden die Einbettung jedes Tokens basierend auf dem Eingabebeispiel.
Wenn die Positionseinbettung nicht kollinear mit der mit [NUM] markierten Einbettung ist, kann der Skalarwert durch eine nichtlineare Neuskalierungsfunktion geleitet werden.
Nehmen Sie an, dass u die Einbettung von [NUM] ist, p die Positionseinbettung und x der codierte Skalarwert ist. Um die Berechnung zu vereinfachen, können wir annehmen, dass u · p=0, wobei ∥u∥ =∥ p∥ = 1, Sie können
erhaltenDas heißt, der Wert von x ist so codiert, dass er in die gleiche Richtung wie u weist, und diese Eigenschaft kann nach dem Training weiterhin beibehalten werden.
Diese Normalisierungseigenschaft bedeutet, dass der Dynamikbereich von xVal kleiner ist als der anderer textbasierter Codierungsschemata, der im Experiment als Verarbeitungsschritte vor dem Training auf [-5, 5] eingestellt wurde.
xVal definiert eine kontinuierliche Einbettung in den Eingabewert, wenn jedoch eine Mehrfachklassifizierungsaufgabe als Ausgabe verwendet wird und der Trainingsalgorithmus die Zuordnung vom Eingabewert zum Ausgabewert berücksichtigt, ist das Modell insgesamt Es ist nicht durchgehend durchgehend und die Zahlen müssen auf der Ausgabeebene separat verarbeitet werden.
Gemäß der Standardpraxis im Transformer-Sprachmodell definierten die Forscher einen Token-Kopf, um die Wahrscheinlichkeitsverteilung von Vokabular-Tokens auszugeben.
Da xVal [NUM] zum Ersetzen von Zahlen verwendet, enthält der Kopf keine Informationen über den numerischen Wert. Daher muss ein neuer Zahlenkopf mit einer Skalarausgabe eingeführt und durch Verlust des mittleren quadratischen Fehlers (MSE) trainiert werden Stellt den spezifischen numerischen Wert wieder her, der mit [NUM] verknüpft ist.
Beobachten Sie nach der Eingabe zunächst die Ausgabe des Token-Kopfes. Wenn der generierte Token [NUM] ist, sehen Sie sich dann den Zahlenkopf an, um den Wert des Tokens einzugeben.
Da das Transformer-Modell in Experimenten bei der Ableitung von Werten durchgängig kontinuierlich ist, schneidet es bei der Interpolation auf unsichtbare Werte besser ab.
Vergleich mit anderen digitalen Kodierungsmethoden
Die Forscher verglichen die Leistung von XVAL mit vier anderen digitalen Kodierungen, bei denen alle die Verarbeitung der Zahlen in die erste Form ±ddd E±d erfordern. Rufen Sie dann je nach Format einzelne oder mehrere Token auf, um die Codierung zu bestimmen.
Verschiedene Methoden weisen große Unterschiede in der Anzahl der Token und dem Vokabular auf, die zum Codieren jeder Zahl erforderlich sind. Insgesamt weist xVal jedoch die höchste Codierungseffizienz und die kleinste Vokabulargröße auf.
Die Forscher bewerteten xVal auch anhand von drei Datensätzen, darunter synthetische Rechenoperationsdaten, globale Temperaturdaten und Simulationsdaten der Planetenumlaufbahn.
Rechnen lernen
Selbst für die größten LLMs ist die „mehrstellige Multiplikation“ immer noch eine äußerst anspruchsvolle Aufgabe. Beispielsweise erreicht GPT-4 nur eine Null-Schuss-Genauigkeit von 59 %, die Genauigkeit auf vier -stellige und fünfstellige Multiplikationsprobleme betragen nur 4 % und 0 %
Aus den Vergleichsexperimenten können andere digitale Kodierungen normalerweise auch sehr gute Ergebnisse bei mehrstelligen Multiplikationsproblemen lösen, aber die Vorhersageergebnisse von xVal sind stabiler als P10 und FP15 und erzeugen keine abnormalen Vorhersagewerte.
Um die Schwierigkeit der Aufgabe zu erhöhen, verwendeten die Forscher zufällige Binärbäume, um einen Datensatz mit binären Additions-, Subtraktions- und Multiplikationsoperatoren zu erstellen, um eine feste Anzahl von Operanden (2, 3 oder 4) zu kombinieren wobei jede Probe ein arithmetischer Ausdruck ist, zum Beispiel ((1,32 * 32,1) + (1,42-8,20)) = 35,592
Dann werden die Proben gemäß den Verarbeitungsanforderungen jedes Zahlencodierungsschemas verarbeitet, und das Ziel der Aufgabe ist Um den Ausdruck auf der linken Seite der Gleichung zu berechnen, ist die rechte Seite der Gleichung die Maske.
Den Ergebnissen nach zu urteilen hat xVal bei dieser Aufgabe sehr gut abgeschnitten, aber arithmetische Experimente allein reichen nicht aus, um die mathematischen Fähigkeiten des Sprachmodells vollständig zu bewerten, da die Stichproben in arithmetischen Operationen normalerweise kurze Sequenzen sind und die zugrunde liegende Datenmannigfaltigkeit gering ist -dimensional überwinden diese Probleme nicht den rechnerischen Engpass von LLMs und die Anwendungen in der realen Welt sind komplexer.
Temperaturvorhersage
Der Einfachheit halber haben sich die Forscher im Experiment nur auf die Oberflächentemperaturdaten (T2m in ERA5) konzentriert Anschließend wurden die Proben aufgeteilt, wobei jede Probe 2–4 Tage Oberflächentemperaturdaten (normalisiert auf Einheitsvarianz) sowie Breiten- und Längengrade von 60–90 zufällig ausgewählten Berichtsstationen umfasst.
Kodieren Sie den Sinus des Breitengrads und den Sinus und Cosinus des Längengrads der Koordinate, um so die Periodizität der Daten beizubehalten, und verwenden Sie dann denselben Vorgang, um die Position im 24-Stunden- und 365-Tage-Zeitraum zu kodieren .
Die Koordinaten (Koordinaten), der Startpunkt (Start) und die Daten (Daten) entsprechen den Koordinaten der Meldestation, dem Zeitpunkt der ersten Probe und den normalisierten Temperaturdaten und verwenden dann die MLM-Methode zum Trainieren das Sprachmodell.
Aus den Ergebnissen geht hervor, dass xVal die beste Leistung aufweist und auch die Berechnungszeit erheblich verkürzt wird.
Diese Aufgabe veranschaulicht auch die Mängel textbasierter Codierungsschemata. Das Modell kann falsche Korrelationen in den Daten ausnutzen, d. h. P10, P1000 und B1999 neigen dazu, normalisierte Temperaturen von ±0,1 vorherzusagen, hauptsächlich weil diese Zahl kommt im Datensatz am häufigsten vor.
Für die Schemata P1000 und P10 beträgt die Codierungsausgabe der beiden Schemata etwa 8000 bzw. 5000 Token (im Vergleich zum Durchschnitt von FP15 und xVal von etwa 1800 Token), was wahrscheinlich auf eine schlechte Leistung des Modells zurückzuführen ist zu Problemen mit der Fernmodellierung.
Das obige ist der detaillierte Inhalt von1 Token beendet das LLM-Digitalcodierungsproblem! Neun große Institutionen haben gemeinsam xVal veröffentlicht: Auch Zahlen, die nicht im Trainingssatz enthalten sind, können vorhergesagt werden!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!