Heim >Technologie-Peripheriegeräte >KI >Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2023-09-20 15:49:01854Durchsuche

Große Sprachmodelle (LLMs), einschließlich Nur-Decoder-Strukturen (wie GPT- und LLAMA-Modellfamilie), Nur-Encoder-Strukturen (wie BERT) und Encoder-Decoder-Strukturen (wie T5) und deren Variantenmodelle Es hat bemerkenswerte Erfolge erzielt und wurde häufig in verschiedenen Sprachverarbeitungs- und multimodalen Aufgaben eingesetzt.

Trotz dieses Erfolgs sind die Kosten für die LLM-Ausbildung immer noch so hoch, dass sich nur wenige Unternehmen die Ausbildungskosten leisten können. Darüber hinaus deuten aktuelle Trends darauf hin, dass in Zukunft größere Trainingsdaten verwendet werden, was die Entwicklungskosten großer Modelle weiter erhöhen wird. Beim LLAMA-1-Training werden beispielsweise 1–1,4 TB-Tokens verwendet, während Llama 2 2 TB erreicht.

Eine weitere wichtige Herausforderung bei der Entwicklung von LLM ist die Evaluierung. Die gängigen Bewertungsmethoden sind in zwei Kategorien unterteilt: Wissensbewertung (MMLU und C-Eval) und NLP-Aufgabenbewertung. Diese Bewertungsmethoden spiegeln möglicherweise nicht wirklich die Fähigkeiten des Modells wider, da möglicherweise Datenlecks vorliegen, d. h. einige Teile des Bewertungsdatensatzes wurden möglicherweise während des Modelltrainingsprozesses verwendet. Darüber hinaus sind wissensorientierte Bewertungsmethoden möglicherweise nicht für die Beurteilung des Intelligenzniveaus geeignet. Eine fairere und objektivere Bewertungsmethode besteht darin, den Intelligenzquotienten (IQ) des LLM zu messen, was darin besteht, den LLM auf Bedingungen und Kontexte zu verallgemeinern, die in den Trainingsdaten nicht zu sehen sind.

Wachstumsstrategie. Um das Problem der Schulungskosten zu lösen, haben viele Institutionen wie das Beijing Zhiyuan Artificial Intelligence Research Institute und das Institute of Computing Technology der Chinesischen Akademie der Wissenschaften kürzlich einige Versuche unternommen – die Schulung eines LLM auf 100-Milliarden-Parameterebene durch eine Wachstumsstrategie für die Zum ersten Mal. Wachstum bedeutet, dass die Anzahl der Parameter während des Trainings nicht festgelegt ist, sondern sich von kleineren Modellen zu größeren Modellen ausdehnt.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Papier: https://arxiv.org/pdf/2309.03852.pdf
Der Inhalt, der neu geschrieben werden muss, ist: Modelllink: https://huggingface.co/CofeAI/FLM- 101B

Abbildung 1 zeigt drei typische Szenarien von Wachstumsstrategien. Da die FLOPs eines LLM ungefähr proportional zur Anzahl seiner Parameter sind, kann die Fläche zwischen der Änderungskurve der Modellparameter und der X-Achse den Rechenaufwand des Trainings darstellen.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Abbildung 1 (a) zeigt die Standard-Trainingsstrategie ohne Modellwachstum; 1 (b) ist eine lineare Wachstumsstrategie, die 50 % der Kosten einsparen kann; 1 (c) ist eine moderate Wachstumsstrategie, die weniger spart als 50 % der Kosten; 1 (d) ist eine radikale Wachstumsstrategie, die mehr als 50 % der Kosten einsparen kann. Diese Analyse zeigt, dass eine aggressive Wachstumsstrategie verfolgt werden sollte, um so viel Rechenkosten wie möglich einzusparen.

Das Design des Wachstumsoperators dieser neuen Studie ist vom MSG im Artikel „2x schnelleres Sprachmodell-Pre-Training durch maskiertes Strukturwachstum“ inspiriert, bei dem es sich um einen vollständigen Satz von Operationen handelt, die alle vier Transformatoren abdecken Strukturwachstumsdimension. Noch wichtiger ist, dass MSG unter Beibehaltung der Funktionalität wachsen kann. Obwohl ein kleines Modell mit einem kleineren Parametersuchraum schnell lernen kann, kann sein Wissen daher von nachfolgenden größeren Modellen geerbt werden. Dies ermöglicht es Wachstumsstrategien, bei gleichem oder geringerem Rechenaufwand eine bessere Leistung zu erzielen.

Open-Source-Modell FLM-101B. Forscher des Zhiyuan Research Institute haben durch schrittweises Wachstum ein LLM-Modell mit 101 Milliarden Parametern trainiert und erklärten außerdem, dass sie das Modell als Open Source veröffentlichen würden. Die Architektur dieses Modells ist eine Weiterentwicklung von FreeLM. Deshalb nannten die Forscher es FLM-101B, wobei F für Free steht.

Das FreeLM-Framework hat zwei Vortrainingsziele, die sich an Sprachsignalen bzw. Lehrersignalen orientieren. In dieser neuen Forschung werden diese beiden Ziele in einem gemeinsamen Sprachmodellierungsparadigma vereint.

IQ-Bewertungsbenchmark. Zusätzlich zum kostengünstigen Trainingsparadigma leistete das Team einen weiteren Beitrag, indem es einen systematischen Satz von Benchmarks für die Bewertung des Intelligenzquotienten (IQ) des LLM vorschlug.

Frühere Untersuchungen haben gezeigt, dass der Perplexity Level (PPL)-Indikator zwar die Qualität des generierten Textes bis zu einem gewissen Grad widerspiegeln kann, aber nicht zuverlässig ist. Andererseits ist der Umfang der LLM-Trainingsdaten so groß, dass es für uns schwierig ist zu unterscheiden, ob das Modell nur Wissensdaten zitiert oder ob es tatsächlich menschenähnliche Argumentations-, Analyse- und Generalisierungsfähigkeiten erreicht, was der Fall ist Worauf diese Studie den IQ als Grundlage definiert. Einige häufig verwendete Bewertungsmetriken (MMLU für Englisch und C-Eval für Chinesisch) sind offensichtlich wissensorientiert und können den Intelligenzgrad des Modells nicht vollständig widerspiegeln.

Zur Überprüfung der geistigen Gesundheit führte das Team einen Test durch: Fünf Informatikforscher von weltbekannten Universitäten legten eine Prüfung mit den Chemietestfragen von C-Eval ab. Es stellte sich heraus, dass ihre Genauigkeit fast so gut war wie das zufällige Raten, da die meisten Freiwilligen vergessen hatten, was sie über Chemie gelernt hatten. Daher reichen Bewertungsmaßstäbe, die Wissen und Fachwissen betonen, nicht aus, um den IQ eines Modells zu messen.

Um den IQ von LLM umfassend zu messen, hat das Team einen IQ-Bewertungsbenchmark entwickelt, der vier Schlüsselaspekte des IQ berücksichtigt: Symbolzuordnung, Regelverständnis, Pattern-Mining und Widerstandsfähigkeit gegen Störungen.

Sprache ist symbolischer Natur. Es gab einige Studien, in denen Symbole anstelle von Kategoriebezeichnungen verwendet wurden, um den Intelligenzgrad von LLMs zu bewerten. In ähnlicher Weise verwendete das Team einen symbolischen Mapping-Ansatz, um die Fähigkeit des LLM zu testen, auf unsichtbare Kontexte zu verallgemeinern.
Eine wichtige Fähigkeit der menschlichen Intelligenz besteht darin, vorgegebene Regeln zu verstehen und entsprechende Maßnahmen zu ergreifen. Diese Testmethode wird häufig in verschiedenen Teststufen eingesetzt. Daher wird hier das Regelverständnis zum zweiten Test.
Umgeschriebener Inhalt: Pattern Mining ist ein wichtiger Teil der Intelligenz, der Induktion und Deduktion umfasst. In der Geschichte der wissenschaftlichen Entwicklung spielt diese Methode eine entscheidende Rolle. Darüber hinaus erfordern Testfragen in verschiedenen Wettbewerben häufig diese Beantwortungsfähigkeit. Aus diesen Gründen haben wir Pattern Mining als dritten Bewertungsindikator gewählt
Der letzte und sehr wichtige Indikator ist die Anti-Interferenz-Fähigkeit, die auch eine der Kernfähigkeiten der Intelligenz ist. Studien haben gezeigt, dass sowohl Sprache als auch Bilder leicht durch Lärm gestört werden. Vor diesem Hintergrund verwendete das Team die Störfestigkeit als abschließende Bewertungsgröße.

Natürlich sind diese vier Indikatoren keineswegs das letzte Wort bei der LLM-IQ-Bewertung, aber sie können als Ausgangspunkt für die Anregung nachfolgender Forschungsentwicklung dienen und werden voraussichtlich letztendlich zu einem umfassenden Rahmen für die LLM-IQ-Bewertung führen.

Zu den Hauptbeiträgen dieser Studie gehören:

Der Forscher gab an, dass es sich hierbei um einen LLM-Forschungsversuch handelt, mehr als 100 Milliarden Parameter mithilfe einer Wachstumsstrategie von Grund auf zu trainieren. Gleichzeitig ist dies auch das derzeit kostengünstigste 100-Milliarden-Parameter-Modell, das nur 100.000 US-Dollar kostet. Die Forscher glauben, dass diese Methode auch der breiteren wissenschaftlichen Forschungsgemeinschaft helfen kann.
Die Forscher führten außerdem experimentelle Vergleiche des neuen Modells mit zuvor leistungsstarken Modellen durch, einschließlich der Verwendung wissensorientierter Benchmarks und eines neu vorgeschlagenen Benchmarks zur systematischen IQ-Bewertung. Experimentelle Ergebnisse zeigen, dass das Modell FLM-101B wettbewerbsfähig und robust ist
Das Team wird Modellprüfpunkte, Code, zugehörige Tools usw. veröffentlichen, um die Forschung und Entwicklung von zweisprachigem LLM in Chinesisch und Englisch mit einer Skala von 100 Milliarden Parametern zu fördern.

FLM-101B-Designübersicht

Architektonisch nutzt FLM-101B FreeLM als Backbone-Netzwerk und integriert xPos. Was die Modellgröße betrifft, können Forscher dank der neuen Wachstumsstrategie Modelle in drei Größen erhalten: 16B, 51B und 101B in einem Training.

Was die Einstellungen vor dem Training betrifft, erbt FLM-101B die Trainingsstrategie von FreeLM.

In Bezug auf die Wachstumsstrategie kann das Team im Gegensatz zur üblichen Praxis, Modelle unterschiedlicher Größe unabhängig voneinander zu trainieren, nacheinander drei Modelle mit den Parametern 16B, 51B und 101B trainieren, wobei jedes Modell die größere Größe seines Vorgängers erbt 1. Kenntnisse über kleine Modelle.

Für die Trainingshardware wird ein Cluster aus 24 DGX-A800-GPU-Servern (8×80G) verwendet; die Trainingszeit von FLM-101B beträgt bitte weniger als 26 Tage siehe Tabelle unten 1 und 2.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Trainingsstabilität von FLM-101B

Um die instabilen Probleme wie Verlustdivergenz und Gradientenexplosion zu lösen, schlugen die Forscher eine vielversprechende Lösung vor, die wie folgt kurz beschrieben wird.

Verlustvorhersage. Die neu vorgeschlagene Methode zur Erzielung von Trainingsstabilität lautet wie folgt:

Bestimmen Sie zunächst die Verteilung der Daten, bevor Sie mit dem FLM-16B-Training beginnen.

Als nächstes führen Sie eine Rastersuche für drei Hyperparameter durch, einschließlich Lernrate, Initialisierungsstandardabweichung und Softmax-Temperatur der Ausgabeschicht. Die Rastersuche wird durchgeführt, indem ein Ersatzmodell mit einer verborgenen Zustandsdimension (d. h. Modellbreite) von 256, einer Kopfzahl von 2 und einer Parameterzahl von 40 Millionen ausgeführt wird. Alle anderen strukturellen Hyperparameter und Trainingsdaten dieses Ersatzmodells sind die gleichen wie bei FLM-16B. Bei Verwendung der Datenparallelität auf 6 Knoten dauerte ein Rastersuchlauf 24,6 Stunden, was bei einer Konfiguration mit 24 Knoten ungefähr 6 Stunden entspricht.

Durch diese Rastersuche fanden die Forscher die optimalen Hyperparameter: Lernrate = 4e-4, Standardabweichung = 1,6e-2, Softmax-Temperatur = 2,0.

Dann migrieren sie diese Hyperparameter durch µP, um ein nahtloses Trainingserlebnis zu erreichen, das Instabilitätsprobleme vermeidet. Wenn MSG in Kombination verwendet wird, treten bei LM-51B und FLM-101B keine nachfolgenden Wachstumsdivergenzprobleme auf.

Abbildung 2 zeigt die komplette Trainingsverlustkurve.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Gemischte Präzision über Bfloat16. Der Zweck der Verwendung gemischter Präzision besteht darin, Speicher- und Zeitkosten während der Laufzeit zu sparen. Hier haben sie sich für Bfloat16 entschieden.

Benchmark-Bewertung

Tabelle 3 vergleicht die Leistung des FLM-101B mit anderen leistungsstarken Benchmark-Modellen (Modelle der LLAMA-Serie und GLM-130B).

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Die Forscher sagten, dass diese Ergebnisse zeigen, dass FLM-101B keinen Vorteil in Bezug auf Faktenwissen hat und dass sich seine Leistung weiter verbessern wird, wenn mehr Trainingsdaten verwendet werden können.

Tabelle 4 zeigt die Ergebnisse von eFLM-16B im Vergleich zum Basismodell im Hinblick auf die Fachwissensbewertung.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Es stellt sich heraus, dass die Ergebnisse von Datensätzen, die Fachwissen betonen, nicht das Intelligenzniveau von LLM widerspiegeln, da einige spezifische Trainingsdaten einen überwältigenden Beitrag leisten können.

Tabelle 5 zeigt die Leistung jeder Stufe des FLM-Modells.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Wie erwartet wird sich die Leistung von FLM mit zunehmendem Modell verbessern. Der FLM-101B schnitt bei fast jeder Mission am besten ab. Dies bedeutet, dass das Modell jedes Mal, wenn es wächst, das Wissen aus der vorherigen Phase erbt.

IQ-Experiment

Um im Experiment eine systematischere Bewertung des IQ von LLM durchzuführen, nutzte das Team des Intelligent Source Research Institute vorhandene IQ-bezogene Datensätze und führte einige notwendige Änderungen durch Durch Modifikationen generierten sie auch einige neue synthetische Daten.

Konkret berücksichtigt die von ihnen vorgeschlagene IQ-Bewertung hauptsächlich vier Aspekte: Symbolzuordnung, Regelverständnis, Pattern Mining und Anti-Interferenz. Diese Aufgaben haben eines gemeinsam: Sie alle basieren auf Argumentation und Verallgemeinerung in neuen Kontexten.

Die folgenden Tabellen zeigen die Ergebnisse des IQ-Experiments:

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Aus diesen Tabellen geht hervor, dass FLM-101B bei diesen vier IQ-Bewertungsbenchmarks einen viel niedrigeren Rechenaufwand erzielt die mit GPT-3 vergleichbar und besser als GLM-130B sind.

Zusätzlich zum Einfluss von Trainingsdaten spekulieren die Forscher, dass dieser Vorteil darauf zurückzuführen sein könnte, dass das kleine Modell in der frühen Phase den kleineren Suchraum verfeinert, wenn das Modell größer und breiter wird, und die Generalisierungsfähigkeit zunimmt verbessert, Dieser Vorteil kommt weiterhin zum Tragen.

Das obige ist der detaillierte Inhalt vonMit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 Token 继承人工智能 transformer bert nlp https gpt llama

Stellungnahme：

Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Effizienter Einsatz von Python für die Datums-/Uhrzeitverarbeitung und -berechnungen: Sparen Sie Zeit und stellen Sie Genauigkeit sicherNächster Artikel：Effizienter Einsatz von Python für die Datums-/Uhrzeitverarbeitung und -berechnungen: Sparen Sie Zeit und stellen Sie Genauigkeit sicher

In Verbindung stehende Artikel

Mehr sehen