Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

PHPz

Mar 07, 2024 pm 05:50 PM

数据模型

Kai-Fu Lees KI-Unternehmen, Zero One, hat einen weiteren großen Modellspieler auf der Bühne:

9 Milliarden Parameter Yi-9B.

In der Yi-Reihe ist es als „Wissenschafts-Champion“ bekannt. Es gleicht die Code-Mathematik aus, ohne in Bezug auf umfassende Fähigkeiten ins Hintertreffen zu geraten. Erbringt die beste Leistung unter einer Reihe von Open-Source-Modellen

ähnlicher Größenordnung (einschließlich Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5 usw.)

. Alte Regel, Veröffentlichung ist Open Source, besonders

Entwicklerfreundlich: Yi-9B (BF 16) und seine quantisierte Version Yi-9B (Int8) können auf

Consumer-Grafikkarten

eingesetzt werden. Eine RTX 4090 oder eine RTX 3090 reicht aus.

Die Yi-Familie von Zero One Thousand Things hat zuvor die Serien Yi-6B und Yi-34B herausgebracht.

Beide wurden vorab auf chinesischen und englischen 3,1T-Token-Daten trainiert, und Yi-9B wurde auf dieser Basis durch Hinzufügen eines 0,8T-Tokens trainiert.

Die Frist für Daten ist Juni 2023. Zu Beginn wurde erwähnt, dass die größte Verbesserung von Yi-9B in Mathematik und Codierung liegt. Wie können diese beiden Fähigkeiten also verbessert werden?

Einführung in Zero One Thousand Things:

Nur die Datenmenge zu erhöhen, kann die Erwartungen nicht erfüllen. basiert darauf,

zunächst die Modellgröße

auf 9B basierend auf Yi-6B zu erhöhen, und dann ein mehrstufiges inkrementelles Datentraining durchzuführen .

Wie kann man zunächst die Modellgröße erhöhen?

Eine Prämisse ist, dass das Team durch Analyse herausgefunden hat:

Yi-6B wurde vollständig trainiert und der Trainingseffekt wird möglicherweise nicht verbessert, egal wie viele weitere Token hinzugefügt werden, daher wird über eine Erweiterung seiner Größe nachgedacht.

(Die Einheit im Bild unten ist nicht TB, sondern B)

tiefe Verstärkung

. Einführung in Zero One Thousand Things:

Die Erweiterung der Breite des Originalmodells führt zu mehr Leistungsverlusten. Nach der Tiefenverstärkung des Modells durch Auswahl einer geeigneten Ebene liegt der Eingabe-/Ausgabekosinus der neuen Ebene näher bei 1,0 Das heißt, je mehr die Leistung des erweiterten Modells die Leistung des Originalmodells aufrechterhalten kann, desto geringer ist der Leistungsverlust des Modells.

Nach dieser Idee entschied sich Zero Yiwu dafür, die relativ hinteren 16 Schichten

(Schichten 12-28)

von Yi-6B zu kopieren, um das 48-schichtige Yi-9B zu bilden. Experimente zeigen, dass diese Methode eine bessere Leistung aufweist als die Verwendung des Solar-10.7B-Modells zum Kopieren der mittleren 16 Schichten

(8-24 Schichten)

Zweitens: Was ist die mehrstufige Trainingsmethode?

Die Antwort besteht darin, zuerst 0,4T-Daten hinzuzufügen, die Text und Code enthalten, aber das Datenverhältnis ist das gleiche wie bei Yi-6B.

Dann fügen Sie weitere 0,4 T Daten hinzu, die auch Text und Code enthalten, sich aber auf die Erhöhung des Anteils von Code und mathematischen Daten konzentrieren.

(Verstanden, es ist dasselbe wie unser Trick „Schritt für Schritt denken“, wenn wir Fragen zu großen Modellen stellen)

Nachdem diese beiden Schritte abgeschlossen sind, bezieht sich das Team immer noch auf zwei Papiere

(An Empirical Model of Large- Batch-Training und Lernrate nicht verschlechtern, Batch-Größe erhöhen)

und die Parameteranpassungsmethode optimiert. Das heißt, ausgehend von einer festen Lernrate wird die Stapelgröße immer dann erhöht, wenn der Modellverlust nicht mehr abnimmt, sodass der Rückgang ununterbrochen erfolgt und das Modell vollständiger lernt.

Am Ende enthielt Yi-9B tatsächlich insgesamt 8,8 Milliarden Parameter und erreichte eine Kontextlänge von 4k.

Die Yi-Serie verfügt über die stärksten Codierungs- und mathematischen Fähigkeiten

Bei tatsächlichen Tests verwendete Zero Yiwu zum Testen die Methode der gierigen Dekodierung

(d. h. jedes Mal wurde das Wort mit dem höchsten Wahrscheinlichkeitswert ausgewählt)

. Die teilnehmenden Modelle sind DeepSeek-Coder, DeepSeek-Math, Mistral-7B, SOLAR-10.7B und Gemma-7B:

(1)

DeepSeek-Coder, von einem inländischen Deep-Search-Unternehmen, seine 33B-Anweisungen Die menschliche Bewertung der optimierten Version übertrifft GPT-3.5-turbo und die Leistung der 7B-Version kann die Leistung von CodeLlama-34B erreichen.

DeepSeek-Math verlässt sich auf 7B-Parameter, um GPT-4 zu stürzen, was die gesamte Open-Source-Community schockiert. (2)

SOLAR-10.7BUpstage AI aus Südkorea, geboren im Dezember 2023, übertrifft Mixtral-8x7B-Instruct in der Leistung.

(3)Mistral-7B ist das erste Open-Source-MoE-Großmodell, das das Niveau von Llama 2 70B und GPT-3.5 erreicht oder sogar übertrifft.

(4)Gemma-7BZero One Wanwu von Google wies darauf hin:

Die Anzahl der effektiven Parameter liegt tatsächlich auf dem gleichen Niveau wie bei Yi-9B.

(Die Benennungsstandards der beiden sind unterschiedlich. Ersteres verwendet nur nicht einbettende Parameter, während letzteres alle Parameter verwendet und aufrundet)

Die Ergebnisse sind wie folgt.

Erstens ist die Leistung von Yi-9B in Bezug auf Codierungsaufgaben nach DeepSeek-Coder-7B an zweiter Stelle, und die anderen vier sind alle KO.

In Bezug auf die mathematischen Fähigkeiten liegt die Leistung von Yi-9B nach DeepSeek-Math-7B an zweiter Stelle und übertrifft die anderen vier.

Die Gesamtfähigkeit ist auch nicht schlecht.

Seine Leistung ist die beste unter Open-Source-Modellen ähnlicher Größe und übertrifft alle anderen fünf Player.

Abschließend wurden gesunder Menschenverstand und Denkvermögen getestet:

Das Ergebnis ist, dass Yi-9B auf Augenhöhe mit Mistral-7B, SOLAR-10.7B und Gemma-7B liegt.

Neben den Sprachkenntnissen ist nicht nur Englisch gut, sondern auch Chinesisch wird weithin gelobt:

Abschließend, nachdem sie diese gelesen hatten, sagten einige Internetnutzer: „Ich kann es kaum erwarten, es auszuprobieren.“

Manche Leute machen sich Sorgen um DeepSeek:

Beeilen Sie sich und stärken Sie Ihr „Spiel“. Die totale Dominanz ist weg ==

Das Portal ist hier: https://huggingface.co/01-ai/Yi-9B

Das obige ist der detaillierte Inhalt vonGrafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Will R.E.P.O. Crossplay haben?

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Dreamweaver Mac

Visuelle Webentwicklungstools

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7548

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten