suchen
HeimTechnologie-PeripheriegeräteKIGrafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Kai-Fu Lees KI-Unternehmen, Zero One, hat einen weiteren großen Modellspieler auf der Bühne:

9 Milliarden Parameter Yi-9B.

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

In der Yi-Reihe ist es als „Wissenschafts-Champion“ bekannt. Es gleicht die Code-Mathematik aus, ohne in Bezug auf umfassende Fähigkeiten ins Hintertreffen zu geraten. Erbringt die beste Leistung unter einer Reihe von Open-Source-Modellen

ähnlicher Größenordnung (einschließlich Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5 usw.)

. Alte Regel, Veröffentlichung ist Open Source, besonders

Entwicklerfreundlich: Yi-9B (BF 16) und seine quantisierte Version Yi-9B (Int8) können auf

Consumer-Grafikkarten

eingesetzt werden. Eine RTX 4090 oder eine RTX 3090 reicht aus.

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügtTiefenverstärkung + mehrstufiges inkrementelles Training

Die Yi-Familie von Zero One Thousand Things hat zuvor die Serien Yi-6B und Yi-34B herausgebracht.

Beide wurden vorab auf chinesischen und englischen 3,1T-Token-Daten trainiert, und Yi-9B wurde auf dieser Basis durch Hinzufügen eines 0,8T-Tokens trainiert.

Die Frist für Daten ist Juni 2023. Zu Beginn wurde erwähnt, dass die größte Verbesserung von Yi-9B in Mathematik und Codierung liegt. Wie können diese beiden Fähigkeiten also verbessert werden?

Einführung in Zero One Thousand Things:

Nur die Datenmenge zu erhöhen, kann die Erwartungen nicht erfüllen. basiert darauf,

zunächst die Modellgröße

auf 9B basierend auf Yi-6B zu erhöhen, und dann ein mehrstufiges inkrementelles Datentraining durchzuführen .

Wie kann man zunächst die Modellgröße erhöhen?

Eine Prämisse ist, dass das Team durch Analyse herausgefunden hat:

Yi-6B wurde vollständig trainiert und der Trainingseffekt wird möglicherweise nicht verbessert, egal wie viele weitere Token hinzugefügt werden, daher wird über eine Erweiterung seiner Größe nachgedacht.

(Die Einheit im Bild unten ist nicht TB, sondern B)

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügtWie kann man sie erhöhen? Die Antwort ist

tiefe Verstärkung

. Einführung in Zero One Thousand Things:

Die Erweiterung der Breite des Originalmodells führt zu mehr Leistungsverlusten. Nach der Tiefenverstärkung des Modells durch Auswahl einer geeigneten Ebene liegt der Eingabe-/Ausgabekosinus der neuen Ebene näher bei 1,0 Das heißt, je mehr die Leistung des erweiterten Modells die Leistung des Originalmodells aufrechterhalten kann, desto geringer ist der Leistungsverlust des Modells.

Nach dieser Idee entschied sich Zero Yiwu dafür, die relativ hinteren 16 Schichten

(Schichten 12-28)

von Yi-6B zu kopieren, um das 48-schichtige Yi-9B zu bilden. Experimente zeigen, dass diese Methode eine bessere Leistung aufweist als die Verwendung des Solar-10.7B-Modells zum Kopieren der mittleren 16 Schichten

(8-24 Schichten)

.

Zweitens: Was ist die mehrstufige Trainingsmethode?

Die Antwort besteht darin, zuerst 0,4T-Daten hinzuzufügen, die Text und Code enthalten, aber das Datenverhältnis ist das gleiche wie bei Yi-6B.

Dann fügen Sie weitere 0,4 T Daten hinzu, die auch Text und Code enthalten, sich aber auf die Erhöhung des Anteils von Code und mathematischen Daten konzentrieren.

(Verstanden, es ist dasselbe wie unser Trick „Schritt für Schritt denken“, wenn wir Fragen zu großen Modellen stellen)

Nachdem diese beiden Schritte abgeschlossen sind, bezieht sich das Team immer noch auf zwei Papiere

(An Empirical Model of Large- Batch-Training und Lernrate nicht verschlechtern, Batch-Größe erhöhen)

und die Parameteranpassungsmethode optimiert. Das heißt, ausgehend von einer festen Lernrate wird die Stapelgröße immer dann erhöht, wenn der Modellverlust nicht mehr abnimmt, sodass der Rückgang ununterbrochen erfolgt und das Modell vollständiger lernt.

Am Ende enthielt Yi-9B tatsächlich insgesamt 8,8 Milliarden Parameter und erreichte eine Kontextlänge von 4k.

Die Yi-Serie verfügt über die stärksten Codierungs- und mathematischen Fähigkeiten

Bei tatsächlichen Tests verwendete Zero Yiwu zum Testen die Methode der gierigen Dekodierung

(d. h. jedes Mal wurde das Wort mit dem höchsten Wahrscheinlichkeitswert ausgewählt)

. Die teilnehmenden Modelle sind DeepSeek-Coder, DeepSeek-Math, Mistral-7B, SOLAR-10.7B und Gemma-7B:

(1)

DeepSeek-Coder, von einem inländischen Deep-Search-Unternehmen, seine 33B-Anweisungen Die menschliche Bewertung der optimierten Version übertrifft GPT-3.5-turbo und die Leistung der 7B-Version kann die Leistung von CodeLlama-34B erreichen.

DeepSeek-Math verlässt sich auf 7B-Parameter, um GPT-4 zu stürzen, was die gesamte Open-Source-Community schockiert. (2)

SOLAR-10.7BUpstage AI aus Südkorea, geboren im Dezember 2023, übertrifft Mixtral-8x7B-Instruct in der Leistung.

(3)Mistral-7B ist das erste Open-Source-MoE-Großmodell, das das Niveau von Llama 2 70B und GPT-3.5 erreicht oder sogar übertrifft.

(4)Gemma-7BZero One Wanwu von Google wies darauf hin:

Die Anzahl der effektiven Parameter liegt tatsächlich auf dem gleichen Niveau wie bei Yi-9B.

(Die Benennungsstandards der beiden sind unterschiedlich. Ersteres verwendet nur nicht einbettende Parameter, während letzteres alle Parameter verwendet und aufrundet)

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Die Ergebnisse sind wie folgt.

Erstens ist die Leistung von Yi-9B in Bezug auf Codierungsaufgaben nach DeepSeek-Coder-7B an zweiter Stelle, und die anderen vier sind alle KO.

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

In Bezug auf die mathematischen Fähigkeiten liegt die Leistung von Yi-9B nach DeepSeek-Math-7B an zweiter Stelle und übertrifft die anderen vier.

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Die Gesamtfähigkeit ist auch nicht schlecht.

Seine Leistung ist die beste unter Open-Source-Modellen ähnlicher Größe und übertrifft alle anderen fünf Player.

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Abschließend wurden gesunder Menschenverstand und Denkvermögen getestet:

Das Ergebnis ist, dass Yi-9B auf Augenhöhe mit Mistral-7B, SOLAR-10.7B und Gemma-7B liegt.

Neben den Sprachkenntnissen ist nicht nur Englisch gut, sondern auch Chinesisch wird weithin gelobt:

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Abschließend, nachdem sie diese gelesen hatten, sagten einige Internetnutzer: „Ich kann es kaum erwarten, es auszuprobieren.“

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Manche Leute machen sich Sorgen um DeepSeek:

Beeilen Sie sich und stärken Sie Ihr „Spiel“. Die totale Dominanz ist weg ==

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

Das Portal ist hier: https://huggingface.co/01-ai/Yi-9B

Das obige ist der detaillierte Inhalt vonGrafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Der Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteDer Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteApr 12, 2025 am 11:41 AM

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version