Kai-fu Lee betonte: „Wir müssen Zero One Thousand Things in die erste Reihe globaler Großmodelle aufnehmen.“
Das Open-Source-Großmodelluniversum hat ein neues Schwergewichtsmitglied, dieses Zeit ist es Innovation Works Die „Yi“-Reihe von Open-Source-Großmodellen wurde von Kai-Fu Lee, Vorsitzender und CEO des großen Modellunternehmens „Zero One Thousand Things“, ins Leben gerufen. Es wird berichtet, dass Zero One Thousand Things Ende März dieses Jahres offiziell gegründet wurde und im Juni und Juli den Betrieb aufnahm. Dr. Kaifu Li ist der Gründer und CEO. Am 6. November veröffentlichte Zero One Wagon offiziell die „Yi“-Serie vorab trainierter Open-Source-Großmodelle, darunter die Yi-6B- und Yi-34B-Versionen, und gab der Open-Source-Großmodell-Community ein wenig A kleiner Schock.“ Laut den neuesten Listen der englischen Open-Source-Community-Plattform Hugging Face und der chinesischen C-Eval-Bewertung hat das Pre-Training-Modell Yi-34B mehrere internationale SOTA-Auszeichnungen für den besten Leistungsindikator erhalten und ist zum „Doppelchampion“ geworden „von globalen Open-Source-Großmodellen. , wodurch Open-Source-Konkurrenzprodukte wie LLaMA2 und Falcon besiegt werden.
Yi-34B ist außerdem bis heute das einzige inländische Modell, das erfolgreich die globale Open-Source-Modell-Rangliste von Hugging Face angeführt hat. Mit kleinem Wissen an die Spitze der globalen Liste der maßgeblichen großen Modelle in Englisch und Chinesisch Nr. 1 gelangen
Das haben wir in der öffentlichen Liste des Hugging Face English-Tests gelernt. Vorab trainiertes, vorab trainiertes Open-Source-Modell Im Ranking schneidet Yi -34B bei verschiedenen Indikatoren gut ab und belegt mit einem Wert von 70,72 den ersten Platz weltweit. Es ist klein und groß und übertrifft viele große Modelle wie LLaMA2-70B und Falcon-180B
In Bezug auf Parameter und Leistung entspricht Yi-34B der Verwendung von weniger als der Hälfte der Parameter von LLaMA2-70B und einem Fünftel der Parameter von Falcon-180B. Es hat den Weltmarktführer in verschiedenen Tests übertroffen Aufgaben punkten. Mit seiner herausragenden Leistung zählt der Yi-34B zu den leistungsstärksten Open-Source-Basismodellen der Welt. ... Inländisches großes Modell, sagte Kai-fu Lee, Yi-34B „versteht“ Chinesisch besser, C-Eval übertrifft alle Open-Source-Modelle der Welt auf der chinesischen Autoritätsliste
Im Vergleich zu GPT-4, dem stärksten König der großen Modelle, hat Yi-34B absolute Vorteile bei den drei wichtigsten chinesischen Indikatoren CMMLU, E-Eval und Gaokao, was seine hervorragenden Fähigkeiten in der chinesischen Welt und seinem Wesen unterstreicht in der Lage, die Nachfrage auf dem Inlandsmarkt besser zu decken.
Aus einer umfassenderen Bewertungssicht spiegeln unter den verschiedenen Bewertungen globaler Großmodelle die kritischsten Bewertungssätze wie „MMLU“ (Massive Multitask Language Understanding) und BBH die umfassenden Fähigkeiten des Modells wider Im Test schnitt Yi-34B am besten ab und gewann alle Bewertungen in Bezug auf mehrere Indikatoren wie allgemeine Fähigkeiten, Wissensdenken und Leseverständnis, was in hohem Maße mit der Hugging Face-Bewertung übereinstimmte. Allerdings schneiden die großen Open-Source-Modelle der Yi-Serie wie LLaMA2 bei der Mathematik- und Codeauswertung von GSM8k und MBPP etwas schlechter ab als das GPT-Modell. In Zukunft wird die Yi-Serie großer Modelle kontinuierliche Trainingsmodelle auf den Markt bringen, die auf Codierungsfähigkeiten und mathematische Fähigkeiten spezialisiert sind. Die Größe des Kontextfensters übersteigt 200 KB und ist direkt Open Source. In Bezug auf das Kontextfenster, das für die tatsächliche Kampfwirkung großer Modelle entscheidend ist, wurde dieses Mal der Open Source Yi-34B veröffentlicht Das längste und am meisten unterstützte Kontextfenster der Welt. Die 200K-Version mit ultralangem Kontextfenster kann ultralange Texteingaben von etwa 400.000 chinesischen Zeichen verarbeiten, was ungefähr der Länge eines Buches „The Scholars“ entspricht. Im Vergleich dazu ist das GPT-4-Kontextfenster von OpenAI nur 32 KB groß und das Textverarbeitungsvolumen beträgt etwa 25.000 Wörter.
Wie geht das? Es versteht sich, dass das technische Team von Zero-One Everything eine Reihe von Optimierungen implementiert hat, darunter die Berechnung von Kommunikationsüberlappungen, Sequenzparallelität, Kommunikationskomprimierung usw. Durch diese Fähigkeitserweiterungen wird eine fast 100-fache Verbesserung der Fähigkeiten beim groß angelegten Modelltraining erreicht. Erwähnenswert ist, dass Zero One Wish das erste große Modellunternehmen ist, das das ultralange Kontextfenster als Open Source anbietet, sodass Entwickler es direkt nutzen können.
Das 200K-Kontextfenster von Yi-34B ist direkt Open Source und bietet nicht nur umfangreichere semantische Informationen, sondern versteht auch PDF-Dokumente mit mehr als 1000 Seiten, sodass viele Szenarien, die auf Vektordatenbanken basieren, externe Wissensdatenbanken aufbauen können Kontextfenster. Nehmen Sie eine Ersetzung vor. Der Open-Source-Charakter von Yi-34B bietet außerdem mehr Möglichkeiten für Entwickler, die innerhalb eines längeren Kontextfensters Feinabstimmungen vornehmen möchten. Einzigartige wissenschaftliche Modelltrainingsmethode, Trainingskosten um 40 % reduziert
Yi-34B ist so leistungsstark, dass dies auf die folgenden zwei Schlüsselfaktoren zurückzuführen ist, nämlich AI Infra-Team und Selbstforschung Scale Globale Trainingsplattform
Kai-fu Lee sagte, dass Zero-One intern ein AI-Infra-Team (KI-Infrastruktur) eingerichtet hat, das hauptsächlich für die Schulung und Bereitstellung großer Modelle sowie die Bereitstellung verschiedener zugrunde liegender technischer Einrichtungen verantwortlich ist, darunter Prozessoren, Betriebssysteme und Speicher Systeme und Netzwerkinfrastrukturen, Cloud-Computing-Plattformen usw. sind zu äußerst wichtigen „Garantietechnologien“ für das Modelltraining der Yi-Serie geworden.
Mit der leistungsstarken Unterstützung von AI Infra hat das Team von Zero One Thing Trainingsergebnisse erzielt, die über dem Branchenniveau liegen. Es wurde festgestellt, dass die Trainingskosten für das Yi-34B-Modell um 40 % sinken. Der Unterschied zwischen der tatsächlichen Trainingszeit und der prognostizierten Zeit beträgt weniger als eine Stunde. Weitere Simulationen können die Trainingskosten auf 100 Milliarden reduzieren als 50 %.
Gleichzeitig hat Lingyiwuwu den Wandel von der „extensiven Alchemie“ zur „wissenschaftlichen Modellschulung“-Methodik vollzogen.
Nach mehreren Monaten der Modellierung und Experimentierung hat Lingyiwanwu eine „groß angelegte Trainingsexperimentplattform“ entwickelt, um den Entwurf und die Optimierung des Modells zu steuern. Datenproportionierung, Hyperparametersuche und Modellstrukturexperimente können alle auf einer kleinen experimentellen Plattform durchgeführt werden, und der Vorhersagefehler jedes Knotens des 34B-Modells kann innerhalb von 0,5 % kontrolliert werden. Das Modell verfügt über eine stärkere Vorhersagefähigkeit, wodurch die für Vergleichsexperimente erforderlichen Ressourcen erheblich reduziert und die durch Trainingsfehler verursachte Verschwendung von Rechenressourcen verringert werden.
Der Aufbau von Datenverarbeitungspipelines und Trainingsmöglichkeiten zur Verbesserung groß angelegter Vorhersagen hat den bisherigen „Alchemie“-Prozess des Trainings großer Modelle äußerst detailliert und wissenschaftlich gemacht, was nicht nur die aktuelle Veröffentlichung von Yi-34B, Yi, gewährleistet - Die hohe Leistung des 6B-Modells reduziert auch den Zeit- und Kostenaufwand für das Training größerer Modelle in der Zukunft und bietet außerdem die Möglichkeit, den Modellmaßstab um ein Vielfaches schneller als die Branche zu erweitern.
Abschließend gab Kai-fu Lee auch bekannt, dass während des Abschlusses des Vortrainings von Yi-34B sofort mit dem Training des nächsten 100-Milliarden-Parametermodells begonnen wurde.
In den kommenden Monaten erwarten wir die Enthüllung weiterer Nachfolgemodelle von Yi. Das obige ist der detaillierte Inhalt vonKai-Fu Lee kündigte offiziell die Einführung des „leistungsstärksten' Open-Source-Großmodells der Welt an: Es verarbeitet 400.000 chinesische Schriftzeichen und steht sowohl in Chinesisch als auch in Englisch an erster Stelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!