Gestern gab Cailian News exklusiv bekannt, dass das Wenxin-Modell 4.0 von Baidu sein Training intensiviert und kurz vor der Veröffentlichung steht. Jeder war schon immer neugierig auf die Informationen von Wen Xinyiyan. Heute haben wir auch weitere Neuigkeiten zu Wenxin 4.0 erhalten, die wichtige Informationen wie zugrunde liegende Architektur, Infrastruktur, Trainingsdatensätze, Kosten usw. umfassen. Es hat ein sehr hohes Maß an Glaubwürdigkeit!
Lassen Sie uns zunächst über die wichtigsten Schlussfolgerungen sprechen:
1 Die Enthüllungen von gestern sind im Grunde wahr. Derzeit geht man davon aus, dass das Wenxin Large Model 4.0 tatsächlich mit geringem Verkehr getestet wurde.
2. Die Anzahl der Parameter von Wenxin 4.0 ist größer als die aller LLMs mit öffentlich veröffentlichten Parametern. Es ist auch das erste große Modell in China, das mithilfe des Wanka-Clusters trainiert wird.
3. Die Begründungskosten sind viel höher als die von Wenxin 3.5, sie sollen etwa das 8- bis 10-fache betragen! (Große Modelle sind wirklich teuer!)
Wenn diese Enthüllungen wahr sind, wird dies ein wichtiger Knotenpunkt für Baidu und sogar inländische große Modelle sein, um mit GPT-4 gleichzuziehen.
Als nächstes werfen wir einen Blick auf die Details der Enthüllungen.
Das größte Parametermodell in der Geschichte des Wanka-Cluster-Trainings?
Nach den Informationen, die wir erhalten haben, ist die Parameterskala von Wenxin Large Model 4.0 größer als alle LLMs, die derzeit Parameter öffentlich veröffentlichen, was bedeutet, dass die Parameterskala von Wenxin Large Model 4.0 voraussichtlich die Billionengrenze überschreiten wird.
Wenn man sich allein diese Parametermenge anschaut, werden viele denken, dass es in Ordnung ist. Denn nach den aktuell veröffentlichten Informationen liegt die Parametermenge von GPT-4 bereits bei rund 1,8 Billionen. Die Person, die die Nachricht verbreitete, erklärte jedoch weiter, dass Wenxin Large Model 4.0 immer noch ein einzelnes Modell sei und nicht das von GPT und vielen anderen großen Sprachmodellen verwendete gemischte Expertenmodell (MoE) übernehme.
Zuvor verbreitete der „geniale Hacker“ George Hotz die Nachricht, dass GPT-4 ein Hybridmodell verwendet, weil die Parametergröße des Modells 220 Milliarden nicht überschreiten darf. OpenAI möchte, dass das Modell besser wird, aber wenn das Training nur länger dauert, lässt der Effekt bereits nach.
Wenn Baidu also in einem einzelnen Modell einen Durchbruch erzielen kann, können wir nach der eigentlichen Veröffentlichung nur abwarten, ob die Modellfähigkeiten auch deutlich verbessert werden.
Ein Modell mit so vielen Parametern stellt zwangsläufig hohe Anforderungen an die Rechenleistung. Die aktuelle Nachricht ist, dass Wenxin 4.0 auf dem Wanka-KI-Cluster trainiert wurde. Es sollte als das erste große Sprachmodell in China angesehen werden, das mithilfe eines Wanka-Clusters trainiert wurde.
Was ist das Konzept des Wanka-Clusters? In China haben nur Huawei und Alibaba bekannt gegeben, dass sie Wanka-KI-Cluster gebaut haben, aber wir haben kein spezifisches Modell gesehen, das darauf basiert.
Das zeigt, dass der Wanka-Cluster nicht einfach aufzubauen ist und es noch schwieriger ist, ihn zu nutzen, um seine Wirkung zu maximieren. Der Analyse zufolge kann ein so großes Modell aufgrund der tiefen Integration von Fei Paddle effizient auf der Grundlage des Wanka-Clusters trainiert werden.
Die Kosten sind in die Höhe geschossen und Tests mit geringem Datenverkehr wurden auf unauffällige Weise für die Öffentlichkeit durchgeführt.
Nicht nur die Schulungskosten steigen, es hat sich auch herausgestellt, dass die Inferenzkosten von Wenxin 4.0 viel höher sind als die von 3.5. Wir haben die spezifischen Inferenzkosten pro tausend Token noch nicht erhalten, aber es wird gemunkelt, dass sie wahrscheinlich vor dem 8- bis 10-fachen lagen, was immer noch bei hoher Auslastung (MFU) der Fall ist. Bei einer noch geringeren Auslastung werden die Kosten schätzungsweise weiter steigen.
Ich muss sagen, dass große Modelle wirklich teuer sind. Die Erstellung eines führenden zugrunde liegenden Fundamentmodells ist ein Spiel für Giganten!
Abschließend hat Baidu laut internen Mitarbeitern tatsächlich damit begonnen, Wenxin Big Model 4.0 heimlich bei geringem Datenverkehr zu testen, und eine kleine Anzahl von Wenxin Yiyan-Benutzern verwendet bereits die neueste Modellversion.
Viele Leute halten diese Aussage für zuverlässiger, und wir können auch einige Anhaltspunkte aus einigen jüngsten Enthüllungen in der Technologie-Community gewinnen.
Wenn Sie jetzt Fragen zu Wenxin Yiyan stellen, verwenden Sie vielleicht Wenxin Big Model 4.0. Ich weiß nicht, ob die generierten Ergebnisse mit GPT-4 konkurrieren können.
Ich betone noch einmal, dass es sich bei den oben genannten Informationen nicht um offiziell bestätigte Informationen handelt und jeder ihre Richtigkeit selbst beurteilen kann.
Das obige ist der detaillierte Inhalt vonDie neusten Nachrichten! Baidu Wenxin Big Model 4.0: Das größte Parametermodell in der Geschichte des Wanka-Trainings, wir sehen uns nächste Woche. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!