Heim >Technologie-Peripheriegeräte >KI >Yuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung

Yuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung

PHPznach vorne: 2023-11-06 15:33:201177Durchsuche

Eine Reihe großer Modelle mit 7 bis 13 Milliarden Parametern wurden in China bereits als Open-Source-Modelle bereitgestellt. Die Implementierungsergebnisse liegen vor und das Open-Source-Ökosystem wurde zunächst etabliert. Da die Komplexität und das Datenvolumen von Aufgaben wie Agenten zunehmen, wird die Nachfrage der Industrie und der Community nach größeren Modellen immer dringlicher.

Untersuchungen zeigen, dass die Leistung großer Modelle umso kontinuierlich verbessert werden kann, je höher die Anzahl der Parameter und je hochwertigere Trainingsdaten sind. Der allgemeine Konsens in der Branche besteht darin, dass große Modelle erst dann „intelligent entstehen“ und bei mehreren Aufgaben leistungsstarke Leistung zeigen können, wenn die Parameterschwelle von 50 bis 60 Milliarden erreicht wird. Das Training eines Modells dieser Größenordnung ist jedoch teuer und erfordert hohe technische Anforderungen. Derzeit wird es hauptsächlich als kostenpflichtiges Closed-Source-Modell bereitgestellt. Im ausländischen Open-Source-Ökosystem sind Benchmark-Modelle wie Llama2-70B und Falcon-180B bedingt Open Source, mit kommerziellen Obergrenzen für monatliche aktive Benutzer oder Einnahmen und weisen aufgrund fehlender Trainingsdaten offensichtliche Mängel bei den chinesischen Sprachfähigkeiten auf . Darüber hinaus könnte das kürzlich in den USA verkündete Verbot von KI-Chips die Entwicklungsgeschwindigkeit der großen chinesischen Modellindustrie weiter einschränken. Die Branche fordert dringend ein leistungsstarkes, groß angelegtes inländisches Modell, um die ökologische Lücke zu schließen und leistungsfähigere Verständnis-, Argumentations- und Langtextgenerierungsfunktionen für chinesische Anwendungen bereitzustellen. In diesem Zusammenhang kündigte die Yuanxiang XVERSE Company

Open Source des 65-Milliarden-Parameter-Hochleistungs-Universal-Großmodells Darüber hinaus wurde das 13B-Modell vollständig aktualisiert, um die Obergrenze der Fähigkeiten kleiner Modelle zu erhöhen. Dies wird es einer großen Anzahl kleiner und mittlerer Unternehmen, Forscher und KI-Entwickler ermöglichen, die Freiheit großer Modelle früher zu nutzen. Sie können große Yuanxiang-Modelle entsprechend ihrer Rechenleistung, Ressourcenbeschränkungen und spezifischen Aufgabenanforderungen frei verwenden, modifizieren oder destillieren , Förderung von Durchbrüchen in Forschung und Anwendung.

Modelladresse: https://huggingface.co/xverse/XVERSE-65BYuanxiang hat innerhalb von drei Monaten mehrere leistungsstarke 7B- und 13B-Modelle entwickelt und der Community erstmals ein vielversprechendes 65B-Modell vorgestellt Zeit und schafft dreifachen Mehrwert für Forschung, Wirtschaft und Ökologie. „Konkret kann das 65B-Modell die folgenden Vorteile haben. Auswirkungen:

Yuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung

In Bezug auf Forschung und Entwicklung wird 65B einen „großen Hebel“ für neue Technologien bieten , neue Tools, Leistungsoptimierung und Modellsicherheit, die es der Community ermöglichen, schnell Erfahrungen zu sammeln und auch dazu beitragen, das langfristige Ziel der nationalen Unabhängigkeit und Kontrollierbarkeit von Wissenschaft und Technologie zu fördern.

Kommerziell können viele kleine und mittlere Unternehmen „große Werkzeuge“ kostenlos nutzen, wodurch Einschränkungen durchbrochen und erhebliche Anwendungsinnovationen gefördert werden können. Yuanxiang bietet außerdem Einblicke in Anwendungsfälle, Sicherheitsmodellbereitstellungen und potenzielle Möglichkeiten.

Im Entwickler-Ökosystem kann die Community die Vorteile organisatorischer Synergien voll ausschöpfen und die „kambrische Explosion“ von F&E-Anwendungen fördern.
Das Kontextfenster wurde auf 16 KB erweitert und unterstützt mehr als 40 Sprachen, darunter Chinesisch, Englisch, Russisch und Französisch.

Grundlegende Fähigkeiten wie Verständnis, Erzeugung, Argumentation und Gedächtnis bis hin zur Vielfalt, Kreativität und Genauigkeit des Modells, von ausgezeichnet bis leistungsstark ;

Erweiterte Möglichkeiten des Tool-Aufrufs, der Code-Erklärung, der Reflexion und Korrektur usw., wodurch eine technische Grundlage für den Aufbau intelligenter Agenten geschaffen und die Praktikabilität des Modells verbessert wurde.

Erhebliche Linderung häufiger und potenziell schwerwiegender Halluzinationsprobleme in 7B und 13B, Reduzierung der Illusion großer Modelle, erhöhte Genauigkeit und Professionalität.

Die großen Yuanxiang-Modellreihen sind alle in der gesamten Kette selbst entwickelt und decken eine Reihe von Schlüsseltechnologien und F&E-Innovationen ab:

1. Komplexes verteiltes Systemdesign: Lernen Sie aus der Forschung und Entwicklung des Teams zu Tencent Go AI. Exquisite Art“, King of Glory AI „Excellent Art“ Mit umfangreicher Erfahrung in großen Systemen wie „Wu“ verfügen wir über selbst entwickelte Schlüsseltechnologien wie effiziente Operatoren, Speicheroptimierung, parallele Planungsstrategien, Daten-Computing-Kommunikationsüberlappung, und die Zusammenarbeit zwischen Plattform und Framework, um ein effizientes und stabiles Trainingssystem zu schaffen. Die Energieauslastung erreichte 58,5 % und gehört damit zu den Spitzenreitern der Branche.

2. Umfassende Verbesserung der Leistung: FlashAttention2 wird verwendet, um Berechnungen im 65B-Training zu beschleunigen, und die auf 3D-Parallelität basierende virtuelle Pipeline-Technologie wird verwendet, um die durch lange Pipelines erzeugte übermäßige Blasenrate zu reduzieren und die Effizienz des rechnerischen Denkens schrittweise zu verbessern von 8K erhöht Das Upgrade auf 16K ermöglicht nicht nur die erfolgreiche Durchführung komplexer Aufgaben, einschließlich des Verstehens langer Texte, der Generierung langer Texte und ultralanger Dialoge, sondern erweitert auch die Funktionen zum Aufrufen von Werkzeugen, zur Codeinterpretation sowie zur Reflexion und Korrektur und ermöglicht so eine bessere Erstellung intelligente Agenten (KI-Agenten).

3. Trainingsstabilität extrem verbessern: Aufgrund der großen Menge an Berechnungen sind Kommunikationsstaus, Chip-Überhitzung oder Rechenknotenausfälle zur Norm beim 65B-Training geworden. Durch kontinuierliche Optimierung des Cluster-Infrastrukturbetriebs, der Ressourcenplanung, des Trainingsrahmens und der Zusammenarbeit mit der Planungsplattform hat Yuanxiang ein Trainingssystem mit hoher Stabilität, geringer Unterbrechung und starker Fehlertoleranz geschaffen und die wöchentliche effektive Trainingsrate auf 98,6 % erhöht.

Außerdem erzeugte die Verlustfunktion mitten im Modelltraining mit fast 1,6 Billionen Token NaN-Werte, was zu Trainingsunterbrechungen führen kann. Normalerweise löscht die Industrie die relevanten Datenintervalle nach der Analyse grundsätzlich. Aufgrund der Erfahrung stellte das Team fest, dass dies die natürliche Entwicklung des Modells war, entschied sich dafür, die Daten nicht zu löschen und übersprang direkt die relevanten Parameteraktualisierungen. Schließlich wurde das NaN-Wertproblem gelöst. Eine spätere weitere Analyse von Zwischenzuständen wie Parameterwerten, Aktivierungswerten und Gradientenwerten zeigte, dass das Problem möglicherweise mit der Änderung des Maximalwerts des Aktivierungswerts des Transformatorblocks in der letzten Schicht des Modells zusammenhängt wird von selbst aufgelöst, wenn der Maximalwert allmählich abnimmt.问题 Lösung des NAN-Wertproblems Forschungs- und Entwicklungserfahrung

Umfassende Bewertung der 65B-Leistung ist vergleichbar mit GPT3.5, um sicherzustellen, dass die Branche eine umfassende, objektive und langfristige Erkenntnis über die Leistung des Hauptmodells erhalten kann des Elefanten Unter Bezugnahme auf eine Reihe maßgeblicher akademischer Bewertungen wurden 11 gängige maßgebliche Bewertungsstandards entwickelt, die sechs Dimensionen wie Frage und Antwort, Verständnis, Wissen, Argumentation, Mathematik und Codierung abdecken und kontinuierlich verwendet und iteriert werden. ^{XVERSE-65B hat in China kein vergleichbares Modell zum Vergleich. In der Vergleichsbewertung mit ausländischen Benchmarks übertrafen einige Indikatoren die Gesamtleistung und übertrafen die Open-Source-Benchmarks Llama2-70B und GPT3.5 deutlich Falcon-180B ist immer noch auf Augenhöhe mit GPT4. Es gibt eine Lücke.}

Verbessert die Obergrenze der Fähigkeiten kleiner Modelle erheblich. Es verfügt sowohl über Künste als auch über Naturwissenschaften und behält seine Vorteile in den Geisteswissenschaften bei. Die Fragen und Antworten haben sich um 18 % verbessert, die Wissenschaft hat sich um 149 % verbessert und die Mathematik hat sich um 198 % verbessert übertraf inländische und ausländische Open-Source-Benchmarks wie Llama2 und Baichuan2 vollständig. ✨ Elefantenmodelle können auf Github, Hugging Face, ModelScope und anderen Plattformen nach „XVERSE“ gesucht werden Iterationsbedürfnisse kleiner und mittlerer Unternehmen, wissenschaftlicher Forschungseinrichtungen und einzelner Entwickler.
Yuanxiang bietet außerdem eine umfassende Palette technischer Dienstleistungen wie Modellschulung, Inferenz, Bereitstellung und Feinabstimmung, stärkt verschiedene Branchen wie Unterhaltung, Finanzen und medizinische Versorgung und hilft bei der Entwicklung branchenführender Dienste in verschiedenen Szenarien wie z wie intelligenter Kundenservice, kreatives Schreiben und genaue Empfehlungen. Im Oktober 2023 kündigte Tencent Music eine strategische Zusammenarbeit mit Yuanxiang Model an, brachte gemeinsam das beschleunigte Modell lyraXVERSE auf den Markt und modernisierte seinen Musikassistenten „AI Xiaoqin“. Spitzentechnologien zur Führung der Musikunterhaltung. Innovative Richtung.
Yao Die XVERSE-Open-Source-Reihe hat sich zum Ziel gesetzt, die inländische Substitution und kontinuierliche technologische Innovation großer Modelle zu fördern und der Entwicklung der Realwirtschaft und der digitalen Wirtschaft starke Impulse zu verleihen „Über Yuan! Xiang
XVERSE wurde Anfang 2021 in Shenzhen gegründet. Es ist ein führendes inländisches KI- und 3D-Technologie-Dienstleistungsunternehmen. Es hat sich dem Aufbau einer KI verschrieben -gesteuerte One-Stop-Plattform für die Produktion und den Konsum von 3D-Inhalten mit der Vision, „Ihre Welt zu definieren“.
^{Offizielle Website: www. Yao Xing, der Gründer von Yuanxiang, ist ehemaliger Vizepräsident von Tencent und Gründer des Tencent AI Lab sowie Mitglied des strategischen Beratungsausschusses für künstliche Intelligenz der neuen Generation des Ministeriums für Wissenschaft und Technologie.}Im Bereich 3D- und KI-Technologie verfügt Yuanxiang über eine umfassende Anhäufung und ein vollständiges Layout. Im 3D-Bereich haben wir unabhängig die branchenführende interaktive 3D-Technologie „Device-Cloud Collaboration“ entwickelt und so ein neues 3D-Erlebnis ohne Schwellenwert (leicht), aus einer Hand (schnell) und in hoher Qualität geschaffen Im KI-Bereich ist Chinas größter Open-Source-Parameter das große Modell XVERSE-65B, das kommerziell genutzt werden kann. Ziel ist es, die Entwicklung der inländischen Substitution und die industrielle Anwendung großer Modelle zu fördern.

Das obige ist der detaillierte Inhalt vonYuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

分布式 github 人工智能 transformer https 个人开发性能优化 agi

Stellungnahme：

Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Wie unterstützt generative KI aktuelle DevOps- und SRE-Arbeitssysteme?Nächster Artikel：Wie unterstützt generative KI aktuelle DevOps- und SRE-Arbeitssysteme?

In Verbindung stehende Artikel

Mehr sehen