Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Zwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, Mamba2-Architekturcode für großes Modell

Zwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, Mamba2-Architekturcode für großes Modell

王林
王林Original
2024-07-19 09:54:11263Durchsuche
Internetnutzer sind neugierig, ob Mathstral das Problem „Wer ist größer, 9,11 oder 9,9?“ lösen kann.

Gestern wurde der KI-Kreis von einer einfachen Frage wie „Wer ist größer, 9.11 oder 9.9?“ überwältigt. Große Sprachmodelle wie OpenAI GPT-4o, Google Gemini usw. sind alle umgefallen. Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Dadurch können wir erkennen, dass große Sprachmodelle einige numerische Probleme nicht wie Menschen verstehen und korrekte Antworten geben können.

Für Zahlen und komplexe mathematische Probleme sind spezielle Modelle spezialisierter.

Heute hat das französische große Modell-Einhorn Mistral AI ein 7B großes Modell „Mathstral“ veröffentlicht, das sich auf mathematisches Denken und wissenschaftliche Entdeckungen konzentriert, um fortgeschrittene mathematische Probleme zu lösen, die komplexes, mehrstufiges logisches Denken erfordern.

Dieses Modell basiert auf Mistral 7B, unterstützt eine Kontextfensterlänge von 32 KB und folgt der Open-Source-Vereinbarung Apache 2.0-Lizenz.

Mathstral wurde entwickelt, um einen hervorragenden Kompromiss zwischen Leistung und Geschwindigkeit zu verfolgen, eine Entwicklungsphilosophie, die Mistral AI aktiv fördert, insbesondere mit seinen Feinabstimmungsfunktionen.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Gleichzeitig ist Mathstral ein Unterrichtsmodell, das genutzt oder verfeinert werden kann. Auf HuggingFace wurden Modellgewichte angebracht.

  • Modellgewichte: https://huggingface.co/mistralai/mathstral-7B-v0.1

Das Bild unten zeigt den MMLU-Leistungsunterschied zwischen Mathstral 7B und Mistral 7B (drücken Sie Fachgebiet).

Mathstral erreicht in seiner Größenordnung eine hochmoderne Inferenzleistung bei einer Vielzahl von Branchenstandard-Benchmarks. Insbesondere beim MATH-Datensatz wurde eine Erfolgsquote von 56,6 % und bei MMLU eine Erfolgsquote von 63,47 % erreicht.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Gleichzeitig ist die Erfolgsquote von Mathstral in MATH (56,6 %) mehr als 20 % höher als die von Minerva 540B. Darüber hinaus erreichte Mathstral 68,4 % bei MATH mit Mehrheitsentscheidung @64 und 74,6 % bei Verwendung des Belohnungsmodells.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Dieses Ergebnis machte die Internetnutzer auch neugierig, ob Mathstral das Problem „Wer ist größer, 9,11 oder 9,9?“ lösen kann.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Code großes Modell: Codestral Mamba

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

  • Modellgewichte: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

.
mit Zusammen mit Mathstral 7B veröffentlicht, gibt es auch ein Codestral Mamba-Modell speziell für die Codegenerierung, das die Mamba2-Architektur nutzt und auch der Apache 2.0-Lizenz-Open-Source-Vereinbarung folgt. Hierbei handelt es sich um ein Leitmodell mit mehr als 7 Milliarden Parametern, das Forscher kostenlos nutzen, ändern und verteilen können.

Es ist erwähnenswert, dass Codestral Mamba mit Hilfe der Mamba-Autoren Albert Gu und Tri Dao entwickelt wurde.

Die Transformer-Architektur unterstützt seit langem die Hälfte des KI-Bereichs. Im Gegensatz zu Transformer hat das Mamba-Modell jedoch den Vorteil des linearen Zeitdenkens und kann theoretisch Sequenzen unendlicher Länge modellieren. Die Architektur ermöglicht es Benutzern, umfassend und reaktionsschnell mit dem Modell zu interagieren, ohne durch die Eingabelänge eingeschränkt zu sein. Diese Effizienz ist besonders wichtig für die Codegenerierung.

Bei Benchmark-Tests übertraf Codestral Mamba die konkurrierenden Open-Source-Modelle CodeLlama 7B, CodeGemma-1.17B und DeepSeek im HumanEval-Test.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Mistral hat das Modell getestet, das kostenlos auf der API a la Plateforme von Mistral verfügbar ist und Eingaben von bis zu 256.000 Token verarbeiten kann – doppelt so viel wie GPT-4o von OpenAI.

Mit der Veröffentlichung von Codestral Mamba haben einige Internetnutzer es in VSCode verwendet und es ist sehr reibungslos.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Referenzlink:
https://mistral.ai/news/mathstral/
https://mistral.ai/news/codestral-mamba/

Das obige ist der detaillierte Inhalt vonZwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, Mamba2-Architekturcode für großes Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn