Rumah  >  Artikel  >  Peranti teknologi  >  Mistral AI dua keluaran berturut-turut: 7B penaakulan matematik khusus, model besar kod seni bina Mamba2

Mistral AI dua keluaran berturut-turut: 7B penaakulan matematik khusus, model besar kod seni bina Mamba2

王林
王林asal
2024-07-19 09:54:11263semak imbas
Netizen ingin tahu sama ada Mathstral boleh menyelesaikan masalah "siapa yang lebih besar, 9.11 atau 9.9?"

Semalam, bulatan AI ​​​​terharu dengan soalan mudah seperti "Siapa yang lebih besar, 9.11 atau 9.9 model bahasa besar termasuk OpenAI GPT-4o, Google Gemini, dll. semuanya terbalik. Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Ini membolehkan kita melihat bahawa model bahasa yang besar tidak dapat memahami dan memberikan jawapan yang betul seperti manusia apabila berhadapan dengan beberapa masalah berangka.

Untuk nombor dan masalah matematik yang kompleks, model khas lebih khusus.

Hari ini, unicorn model besar Perancis Mistral AI mengeluarkan model besar 7B "Mathstral" yang memfokuskan pada penaakulan matematik dan penemuan saintifik untuk menyelesaikan masalah matematik lanjutan yang memerlukan penaakulan logik pelbagai langkah yang kompleks.

Model ini dibina berdasarkan Mistral 7B, menyokong panjang tetingkap konteks 32k, dan mengikut perjanjian sumber terbuka lesen Apache 2.0.

Mathstral dibina untuk mengejar pertukaran kelajuan prestasi cemerlang, falsafah pembangunan yang dipromosikan secara aktif oleh Mistral AI, terutamanya dengan keupayaan penalaan halusnya.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Pada masa yang sama, Mathstral ialah model pengajaran, yang boleh digunakan atau diperhalusi. Berat model telah diletakkan pada HuggingFace.

  • Berat model: https://huggingface.co/mistralai/mathstral-7B-v0.1

Gambar di bawah menunjukkan perbezaan prestasi MMLU 7B dan Mithstral pembahagian mata pelajaran).

Mathstral mencapai prestasi inferens terkini pada skalanya pada pelbagai penanda aras standard industri. Terutama pada set data MATH, ia mencapai kadar lulus 56.6% dan kadar lulus 63.47% pada MMLU.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Pada masa yang sama, kadar kelulusan Mathstral pada MATH (56.6%) adalah lebih daripada 20% lebih tinggi daripada Minerva 540B. Selain itu, Mathstral mendapat 68.4% pada MATH dengan undian majoriti @64 dan 74.6% menggunakan model ganjaran.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Hasil ini juga membuatkan netizen tertanya-tanya sama ada Mathstral boleh menyelesaikan masalah "siapa yang lebih besar, 9.11 atau 9.9?"

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Kod model besar: Codestral Mamba

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

  • Berat model: https://huggingface.co/mistralai/mamba-codestral-7B-v0.

dengan Dikeluarkan bersama Mathstral 7B, terdapat juga model Codestral Mamba yang digunakan khusus untuk penjanaan kod, yang menggunakan seni bina Mamba2 dan juga mengikut perjanjian sumber terbuka lesen Apache 2.0. Ini ialah model panduan dengan lebih daripada 7 bilion parameter yang penyelidik boleh gunakan, ubah suai dan edarkan secara percuma.

Perlu dinyatakan bahawa Codestral Mamba telah direka bentuk dengan bantuan pengarang Mamba Albert Gu dan Tri Dao.

Sejak sekian lama, seni bina Transformer telah menyokong separuh daripada medan AI Walau bagaimanapun, tidak seperti Transformer, model Mamba mempunyai kelebihan penaakulan masa linear dan secara teorinya boleh memodelkan jujukan dengan panjang tak terhingga. Seni bina membolehkan pengguna berinteraksi dengan model secara meluas dan responsif tanpa dihadkan oleh panjang input. Kecekapan ini amat penting untuk penjanaan kod.

Dalam ujian penanda aras, Codestral Mamba mengatasi prestasi model sumber terbuka yang bersaing CodeLlama 7B, CodeGemma-1.17B dan DeepSeek dalam ujian HumanEval.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Mistral menguji model tersebut, yang tersedia secara percuma pada API a la Plateforme Mistral, dan boleh mengendalikan input sehingga 256,000 token – dua kali lebih banyak daripada GPT-4o OpenAI.

Dengan keluaran Codestral Mamba, beberapa netizen telah menggunakannya dalam VSCode, dan ia sangat lancar.

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Pautan rujukan:
https://mistral.ai/news/mathstral/
🎜🎜/news/mistral 🎜

Atas ialah kandungan terperinci Mistral AI dua keluaran berturut-turut: 7B penaakulan matematik khusus, model besar kod seni bina Mamba2. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn