首页 >科技周边 >人工智能 >精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-07-25 14:24:561309浏览

Perlumbaan

AI semakin pantas seperti sebelum ini, dan berikutan pelancaran Meta semalam bagi model sumber terbuka baharunya Llama 3.1, syarikat permulaan AI Perancis Mistral AI telah menyertai pergaduhan itu.

Sebentar tadi, Mistral AI mengumumkan generasi akan datang model sumber terbuka utamanya: Mistral Large 2, yang mempunyai 123 bilion parameter dan setanding dengan model terkini daripada OpenAI dan Meta dari segi penjanaan kod, matematik, penaakulan, dan banyak lagi.

Susulan keluaran Llama 3.1 405B, keluaran Mistral Large 2 tiba-tiba menjadikan trek model besar sumber terbuka meriah, dan ciri model ini ialah - "cukup besar".

Secara khusus, walaupun bilangan parameter Mistral Large 2 lebih rendah daripada 405 bilion Llama 3.1, prestasi kedua-duanya hampir. Dan ia setanding dengan GPT-4o dan Anthropic's Claude 3.5 Sonnet dalam pelbagai penanda aras.

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

Pada Februari tahun ini, Mistral AI melancarkan model Besar asli, yang tetingkap konteksnya mengandungi 32,000 token Versi baharu model dibina atas dasar ini dan mempunyai tetingkap konteks yang lebih besar iaitu 128,000 (kira-kira setara. sebuah buku) buku 300 muka surat) - Memadankan GPT-4o dan GPT-4o OpenAI dan Llama 3.1 Meta.

Pada masa ini, Mistral Large 2 menyokong berdozen bahasa, termasuk Perancis, Jerman, Sepanyol, Itali, Portugis, Arab, Hindi, Rusia, Cina, Jepun dan Korea serta lebih daripada 80 bahasa pengaturcaraan, termasuk Python, Java, C, C++, JavaScript dan Bash.

Mistral AI menunjukkan bahawa model baharu akan terus menolak sempadan kecekapan kos, kelajuan dan prestasi, sambil menyediakan pengguna dengan keupayaan baharu, termasuk panggilan dan perolehan fungsi lanjutan, untuk membina aplikasi AI berprestasi tinggi.

Namun, perlu diingat bahawa walaupun Mistral Large 2 dibuka, ia terhad kepada penyelidikan dan penggunaan bukan komersial. Ia menyediakan pemberat terbuka, membolehkan pihak ketiga memperhalusi model mengikut keperluan mereka. Perjanjian ini merupakan had penting pada syarat penggunaan pengguna. Untuk kegunaan komersil yang memerlukan penggunaan sendiri Mistral Large 2, lesen komersial Mistral AI mesti diperolehi terlebih dahulu.

Prestasi

Pada pelbagai penunjuk penilaian, Mistral Large 2 telah menetapkan piawaian baharu dalam prestasi dan kos perkhidmatan. Terutama pada MMLU, versi pra-latihan mencapai ketepatan 84.0%.

Kod dan Penaakulan

Mistral AI melatih Mistral Large 2 pada sebahagian besar kod berdasarkan pengalaman sebelumnya dengan Codestral 22B dan Codestral Mamba.

Mistral Large 2 berprestasi jauh lebih baik daripada Mistral Large generasi sebelumnya dan setanding dengan model teratas seperti GPT-4o, Claude 3 Opus dan Llama 3 405B. . tidak relevan. Ini dicapai dengan memperhalusi model agar lebih berhati-hati dan tajam dalam tindak balasnya, memastikan ia memberikan output yang boleh dipercayai dan tepat.

Selain itu, Mistral Large 2 akan mengakui apabila ia tidak dapat mencari penyelesaian atau tidak mempunyai maklumat yang mencukupi untuk memberikan jawapan yang yakin. Pencarian ketepatan ini dicerminkan dalam prestasi model yang dipertingkatkan pada penanda aras matematik, dengan graf berikut menunjukkan keupayaan penaakulan dan penyelesaian masalah yang dipertingkatkan: 精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

semua proses penilaian yang sama). L Ketepatan prestasi pada Multipl-E (kecuali untuk Kertas, semua model diuji dengan proses penilaian yang sama). . 精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

^{Arahan untuk diikuti dan diselaraskan}

Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和对话能力。新的 Mistral Large 2 尤其擅长遵循精确指令和处理长时间的多轮对话。

以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

^{模型在通用对齐基准测试中的性能（所有模型均通过相同的评估 pipeline 进行测试）}

在某些基准测试中，生成较长的回答往往会提高评分。然而，在许多商业应用中，简洁至关重要，这是因为简洁的模型生成能够加快交互速度，并降低推理成本。

所以 Mistral AI 花费了大量精力，确保生成的内容尽可能简明扼要。

下图展示了在 MT Bench 基准测试的问题上，不同模型生成的回答的平均长度：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

语言多样性

当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练，特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面都表现优异。

以下是 Mistral Large 2 在多语言 MMLU 基准测试中的性能结果，主要是与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 的对比：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

^{多语言 MMLU 性能（以基础预训练模型测量）}

工具使用与函数调用

Mistral Large 2 配备了增强的函数调用和检索技能，经过训练能够熟练地执行并行和顺序函数调用，使其能够成为复杂业务应用程序的强大引擎。

下图为 Mistral Large 2 在函数调用上与其他主流模型的准确性对比：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

试用 Mistral Large 2

用户可以通过 la Plateforme 上使用 Mistral Large 2，名称为 mistral-large-2407 ，并在 le Chat 上测试。它的版本是 24.07（Mistral 对所有模型采用的都是 YY.MM 版本编号系统），API 名称为 mistral-large-2407。

指令模型的权重已提供，托管在 HuggingFace 上。

权重链接：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

Mistral AI 正在将 la Plateforme 上的产品整合为两个通用模型：Mistral Nemo 和 Mistral Large，以及两个专业模型：Codestral 和 Embed。随着他们逐步淘汰 la Plateforme 上的旧模型，所有的 Apache 模型（包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral）仍然可以使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 进行部署和微调。

从今天开始，他们扩展了 la Plateforme 上的微调功能：现在，这些功能适用于 Mistral Large、Mistral Nemo 和 Codestral。

此外，Mistral AI 与云服务提供商都有合作，Mistral Large 2 将很快登陆这些平台。Mistral AI 扩大了与 Google Cloud Platform 的合作，通过 Managed API 将 Mistral AI 的模型引入 Vertex AI。与此同时，还可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

^{参考链接：}

^{https://mistral.ai/news/mistral-large-2407/}

^{https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/}

^{https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/}

以上是精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B的详细内容。更多信息请关注PHP中文网其他相关文章！

Python Java JavaScript bash math Token apache https azure gpt llama

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架下一篇：字节大模型同传智能体，一出手就是媲美人类的同声传译水平

查看更多