首頁 >科技週邊 >人工智慧 >精準狙擊Llama 3.1？ Mistral AI開源Large 2，123B媲美Llama 405B

精準狙擊Llama 3.1？ Mistral AI開源Large 2，123B媲美Llama 405B

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-07-25 14:24:561348瀏覽

AI 競賽正以前所未有的速度加速，繼 Meta 昨天推出其新的開源 Llama 3.1 模型之後，法國 AI 新創公司 Mistral AI 也加入了競爭。

剛剛，Mistral AI 宣布其旗艦開源模型的下一代產品：Mistral Large 2，該模型擁有 1230 億個參數，在代碼生成、數學、推理等方面與 OpenAI 和 Meta 的最新尖端模型不相上下。

緊跟著 Llama 3.1 405B 之後，Mistral Large 2 的發布讓開源大模型的賽道一下子熱鬧起來，而這一模型的特點是 ——“足夠大”。

具體來說，雖然 Mistral Large 2 參數量低於 Llama 3.1 的 4050 億，但兩者性能接近。並且在多個基準測試中與 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

今年2 月，Mistral AI 推出了最初的Large 模型，其上下文視窗包含32,000 個token，新版模型在此基礎上構建，具有更大的128,000 個上下文視窗（大約相當於一本300 頁的書）— 與OpenAI 的GPT-4o 和GPT-4o mini 以及Meta 的Llama 3.1 相符。

目前，Mistral Large 2 支援數十種語言，包括法語、德語、西班牙語、義大利語、葡萄牙語、阿拉伯語、印地語、俄語、中文、日語和韓語，以及80 多種程式語言，包括Python、Java、C、C++、JavaScript 和Bash。

Mistral AI 指出，新模型將繼續突破成本效率、速度和效能的界限，同時為使用者提供新功能，包括進階函數呼叫和檢索，以建立高效能的 AI 應用。

不過，值得注意的是，Mistral Large 2 雖然是開放的，但只限於研究和非商業用途。它提供了開放的權重，允許第三方根據自己的需求對模型進行微調。這項協議是對使用者使用條件的一個重要限制。對於需要自行部署 Mistral Large 2 的商業用途，必須事先取得 Mistral AI 商業授權。

效能表現

在多項評估指標上，Mistral Large 2 刷新了效能和服務成本的新標準。特別是在 MMLU 上，預訓練版本達到了 84.0% 的準確率。

代碼與推理

Mistral AI 基於先前 Codestral 22B 和 Codestral Mamba 的經驗，在很大一部分代碼上訓練了 Mistral Large 2。

Mistral Large 2 的表現遠優於上一代的 Mistral Large，並且與 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等頂尖模型相當。

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

Mistral AI 也投入了大量精力來增強模型的推理能力，重點之一就是盡量減少模型產生「幻覺」或產生看似合理但實際上不正確或不相關資訊的傾向。這是透過微調模型來實現的，使其在回應時更加謹慎和敏銳，確保其提供可靠和準確的輸出。

此外，在找不到解決方案或沒有足夠的資訊來提供一個自信的答案時，Mistral Large 2 會承認（自己答不出來）。這種對準確度的追求體現在了數學基準測試中模型性能的提高，下圖展示了其增強的推理和解決問題的能力：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

模型都透過相同的評估流程進行基準測試）。

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

GSM8K（8-shot）和 MATH（0-shot時）進行基準測試時產生相同效能測試的準確度（0-shot）。

指令遵循與對齊

🎜

Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和對話能力。新的 Mistral Large 2 尤其擅長遵循精確指令和處理長時間的多輪對話。

以下是其在MT-Bench、Wild Bench 與Arena Hard 基準測試中的表現：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

模型在通用對齊基準測試中的表現（所有模型均透過相同的評估pipeline 進行測試）

在某些基準測試中，產生較長的答案往往會提高評分。然而，在許多商業應用中，簡潔至關重要，這是因為簡潔的模型生成能夠加快互動速度，並降低推理成本。

所以 Mistral AI 花費了大量精力，確保生成的內容盡可能簡潔扼要。

下圖展示了在 MT Bench 基準測試的問題上，不同模型產生的回答的平均長度：

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

語言多樣性

語言多樣性精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

場景涉及當今大量的商業化應用場景涉及處理多語言文件。 Mistral Large 2 在大量多語言資料上進行了訓練，特別是在英語、法語、德語、西班牙語、義大利語、葡萄牙語、荷蘭語、俄語、中文、日語、韓語、阿拉伯語和印地語方面都表現優異。 以下是Mistral Large 2 在多語言MMLU 基準測試中的表現結果，主要是與之前的Mistral Large、Llama 3.1 型號以及Cohere 的Command R+ 的對比：

配備多重語言MMLU 性能（以基礎預訓練模型測量）

工具使用與函數調用

Mistral Large 2 配備了增強的函數調用和檢索技能，經過訓練能夠熟練地執行並行順序和調用函數，使其能夠成為複雜業務應用程式的強大引擎。

下圖為Mistral Large 2 在函數呼叫上與其他主流模型的準確度對比：精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

試用Mistral Large 2

用戶可以透過la Plateforme 上使用Mistral Largemilla-milead -2407 ，並在le Chat 上測試。它的版本是 24.07（Mistral 對所有模型採用的都是 YY.MM 版本編號系統），API 名稱為 mistral-large-2407。

指令模型的權重已提供，託管在 HuggingFace 上。

權重連結：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407Mistral AI 正在將la Plateforme 上的產品整合為兩個通用模型：

Mistral Nemo

和Mistral Large，以及兩Mistral Large專業模型：Codestral 和Embed。隨著他們逐步淘汰la Plateforme 上的舊模型，所有的Apache 模型（包括Mistral 7B、Mixtral 8x7B 和8x22B、Codestral Mamba、Mathstral）仍然可以使用Mistral AI 的SDK——mistral-inference 和mistral-finetune 進行部署和微調。

從今天開始，他們擴展了 la Plateforme 上的微調功能：現在，這些功能適用於 Mistral Large、Mistral Nemo 和 Codestral。

此外，Mistral AI 與雲端服務供應商都有合作，Mistral Large 2 很快就會登陸這些平台。 Mistral AI 擴大了與 Google Cloud Platform 的合作，透過 Managed API 將 Mistral AI 的模型引入 Vertex AI。同時，也可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

參考連結：

https://mistral.ai/news/mistral-large-2407/H

shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

https://techcrunch.com/2024/07/24/mistral-releases- large-2-meta-openai-ai-models/

以上是精準狙擊Llama 3.1？ Mistral AI開源Large 2，123B媲美Llama 405B的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Python Java JavaScript bash math Token apache https azure gpt llama

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架下一篇：為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架

看更多