AI 競賽正以前所未有的速度加速,繼 Meta 昨天推出其新的開源 Llama 3.1 模型之後,法國 AI 新創公司 Mistral AI 也加入了競爭。
剛剛,Mistral AI 宣布其旗艦開源模型的下一代產品:Mistral Large 2,該模型擁有 1230 億個參數,在代碼生成、數學、推理等方面與 OpenAI 和 Meta 的最新尖端模型不相上下。
緊跟著 Llama 3.1 405B 之後,Mistral Large 2 的發布讓開源大模型的賽道一下子熱鬧起來,而這一模型的特點是 ——“足夠大”。
具體來說,雖然 Mistral Large 2 參數量低於 Llama 3.1 的 4050 億,但兩者性能接近。並且在多個基準測試中與 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。
今年2 月,Mistral AI 推出了最初的Large 模型,其上下文視窗包含32,000 個token,新版模型在此基礎上構建,具有更大的128,000 個上下文視窗(大約相當於一本300 頁的書)— 與OpenAI 的GPT-4o 和GPT-4o mini 以及Meta 的Llama 3.1 相符。
目前,Mistral Large 2 支援數十種語言,包括法語、德語、西班牙語、義大利語、葡萄牙語、阿拉伯語、印地語、俄語、中文、日語和韓語,以及80 多種程式語言,包括Python、Java、C、C++、JavaScript 和Bash。
Mistral AI 指出,新模型將繼續突破成本效率、速度和效能的界限,同時為使用者提供新功能,包括進階函數呼叫和檢索,以建立高效能的 AI 應用。
不過,值得注意的是,Mistral Large 2 雖然是開放的,但只限於研究和非商業用途。它提供了開放的權重,允許第三方根據自己的需求對模型進行微調。這項協議是對使用者使用條件的一個重要限制。對於需要自行部署 Mistral Large 2 的商業用途,必須事先取得 Mistral AI 商業授權。
效能表現
在多項評估指標上,Mistral Large 2 刷新了效能和服務成本的新標準。特別是在 MMLU 上,預訓練版本達到了 84.0% 的準確率。
代碼與推理
Mistral AI 基於先前 Codestral 22B 和 Codestral Mamba 的經驗,在很大一部分代碼上訓練了 Mistral Large 2。
Mistral Large 2 的表現遠優於上一代的 Mistral Large,並且與 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等頂尖模型相當。
Mistral AI 也投入了大量精力來增強模型的推理能力,重點之一就是盡量減少模型產生「幻覺」或產生看似合理但實際上不正確或不相關資訊的傾向。這是透過微調模型來實現的,使其在回應時更加謹慎和敏銳,確保其提供可靠和準確的輸出。
此外,在找不到解決方案或沒有足夠的資訊來提供一個自信的答案時,Mistral Large 2 會承認(自己答不出來)。這種對準確度的追求體現在了數學基準測試中模型性能的提高,下圖展示了其增強的推理和解決問題的能力:
模型都透過相同的評估流程進行基準測試)。
GSM8K(8-shot)和 MATH(0-shot時)進行基準測試時產生相同效能測試的準確度(0-shot)。
指令遵循與對齊
🎜Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和對話能力。新的 Mistral Large 2 尤其擅長遵循精確指令和處理長時間的多輪對話。
以下是其在MT-Bench、Wild Bench 與Arena Hard 基準測試中的表現:
模型在通用對齊基準測試中的表現(所有模型均透過相同的評估pipeline 進行測試)
在某些基準測試中,產生較長的答案往往會提高評分。然而,在許多商業應用中,簡潔至關重要,這是因為簡潔的模型生成能夠加快互動速度,並降低推理成本。 所以 Mistral AI 花費了大量精力,確保生成的內容盡可能簡潔扼要。 下圖展示了在 MT Bench 基準測試的問題上,不同模型產生的回答的平均長度:語言多樣性
語言多樣性
場景涉及當今大量的商業化應用場景涉及處理多語言文件。 Mistral Large 2 在大量多語言資料上進行了訓練,特別是在英語、法語、德語、西班牙語、義大利語、葡萄牙語、荷蘭語、俄語、中文、日語、韓語、阿拉伯語和印地語方面都表現優異。 以下是Mistral Large 2 在多語言MMLU 基準測試中的表現結果,主要是與之前的Mistral Large、Llama 3.1 型號以及Cohere 的Command R+ 的對比:
配備 多重語言MMLU 性能(以基礎預訓練模型測量)
工具使用與函數調用
Mistral Large 2 配備了增強的函數調用和檢索技能,經過訓練能夠熟練地執行並行順序和調用函數,使其能夠成為複雜業務應用程式的強大引擎。
下圖為Mistral Large 2 在函數呼叫上與其他主流模型的準確度對比:
試用Mistral Large 2
用戶可以透過la Plateforme 上使用Mistral Largemilla-milead -2407 ,並在le Chat 上測試。它的版本是 24.07(Mistral 對所有模型採用的都是 YY.MM 版本編號系統),API 名稱為 mistral-large-2407。
指令模型的權重已提供,託管在 HuggingFace 上。
權重連結:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407Mistral AI 正在將la Plateforme 上的產品整合為兩個通用模型:
Mistral Nemo和Mistral Large,以及兩Mistral Large專業模型:Codestral 和Embed。隨著他們逐步淘汰la Plateforme 上的舊模型,所有的Apache 模型(包括Mistral 7B、Mixtral 8x7B 和8x22B、Codestral Mamba、Mathstral)仍然可以使用Mistral AI 的SDK——mistral-inference 和mistral-finetune 進行部署和微調。
從今天開始,他們擴展了 la Plateforme 上的微調功能:現在,這些功能適用於 Mistral Large、Mistral Nemo 和 Codestral。
此外,Mistral AI 與雲端服務供應商都有合作,Mistral Large 2 很快就會登陸這些平台。 Mistral AI 擴大了與 Google Cloud Platform 的合作,透過 Managed API 將 Mistral AI 的模型引入 Vertex AI。同時,也可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。
參考連結:
https://mistral.ai/news/mistral-large-2407/H
shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/https://techcrunch.com/2024/07/24/mistral-releases- large-2-meta-openai-ai-models/
以上是精準狙擊Llama 3.1? Mistral AI開源Large 2,123B媲美Llama 405B的詳細內容。更多資訊請關注PHP中文網其他相關文章!