首頁  >  文章  >  科技週邊  >  最強模型Llama 3.1 405B正式發布,祖克柏:開源引領新時代

最強模型Llama 3.1 405B正式發布,祖克柏:開源引領新時代

PHPz
PHPz原創
2024-07-24 20:23:06578瀏覽
剛剛,大家期待已久的 Llama 3.1 官方正式發布了!

Meta 官方發出了「開源引領新時代」的聲音。
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
在官方部落格中,Meta 表示:「直到今天,開源大語言模型在功能和效能方面大多落後於封閉模型。現在,我們正在迎來一個開源引領的新時代。我們公開發布Meta Llama 3.1 405B,我們認為這是世界上最大、功能最強大的開源基礎模型。 、CEO 祖克柏也親自寫了篇長文《Open Source AI Is the Path Forward》,闡述為何開源對所有開發者、對Meta、對世界都是好事。

此次發布的要點包括:
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
最新的系列模型將上下文長度擴展到了128K、增加了對八種語言的支持,並包括頂級開源模型Llama 3.1 40535;
Llama 3.1 405B 獨樹一幟,Meta 官方稱其可與最好的閉源模型相媲美;
  • 此次發布還提供了更多與模型配合使用的組件(包括參考系統)來將Llama 打造為一個系統;
  • 用戶透過WhatsApp 和meta.ai 就可以體驗Llama 3.1 405B 了。
  • 地址:https://llama.meta.com/
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代各位網友可以下載嚐鮮了。

Llama 3.1 介紹

Llama 3.1 405B 是首個公開可用的模型,在頂級語言、可操縱性、數學、工具和可操縱性語言等模型方面可與頂級語言相媲美。

Meta 表示最新一代的Llama 將激發新的應用程式和建模範式,包括利用合成資料產生來提升和訓練更小的模型,以及模型蒸餾—— 這是一種在開源領域從未達到的能力。

同時,Meta 也推出了 8B 和 70B 模型的升級版本,支援多種語言,上下文長度達到 128K,推理能力也更強。最新模型支援高階用例,例如長篇文字摘要、多語言對話智能體和編碼助理。

舉例來說,Llama 3.1 可以將故事翻譯成西班牙語:

當用戶提問「有3 件襯衫、5 條短褲和1 條連身裙,假如要旅行10 天。準備旅行的10 天。準備旅行的10 天。夠不夠?

最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代長上下文:對於上傳的文檔,Llama 3.1 能夠分析和總結最多 8k token 的大型文檔。

最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代編碼助手,對於使用者要求,可以快速編寫程式碼:

此外,Llama 3.1 405B 的開發者也發推文「劇透」,表示開發 GPT-4o 一樣整合語音和視覺能力的模型還在開發中。
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
Meta 還對開源協定進行了更改,允許開發人員使用 Llama 模型(包括 405B)的輸出來改進其他模型。此外,為了兌現開源承諾,從今天開始,Meta 將這些模型提供給社區,用戶可以在 llama.meta.com 和 Hugging Face 上下載。

下載網址:

  • https://huggingface.co/meta-llama
  • 模型評估

Meta 在超過150 個基準資料集上進行了評估,此外,他們還進行了廣泛的人類評估。
實驗結果表明,旗艦模型 Llama 3.1 405B 在一系列任務中與領先的基礎模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有競爭力。此外,8B 和 70B 小型模型與具有相似數量參數的封閉源和開源模型具有競爭力。

最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
模型架構
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
作為 Meta 迄今為止最大的模型,使用重大訓練15000 億個挑戰。為了實現這種規模的訓練,Meta 優化了整個訓練堆疊,並在超過 16,000 個 H100 GPU 上訓練,使該模型成為第一個在此規模上訓練的 Llama 模型。
為了解決這個問題,Meta 在設計上做出了以下一些選擇,重點是保持模型開發過程的可擴展性和簡單性。
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
選擇了僅進行少量調整的標準解碼器 Transformer 模型架構,而不是混合專家模型,以最大限度地提高訓練穩定性。

採用迭代後訓練程序,每輪都使用監督微調和直接偏好最佳化。這使 Meta 能夠為每輪創建最高品質的合成數據,並提高每項功能的性能。
  • 與先前版本的Llama 相比,Meta 提高了用於預訓練和後訓練的數據數量和質量,如為預訓練數據開發更仔細的預處理和管理管道,為後訓練數據發展更嚴格的品質保證與過濾方法。
正如語言模型 scaling laws 所預期的那樣,Meta 新旗艦模型優於使用相同程序訓練的較小模型。 Meta 也使用 405B 參數模型來提高較小模型的後訓練品質。
為了支援405B 模型的大規模推理產出,Meta 將模型從16 位元(BF16) 量化為8 位元(FP8) ,有效降低了所需的計算要求,並允許模型在單一伺服器節點運行。

指令和聊天微調

Llama 3.1 405B 努力提高模型響應用戶指令的實用性、品質和詳細指令遵循能力,同時確保高水平的安全性。
在後訓練階段,研究團隊透過在預訓練模型的基礎上進行幾輪對齊來建立最終的聊天模型。每輪都涉及監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO)。
研究團隊使用合成資料產生來產生絕大多數 SFT 範例,並多次迭代以在所有功能上產生越來越高品質的合成資料。此外,研究團隊還採用了多種數據處理技術,以過濾這些合成數據,達到最高品質,並且可以跨功能擴展微調數據量。

Llama 系統

Llama 模型一直是作為 AI 系統的一部分而存在的,可以協調多個組件,包括調用外部工具。 Meta 旨在超越基礎模型,讓開發人員能夠靈活地設計和創建符合其願景的客製化產品。

為了在模型層之外負責任地開發人工智慧,Meta 發布了一個完整的參考系統,其中包括多個範例應用程式以及新元件,例如Llama Guard 3(一種多語言安全模型)和Prompt Guard(一個prompt 注入過濾器)。這些範例應用程式是開源的,可以由開源社群建立。

為了與行業、新創公司和開源社群進行更廣泛的合作,幫助更好地定義組件的接口,Meta 在 GitHub 上發布了針對「Llama Stack」的評論請求。 Llama Stack 是一組標準化接口,用於建立規範的工具鏈組件(微調、合成資料生成)和智慧體應用程式。這有助於更輕鬆地實現互通性。 最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
與封閉模型不同,Llama 模型權重可供下載。開發人員可以根據自己的需求和應用程式完全自訂模型,在新資料集上進行訓練,並進行額外的微調。

使用 Llama 3.1 405B 進行開發

對於普通開發者來說,部署 405B 這樣大規模的模型無疑是一項挑戰,它需要大量的計算資源和專業技能。在與開發者社群的交流中,Meta 意識到,生成式 AI 的開發不僅僅是給模型輸入 prompt。他們期望所有開發者都能在以下領域充分開發Llama 3.1 405B 的潛力:

  • 實時和批量推理
  • 監督式微調
    實時和批量推理
  • 監督式微調
  • 持續預訓練
  • 檢索增強生成(RAG)
  • 函數呼叫
  • 。 5B 模型的所有進階功能都將開放,開發者可以立即上手。開發者還可以探索更高階的工作流程,例如基於模型蒸餾的合成資料生成。這次升級,Meta 還無縫整合了合作夥伴 AWS、NVIDIA 和 Databricks 提供的解決方案,以實現更有效率的檢索增強生成(RAG)。此外,Groq 已經為在雲端部署模型進行了低延遲推理的最佳化,也對本地系統進行了類似的效能提升。 

Meta 這次還為 Llama 3.1 405B 內建了「工具大禮包」,內含 vLLM、TensorRT 和 PyTorch 等關鍵項目,從模型開發到部署「開箱即用」,一步到位。

參考連結:https://ai.meta.com/blog/meta-llama-3-1/

以上是最強模型Llama 3.1 405B正式發布,祖克柏:開源引領新時代的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn