首頁 >科技週邊 >人工智慧 >350億參數、開放權重,Transformer作者創業後推出新大模型

350億參數、開放權重,Transformer作者創業後推出新大模型

王林
王林轉載
2024-03-13 08:58:24531瀏覽

今天,由 Transformer 作者之一 Aidan Gomez 參與創立的人工智慧新創公司 Cohere 迎來了自家大模型的發布。

Cohere 最新發布的模型被命名為“Command-R”,擁有 35B 參數量,專為處理大規模生產工作負載而設計。此模型屬於「可擴展」類別,具備高效率和高精度的平衡特性,有助於企業用戶在超越概念驗證的基礎上進入生產階段。

350億參數、開放權重,Transformer作者創業後推出新大模型

Command-R 是一種生成模型,專門針對檢索增強生成(RAG)以及其他長上下文任務進行最佳化。透過結合外部 API 和工具,該模型旨在提高 RAG 應用程式的效能。它與行業領先的嵌入和重新排序模型協同工作,為企業用例提供出色的表現和一流的整合能力。

Command-R採用了經過最佳化的transformer架構,是一種自回歸語言模型。在預訓練完成後,模型透過監督微調(SFT)和偏好訓練的方式來確保與人類偏好保持一致,以實現更好的有用性和安全性。

具體而言,Command-R 具有以下功能特徵:

  • RAG 和工具使用方面的高度準確性
  • 低延遲、高吞吐量
  • 更長的128k 上下文和更低的價格
  • 跨10 種主要語言的強大功能
  • HuggingFace 上提供模型權重以供研究和評估

##Command-R目前可在Cohere的託管API上使用,並計劃不久將在主要雲端服務商上推出。這個版本是一系列模型中的首個,旨在提升對企業大規模採用至關重要的功能。

目前,Cohere 在 Huggingface 上開放了模型權重。

350億參數、開放權重,Transformer作者創業後推出新大模型

Huggingface 網址:https://huggingface.co/CohereForAI/c4ai-command-r-v01

高效能檢索增強產生(RAG)

檢索增強產生(RAG)已成為大語言模型部署中的關鍵模式。透過 RAG,企業能夠讓模型存取原本無法獲得的私有知識,搜尋私人資料庫並使用相關資訊形成回應,從而準確性和實用性將顯著提升。 RAG 的關鍵元件是:

  • 檢索:搜尋與回應使用者相關的資訊語料庫。
  • 增強產生:使用檢索到的資訊形成更明智的回應。

對於檢索,Cohere 的Embed 模型透過搜尋數百萬甚至數十億文件來改善上下文和語義理解,顯著提高了檢索步驟的實用性和準確性。同時,Cohere 的 Rerank 模型有助於進一步提高檢索資訊的價值,優化相關性和個人化等自訂指標的結果。

對於增強生成,透過識別最相關的訊息,Command-R 可以總結、分析、包裝這些信息,並幫助員工提高工作效率或創造全新的產品體驗。 Command-R 的獨特之處在於:此模型的輸出帶有明確的引文,可降低幻覺的風險,並能夠從來源材料中呈現更多背景資訊。

即使不使用自家的 Embed 和 Rerank 模型,Command-R 在可擴展的生成模型類別中也優於其他模型。不過當配合使用時,領先優勢顯著擴大,從而在更複雜的領域實現更高的性能。

下圖左為Command-R 與Mixtral 在一系列與企業相關的RAG 應用程式上,進行了Head-to-Head 整體人類偏好評估,充分考慮流暢度、答案實用性和引用。圖右為 Command-R(Embed Rerank)、Command-R 與 Llama 2 70B(chat)、Mixtral、GPT3.5-Turbo 等模型在 Natural Questions、TriviaQA 和 HotpotQA 等基準上的比較結果。 Cohere 的大模型實現了領先。

350億參數、開放權重,Transformer作者創業後推出新大模型#

強大的工具使用能力

大語言模型應該是核心的推理引擎,可以自動執行任務並採取實際行動,而不僅僅提取和生成文本的機器。 Command-R 透過使用工具(API)來實現這一目標,例如程式碼解釋器和其他使用者定義的工具,使模型能夠自動執行高度複雜的任務。

Tool Use 功能可讓企業開發人員將Command-R 轉變為引擎,以支援需要使用「資料庫和軟體工具等內部基礎設施」以及「CRM、搜尋引擎等外部工具”的任務和工作流程的自動化。這樣一來,我們可以實現跨多個系統且需要複雜推理和決策的耗時手動任務的自動化。

下圖為 Command-R 與 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo,在使用搜尋工具時的多步驟推理能力比較。這裡使用到的資料集為 HotpotQA 和 Bamboogle。

350億參數、開放權重,Transformer作者創業後推出新大模型

多語言生成能力

Command-R 模型擅長全球10 種主要商業語言,包括英語、法語、西班牙語、義大利語、德語、葡萄牙語、日語、韓語、阿拉伯語和中文。

此外,Cohere 的 Embed 和 Rerank 模型本身就支援 100 多種語言。這使得用戶能夠從大量資料來源中得出答案,無論使用何種語言,都能以母語提供清晰準確的對話。

下圖為 Command-R 與 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo 在多語言 MMLU 和 FLORES 上的比較。

350億參數、開放權重,Transformer作者創業後推出新大模型

更長的上下文和更低的價格

Command-R 支持了更長的上下文視窗——128k tokens。此次升級也降低了 Cohere 託管 API 的價格,並顯著提高了 Cohere 私有雲部署的效率。透過將更長的上下文視窗與更便宜的定價相結合,Command-R 解鎖了 RAG 用例,其中附加上下文可以顯著提高效能。

350億參數、開放權重,Transformer作者創業後推出新大模型

具體定價如下,其中Command 版本100 萬輸入tokens 1 美元,100 萬輸出tokens 2 美元;Command-R 版本100 萬輸入tokens 0.5 美元,100 萬輸出tokens 1.5 美元。

350億參數、開放權重,Transformer作者創業後推出新大模型

不久後,Cohere 也將放出一份簡短的技術報告,展示更多模型細節。

350億參數、開放權重,Transformer作者創業後推出新大模型

部落格網址:https://txt.cohere.com/command-r/

以上是350億參數、開放權重,Transformer作者創業後推出新大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除