350億參數、開放權重，Transformer作者創業後推出新大模型-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

350億參數、開放權重，Transformer作者創業後推出新大模型

王林

Mar 13, 2024 am 08:58 AM

數據訓練

今天，由 Transformer 作者之一 Aidan Gomez 參與創立的人工智慧新創公司 Cohere 迎來了自家大模型的發布。

Cohere 最新發布的模型被命名為“Command-R”，擁有 35B 參數量，專為處理大規模生產工作負載而設計。此模型屬於「可擴展」類別，具備高效率和高精度的平衡特性，有助於企業用戶在超越概念驗證的基礎上進入生產階段。

350億參數、開放權重，Transformer作者創業後推出新大模型

Command-R 是一種生成模型，專門針對檢索增強生成（RAG）以及其他長上下文任務進行最佳化。透過結合外部 API 和工具，該模型旨在提高 RAG 應用程式的效能。它與行業領先的嵌入和重新排序模型協同工作，為企業用例提供出色的表現和一流的整合能力。

Command-R採用了經過最佳化的transformer架構，是一種自回歸語言模型。在預訓練完成後，模型透過監督微調（SFT）和偏好訓練的方式來確保與人類偏好保持一致，以實現更好的有用性和安全性。

具體而言，Command-R 具有以下功能特徵：

RAG 和工具使用方面的高度準確性
低延遲、高吞吐量
更長的128k 上下文和更低的價格
跨10 種主要語言的強大功能
HuggingFace 上提供模型權重以供研究和評估

##Command-R目前可在Cohere的託管API上使用，並計劃不久將在主要雲端服務商上推出。這個版本是一系列模型中的首個，旨在提升對企業大規模採用至關重要的功能。

目前，Cohere 在 Huggingface 上開放了模型權重。

350億參數、開放權重，Transformer作者創業後推出新大模型

Huggingface 網址：https://huggingface.co/CohereForAI/c4ai-command-r-v01

高效能檢索增強產生（RAG）

檢索增強產生（RAG）已成為大語言模型部署中的關鍵模式。透過 RAG，企業能夠讓模型存取原本無法獲得的私有知識，搜尋私人資料庫並使用相關資訊形成回應，從而準確性和實用性將顯著提升。 RAG 的關鍵元件是：

檢索：搜尋與回應使用者相關的資訊語料庫。
增強產生：使用檢索到的資訊形成更明智的回應。

對於檢索，Cohere 的Embed 模型透過搜尋數百萬甚至數十億文件來改善上下文和語義理解，顯著提高了檢索步驟的實用性和準確性。同時，Cohere 的 Rerank 模型有助於進一步提高檢索資訊的價值，優化相關性和個人化等自訂指標的結果。

對於增強生成，透過識別最相關的訊息，Command-R 可以總結、分析、包裝這些信息，並幫助員工提高工作效率或創造全新的產品體驗。 Command-R 的獨特之處在於：此模型的輸出帶有明確的引文，可降低幻覺的風險，並能夠從來源材料中呈現更多背景資訊。

即使不使用自家的 Embed 和 Rerank 模型，Command-R 在可擴展的生成模型類別中也優於其他模型。不過當配合使用時，領先優勢顯著擴大，從而在更複雜的領域實現更高的性能。

下圖左為Command-R 與Mixtral 在一系列與企業相關的RAG 應用程式上，進行了Head-to-Head 整體人類偏好評估，充分考慮流暢度、答案實用性和引用。圖右為 Command-R（Embed Rerank）、Command-R 與 Llama 2 70B（chat）、Mixtral、GPT3.5-Turbo 等模型在 Natural Questions、TriviaQA 和 HotpotQA 等基準上的比較結果。 Cohere 的大模型實現了領先。

350億參數、開放權重，Transformer作者創業後推出新大模型 #