首頁  >  文章  >  科技週邊  >  元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

PHPz
PHPz轉載
2023-11-06 15:33:201108瀏覽

國內先前開源了多個 70 到 130 億參 數大模型,落地成果湧現,開源生態系統初步建立。隨著智能體等任務複雜度與資料量的提升,業界與社群對更「大」模型的需求越來越迫切。

研究表明,參數量越高,高品質訓練資料越多,大模型效能才能不斷提升。而業界普遍共識是達到 500 到 600 億參數門檻,大模型才能「智慧湧現」在多任務中展現強大效能。但訓練此量級模型成本高昂,技術要求較高,目前主要為閉源付費提供。

在國外開源生態中,Llama2-70B 和Falcon-180B 等標竿模型為有條件開源,設定了每月活躍用戶數或收入等商用上限,並因缺乏訓練資料在中文能力上有明顯短板。此外,美國新頒布的 AI 晶片禁令,或將進一步限制中國大模型產業發展的速度。業界迫切呼籲一個高性能國產大模型,填補生態空白, 為中文應用提供更強大的理解、推理和長文生成能力。

在此背景下,元象XVERSE 公司宣布開源650 億參數高效能通用大模型XVERSE-65B且無條件免費商用,業界尚屬首次。此外,13B 模型全面升級,提高小型模型能力上限。這將讓海量中小企業、研究者和AI 開發者更早一步實現大模型自由,根據其算力、資源限制和具體任務需求,自由使用、修改或蒸餾元像大模型,推動研究與應用的突破創新。

元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

模型位址:https://huggingface.co/xverse/XVERSE-65B

元象XVERSE 創辦人姚星表示:「面對研發時間緊、算力持續短缺等挑戰,團隊依靠豐富經驗,三個月內研發出多款高性能7B、13B 模型,並最早為社區獻上一個大有可為的65B 模型,為研究、商業及生態創造三重價值.」

具體而言,65B 模型能夠有以下正面影響:

  • #研發上,65B 將為新技術、新工具、效能最佳化到模型安全提供「大槓桿」,讓社區快速累積經驗,也有助於推動國家科技自主可控的長遠目標。

  • 商業上,海量中小企業能以零成本用上「大工具」,可突破局限,推動應用顯著創新。元像也能深入了解用例、安全模型部署和潛在機會。

  • 在開發者生態上,社區能充分發揮組織協同優勢,推動研發應用的「寒武紀大爆發」。

元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

                             》鏈條自研,多項技術創新

XVERSE-65B 底座模型在2.6 兆Tokens 的高品質資料上從頭訓練,上下文視窗擴展至16K,支援中、英、俄、法等40 多種語言。

元象堅持高性能定位,顯著提升了65B 三方面能力:

#理解、生成、推理和記憶等基礎能力,到模型的多樣性、創造性和精度表現,從優異到強大;

  • 擴展了工具呼叫、程式碼解釋、反思修正等能力,為建構智能體奠定技術基礎,提高模型實用性;

  • 顯著緩解7B、13B 中常見且可能嚴重的幻覺問題,減少大模型幻覺,提高準確性和專業度。

  • 元像大模型系列皆為全鏈條自研,涵蓋多項關鍵技術與研發創新:

    #1. 複雜分散式系統設計:借鏡團隊研發騰訊圍棋AI「絕藝」、王者榮耀AI「絕悟」等大系統上的豐富經驗,自研高效算子、顯存優化、平行調度策略、數據-計算-通信重疊、平台與框架協同關鍵技術,打造高效率穩定的訓練系統, 千卡集群峰值算力利用率達58.5%,位居業界前列。
2. 全面提升效能:65B 訓練中採用FlashAttention2 加速運算, 3D 並行基礎上採用虛擬管線(virtual pipeline)技術,降低較長管線產生過高氣泡率,提升運算推理效率;情境視窗長度從8K 逐步提升到16K,使其不僅能出色完成複雜任務,包括長文理解、長文生成和超長對話,還拓展了工具調用、代碼解釋及反思修正能力,能更好構建智能體( AI Agent)。

3. 極致提升訓練穩定性:因運算量龐大,通訊擁塞、晶片過熱或運算節點故障成為 65B 訓練常態,初期出現一週最高八次故障的情況。透過叢集基礎設施營運、資源調度、訓練框架和調度平台協同持續優化,元像打造出高穩定、低中斷、強容錯的訓練系統,將每週有效訓練率提升至 98.6%。

此外,在接近 1.6 兆 Tokens 的模型訓練中期,損失函數產生了 NaN 值,可能導致訓練中斷。通常情況下,業界一般會在分析後刪除與之相關的資料區間。而團隊根據經驗判定這是模型自然演化,選擇不刪除數據,直接跳過相關參數更新,最終 NaN 值問題解決。後期對參數值、激活值、梯度值等中間狀態的進一步分析表明,該問題可能 與模型最後一層 transformer block 激活值的最大值變化有關,並會隨最大值的逐漸降低而自行解決。

元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

                                    之後符號中使用最佳設定問題研​​發產生問題#5#15#11221215#2115#1115#9100115#91001100 效能問題。

為確保業界能對元像大模型表現有全面、客觀、長期認知,研究人員參考了一系列權威學術測評,制定了涵蓋問答、理解、知識、推理、數學、代碼等六個構面的11 項主流權威評量標準,將持續使用並迭代。

XVERSE-65B 在國內尚無同量級模型可對比,在與國外標竿對比測評中,部分指標超越、綜合性能媲美GPT3.5;全面超越開源標竿Llama2-70B 和Falcon-180B ;與GPT4 仍有差距。

                                     XVERSE-65B 評測元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用

全面升級的XVERSE-13B-2,比同尺寸模型增加大量高品質數據,訓練數據高達3.2 萬億, 極大提升了小模型的能力上限。它文理兼修,保持了文科優勢,問答提升 18%,理科長足進步, 代碼提升 149%、數學提升 198%,在測評中全面超越了 Llama2、Baichuan2 等國內外開源標竿。

                                    之後#XVERSE-13元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用XVERSE-13
#)開啟新時代》中試題

##元大模型可在Github、Hugging Face、魔搭ModelScope 等多平台搜尋「XVERSE」下載

簡單登記後即可無條件免費商用,能滿足中小企業、科研機構及個人開發者絕大部分的應用與迭代需求。 元象同時提供模型訓練、推理、部署、精調等全方位技術服務,賦能文娛、金融、醫療等各行各業,幫助在智能客服、創意寫作、精準推薦等多場景打造業界領先的使用者體驗。 2023 年10 月,騰訊音樂率先宣布與元像大模型建立戰略合作,共同推出lyraXVERSE 加速大模型、全面升級其音樂助手“AI 小琴”,未來還將持續探索AI 與3D 前沿技術,引領音樂娛樂創新方向。

姚星表示:「真實世界的感知智能(3D),與真實世界的認知智能(AI),是探索通用人工智慧(AGI)的必由之路,也是元象持續探索前沿科技的動力。XVERSE 開源系列致力於推動大模型國產可替代與持續技術創新,為實體經濟、數位經濟發展注入強勁動力。我們期待與企業和開發者攜手,共同開啟大模型應用新時代!」

關於元象

元象XVERSE 於2021 年初在深圳成立,是國內領先的AI 與3D 技術服務公司,致力於打造AI 驅動的3D 內容生產與消費一站式平台,願景為「定義你的世界」。

元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用                                  個人網站上:www.XVERSE.cn
2112元。元象創辦人姚星是前騰訊副總裁、騰訊 AI Lab 創辦人、國家科技部新一代人工智慧策略諮詢委員會成員。

在 3D 與 AI 技術領域,元象擁有深厚累積與完整佈局。在3D 領域,已自主研發出業界引領性的「端雲協同」3D 互動技術,開創零門檻(輕)、一站式(快)、高品質(美)全新3D 體驗;在AI 領域,開源中國最大參數可商用大模型XVERSE-65B,旨在推動大模型國產可替代與產業應用發展。

以上是元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除