搜尋
首頁科技週邊人工智慧國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練

國內規模最大的開源大模型來了:

參數650億、基於2.6-3.2兆token訓練。

排名僅次於“獵鷹”和“羊駝”,性能媲美GPT3.5,現在就能無條件免費商用

國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練

它就是來自深圳元象公司的XVERSE。

根據算力、資源限制和具體任務需求的不同,我們能對它進行任何自由修改或蒸餾。

除了規模大,它還具有16k上下文,支援40多種語言,並還有7B、13B兩個版本可選。

具體什麼來頭?

國內規模最大的可商用大模型來了

研究表明,參數量越高,高品質訓練資料越多,大模型效能才能不斷提升。

而業界普遍共識是達到500到600億參數門檻,大模型才能「智慧湧現」 ,在多任務中展現強大性能。

但訓練此量級模型成本高昂,技術要求較高,目前主要為閉源付費提供。

在國外開源生態中,Llama2-70B和Falcon-180B等標竿模型為「有條件」開源,設定了每月活躍用戶數或收入等商用上限,並因缺乏訓練資料在中文能力上有明顯短板。

在此,為推動國產大模型開源生態與產業應用發展,元象XVERSE公司宣布開源650億參數高性能通用大模型XVERSE-65B,無條件免費商用。 13B模型則全面升級,提高「小」模型能力上限。

元象XVERSE創辦人姚星表示:「面對研發時間緊、算力持續短缺等挑戰,團隊在三個月內研發出多款高性能7B、13B模型,並最早為社區獻上一個'大有可為'的65B模型。”

XVERSE-65B底座模型在2.6萬億Tokens的高質量數據上從頭訓練,上下文窗口擴展至16K,支持中、英、俄、法等40多種語言。

顯著提升了三方面能力

一、理解、生成、推理和記憶等基礎能力,到模型的多樣性、創造性和精度表現,從優異到強大;

二、擴展了工具調用、程式碼解釋、反思修正等能力,為建構智能體(AI Agent)奠定技術基礎,提高模型實用性;

三、顯著緩解7B、13B中常見且可能很嚴重的幻覺問題,減少大模型“胡說八道”,提高準確性和專業度。

元像大模型系列皆為全自研,涵蓋多項關鍵技術與研發創新:

1、複雜分散式系統設計:

#借鏡團隊研發騰訊圍棋AI「絕藝」、王者榮耀AI「絕悟」等大系統上的豐富經驗,自研高效算子、顯存優化、平行調度策略、數據-計算-通訊重疊、平台與框架協同關鍵技術,打造高效率且穩定的訓練系統, 千卡集群峰值算力利用率達58.5%,位居業界前列。

2、全面提升效能:

65B訓練中採用FlashAttention2加速運算, 3D並行基礎上採用虛擬管線(virtual pipeline)技術,降低較長管線產生過高氣泡率,提升計算推理效率;上下文視窗長度從8K逐步提升到16K,使其不僅能出色完成複雜任務,包括長文理解、長文生成和超長對話,還拓展了工具呼叫、程式碼解釋及反思修正能力,能更好地建構智能體(AI Agent)

3、極致提升訓練穩定性:

因運算量龐大,通訊擁塞、晶片過熱或運算節點故障成為65B訓練常態,初期出現過一週最高八次故障的情況。

透過叢集基礎設施營運、資源調度、訓練架構和調度平台協同持續優化,元像打造出高穩定、低中斷、強容錯的訓練系統,將每週有效訓練率提升至98.6 %。

此外,在接近1.6兆Tokens的模型訓練中期,損失函數產生了NaN值,可能導致訓練中斷。

通常情況下,業界一般會在分析後刪除與之相關的資料區間。

而團隊根據經驗判定這是模型自然演化,選擇不刪除數據,直接跳過相關參數更新,最終 NaN值 問題解決。

後期對參數值、激活值、梯度值等中間狀態的進一步分析表明,該問題可能與模型最後一層transformer block激活值的最大值變化有關,並會隨最大值的逐漸降低而自行解決。

國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練

效能媲美GPT3.5

為確保業界能對元像大模型表現有全面、客觀、長期認知,研究人員參考了一系列權威學術測評,制定了涵蓋問答、理解、知識、推理、數學、程式碼等六個向度的11項主流權威評量標準,將持續使用並迭代。

XVERSE-65B在國內尚無同量級模型可對比,在與國外標竿對比測評中,部分指標超越、綜合性能媲美GPT3.5;全面超越開源標竿Llama2 -70B 和Falcon-180B;與GPT4仍有差距

國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練

全面升級的XVERSE-13B-2,比同尺寸模型增加大量高品質數據,訓練數據高達3.2萬億, 極大提升了「小」模型的能力上限。

它文理兼修,保持了文科優勢,問答提升18%,理科長足進步, 代碼提升149%、數學提升198%,在測評中全面超越了Llama2、Baichuan2等國內外開源標竿。

國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練

現在,元像大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜尋「XVERSE」下載 #,簡單登記後即可無條件免費商用,能滿足中小企業、科研機構及個人開發者絕大部分的應用與迭代需求。

元象同時提供模型訓練、推理、部署、精調等全方位技術服務,賦能文娛、金融、醫療等各行各業,幫助在智能客服、創意寫作、精準推薦等多場景打造業界領先的使用者體驗。

2023年10月,騰訊音樂率先宣布與元像大模型建立戰略合作,共同推出lyraXVERSE加速大模型、全面升級其音樂助手“AI小琴”,未來還將持續探索AI與3D前沿技術。

以上是國內最大開源模型發布,無條件免費商用!參數650億,基於2.6兆token訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境