搜尋
首頁科技週邊人工智慧上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

近日,上海数字大脑研究院(以下简称 “数研院”)推出首个数字大脑多模态决策大模型(简称 DB1),填补了国内在此方面的空白,进一步验证了预训练模型在文本、图 - 文、强化学习决策、运筹优化决策方面应用的潜力。目前,DB1代码我们已开源在Github,项目链接:https://github.com/Shanghai-Digital-Brain-Laboratory/BDM-DB1。

此前,数研院提出 MADT(https://arxiv.org/abs/2112.02845)/MAT(https://arxiv.org/abs/2205.14953)等多智能体模型,在一些离线大模型通过序列建模,使用 Transformer 模型在一些单 / 多智能体任务上取得了显著效果,并持续在该方向上进行研究探索。

过去几年,随着预训练大模型的兴起,学术界与产业界在预训练模型的参数量与多模态任务上不断取得新的进展,大规模预训练模型通过对海量数据和知识的深度建模,被认为是通往通用人工智能的重要路径之一。专注决策智能研究的数研院创新性地尝试将预训练模型的成功复制到决策任务上,并且取得了突破。

多模态决策大模型 DB1

此前,DeepMind 推出 Gato,将单智能体决策任务、多轮对话和图片 - 文本生成任务统一到一个基于 Transformer 的自回归问题上,并在 604 个不同任务上取得了良好表现,显示出通过序列预测能够解决一些简单的强化学习决策问题,这在侧面验证了数研院在决策大模型研究方向的正确性。

此次,数研院推出的 DB1,主要对 Gato 进行了复现与验证,并从网络结构与参数量、任务类型与任务数量两方面尝试进行了改进:

  • 参数量与网络结构:DB1 参数量达 12.1 亿。在参数量上尽量做到与 Gato 接近。整体来说,数研院使用了与 Gato 类似的结构(相同的 Decoder Block 数量、隐层大小等),但在 FeedForwardNetwork 中,由于 GeGLU 激活函数会额外引入 1/3 的参数量,数研院为了接近 Gato 的参数量,使用 4 * n_embed 维的隐层状态经过 GeGLU 激活函数后变成 2 * n_embed 维的特征。在其他方面,我们与 Gato 的实现一样在输入输出编码端共享了 embedding 参数。不同于 Gato,在 layer normalization 的选择上我们采用了 PostNorm 的方案,同时我们在 Attention 上使用混合精度计算,提高了数值稳定性。
  • 任务类型与任务数量:DB1 的实验任务数量达 870,较 Gato 提升了 44.04%,较 Gato 在 >=50% 专家性能上提升 2.23%。具体任务类型上,DB1 大部分继承了 Gato 的决策、图像和文本类任务,各类任务数量基本维持一致。但在决策类任务方面,DB1 另外引入了 200 余个现实场景任务,即 100 和 200 节点规模的旅行商问题(TSP,此类任务在所有中国主要城市随机选择 100-200 个地理位置作为结点表征)求解。

可以看到的是,DB1 整体表现已经与 Gato 达到同一水平,并已经开始向更加贴近实际业务的需求领域体进化,很好地求解了 NP-hard 的 TSP 问题,而此前 Gato 并未在此方向探索。

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策DB1 (右) 与 GATO (左)指标对比

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

DB1 在强化学习模拟环境上的多任务性能分布

相較於傳統的決策演算法,DB1 在跨任務決策能力和快速遷移能力上都有不錯的表現。從跨任務決策能力和參數量來說,實現了從單一複雜任務的千萬- 億級別參數量到多個複雜任務的十億級別參數的跨越,並持續增長,並且具備解決複雜商業環境中的實際問題的充分能力。從遷移能力來說,DB1 完成了從智慧預測到智慧決策、從單智能體到多智能體的跨越,彌補傳統方法在跨任務遷移方面的不足,使得企業內部建立大模型成為可能。

不可否認的是,DB1 在開發過程也遇到了許多難點,數研究院進行了大量嘗試,可為業內在大規模模型訓練及多任務訓練資料儲存方面提供一些標準解決路徑。由於模型參數到達 10 億參數規模且任務規模龐大,同時需要在超過 100T(300B Tokens)的專家資料上進行訓練,普通的深度強化學習訓練框架已無法滿足在該種情況下的快速訓練。為此,一方面,針對分散式訓練,數研院充分考慮強化學習、運籌優化和大模型訓練的運算結構,在單機多卡和多機多卡的環境下,極致利用硬體資源,巧妙設計模組間的通訊機制,盡可能提升模型的訓練效率,將870 個任務的訓練時間縮短到了一週。另一方面,針對分散式隨機採樣,訓練過程所需資料索引、儲存、載入以及預處理也成為對應瓶頸,數研院在載入資料集時採用了延遲載入模式,以解決記憶體限制問題並儘可能充分利用可用記憶體。此外,在對載入資料進行預處理後,會將處理過的資料快取至硬碟中,便於此後可直接載入預處理完成的數據,縮減重複預處理帶來的時間和資源成本。

目前,國際國內頭部企業與研究機構如OpenAI、Google、Meta、華為、百度和達摩院等都已經進行了多模態大模型相關的研究並且有了一定商業化嘗試,包括在自身產品中應用或提供模型API 和相關產業解決方案。相較之下,數研究所更關注決策問題,同時支援遊戲 AI 決策任務、運籌優化 TSP 求解任務、機器人決策控制任務、黑盒優化求解任務與多輪對話任務上進行應用嘗試。

任務表現

運籌最佳化:TSP 問題求解

以中國部分城市為節點的TSP 問題

強化學習任務影片示範

DB1 模型在完成870 個不同決策任務的離線學習後,其評估結果顯示有76.67% 的任務達到或超過50% 的專家水準。以下是一些任務的效果展示。

  • 電子遊戲場景:DB1 可以接收2D/3D 影像輸入,並且很好地完成類別如Atari,Procgen 在內的2D 像素遊戲,同時對於DMLab 這種與真實世界較為相似的3D 影像輸入任務,DB1 也展現了良好的效能。

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

Atari Breakout

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策


上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

##### ###############DMLab  Explore Object Locations######################################################################################################################################### ##Procgen DogBall################## 連續控制場景:在機器人領域的連續控制任務上,DB1 也能夠建模連續動作的策略輸出,並且很好地完成仿真任務上。 ##################

Metaworld PlateSlide

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策

ModularRL Cheetah

文字- 圖像任務

  • #文字產生:給出一段文字提示,產生長文本描述
  • 輸入提示:digital brain laboratory is a shanghai based
  • 產生結果:digital brain laboratory is a shanghai based company and we are looking for a highly skilled and experienced person to join our team in shanghai, china.
    we are a digital brain lab and we are looking for a highly skilled and experienced person to join our team in#.
    ##this is an opportunity to work for a well known and growing company that is going through a fast growth phase and to have an impact in the market.
    full-time, permanent position.
    We are looking for a highly skilled, motivated and experienced software engineer who can lead a team of 5-10 in a highly competitive environment
  • #圖像描述產生:給定一張圖片產生對應文字描述

上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策


目前決策大模型的限制與未來方向

雖然當前多模態決策預訓練模型DB1 取得了一定效果,但仍存在一定局限性,諸如:跨域任務採樣權重敏感、跨域知識遷移困難、長序列建模困難、專家資料強烈依賴等。雖然有許多挑戰,但現階段看來,多模態決策大模型是實現決策智能體從遊戲走向更廣泛場景,從虛擬走向現實,在現實開放動態環境中進行自主感覺與決策,最終實現更加通用人工智慧的關鍵探索方向之一。未來,數研究所將持續迭代數位大腦決策大模型,透過更大參數量,更有效的序列表徵,存取與支援更多任務,結合離線/ 線訓練與微調,實現跨域、跨模態、跨任務的知識泛化與遷移,最終在現實應用場景下提供更通用、更有效率、更低成本的決策智慧決策解決方案。

以上是上海數位大腦研究院發表國內首個多模態決策大模型DB1,可實現超複雜問題快速決策的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中