搜尋
首頁科技週邊人工智慧人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

在4 月27 日舉行的中關村論壇通用人工智慧平行論壇上,人大系新創公司智子引擎隆重發布全新的多模態大模型Awaker 1.0,向AGI 邁出至關重要的一步。

相對於智子引擎前代的ChatImg 序列模型,Awaker 1.0 採用全新的MOE 架構並具備自主更新能力,是業界首個實現「真正」 自主更新的多模態大模型。

在視覺生成方面,Awaker 1.0 採用完全自研的視頻生成底座VDT,在寫真視頻生成上取得好於Sora 的效果,打破大模型“最後一公里” 落地難的困境。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 1.0 是將視覺理解與視覺生成進行超級融合的多模態大模型。在理解側,Awaker 1.0 與數位世界和現實世界進行交互,在執行任務的過程中將場景行為資料反哺給模型,以實現持續更新與訓練;在生成側,Awaker 1.0 可以產生高品質的多模態內容,對現實世界進行模擬,為理解側模型提供更多的訓練資料。

尤其重要的是,因為具備「真正」的自主更新能力,Awaker 1.0 適用於更廣泛的行業場景,能夠解決更複雜的實際任務,例如AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 的MOE 基座模型

在理解側,Awaker 1.0 的基座模型主要解決了多模態多任務預訓練存在嚴重衝突的問題。受惠於精心設計的多工 MOE 架構,Awaker 1.0 的基座模型既能繼承智子引擎前代多模態大模型 ChatImg 的基礎能力,還能學習各個多模態任務所需的獨特能力。相對於前代多模態大模型 ChatImg,Awaker 1.0 的基座模型能力在多個任務上都有了大幅提升。

鑑於主流的多模態評測榜單存在評測資料外洩的問題,我們採取嚴格的標準來建構自有的評測集,其中大部分的測驗圖片來自個人的手機相簿。在這多模態評測集上,我們對 Awaker 1.0 和國內外最先進的三個多模態大模型進行公平的人工評測,詳細的評測結果如下表所示。注意到 GPT-4V 和 Intern-VL 並不直接支援檢測任務,它們的檢測結果是透過要求模型使用語言描述物體方位得到的。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們發現,Awaker 1.0 的基座模型在視覺問答和業務應用任務上超過了GPT-4V、Qwen-VL-Max 和Intern-VL,同時它在描述、推理和檢測任務上也達到了次好的效果。整體而言,Awaker 1.0 的平均分數超過國內外最先進的三個模型,驗證了多任務 MOE 架構的有效性。以下是幾個具體的比較分析範例。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從這些對比例子可以看到,在計數和 OCR 問題上,Awaker 1.0 能正確地給出答案,而其它三個模型都回答錯誤(或部分錯誤)。在詳細描述任務上,Qwen-VL-Max 比較容易出現幻覺,Intern-VL 能夠準確地描述圖片的內容但在某些細節上不夠準確和具體。 GPT-4V 與 Awaker 1.0 不僅能詳細描述圖片的內容,而且能夠準確地辨識出圖片中的細節,如圖中所呈現的可口可樂。

Awaker 具身智能:邁向AGI

多模態大模型與具身智慧的結合是非常自然的,因為多模態大模型所具有的視覺理解能力可以天然與具身智慧的攝影機結合。在人工智慧領域,「多模態大模型 具身智能」 甚至被認為是實現通用人工智慧(AGI)的可行路徑。

一方面,人們期望具身智能擁有適應性,即智能體能夠透過持續學習來適應不斷變化的應用環境,既能在已知多模態任務上越做越好,也能快速適應未知的多模態任務。

另一方面,人們也期望具身智慧具有真正的創造性,希望它透過對環境的自主探索,能夠發現新的策略和解決方案,並探索人工智慧的能力邊界。透過將多模態大模型用作具身智能的 “大腦”,我們有可能大幅地提升具身智能的適應性和創造性,從而最終接近 AGI 的門檻(甚至實現 AGI)。

但是,現有的多模態大模型都存在兩個明顯的問題:一是模型的迭代更新周期長,需要大量的人力和財力投入;二是模型的訓練數據都源自於現有的數據,模型無法持續獲得大量的新知識。雖然透過 RAG 和長上下文的方式也可以注入持續出現的新知識,但是多模態大模型本身並沒有學習到這些新知識,同時這兩種補救方式還會帶來額外的問題。

總之,目前的多模態大模型在實際應用場景中均不具備很強的適應性,更不具備創造性,導致在產業落地時總是出現各種各樣的困難。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

智子引擎此次發布的Awaker 1.0,是世界上首個具有自主更新機制的多模態大模型,可以用作具身智能的“大腦” 。 Awaker 1.0 的自主更新機制,包含三大關​​鍵技術:資料主動產生、模型反思評估、模型連續更新。

區別於所有其它多模態大模型,Awaker 1.0 是 「活」 的,它的參數可以即時持續地更新。

從上方的框架圖中可以看出,Awaker 1.0 能夠與各種智慧型裝置結合,透過智慧型裝置觀察世界,產生動作意圖,並自動建構指令控制智慧型設備完成各種動作。智慧型裝置在完成各種動作後會自動產生各種回饋,Awaker 1.0 能夠從這些動作和回饋中獲得有效的訓練資料進行持續的自我更新,不斷強化模型的各種能力。

以新知識注入為例,Awaker 1.0 能夠不斷地在互聯網上學習最新的新聞信息,並結合新學習到的新聞信息回答各種複雜問題。不同於 RAG 和長上下文的傳統方式,Awaker 1.0 能真正學到新知識並 “記憶” 在模型的參數上。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從上述例子可以看到,在連續三天的自我更新中,Awaker 1.0 每天都能學習當天的新聞信息,並在回答問題時準確地說出對應信息。同時,Awaker 1.0 在連續學習的過程中並不會遺忘學過的知識,例如智界 S7 的知識在 2 天後仍然被 Awaker 1.0 記住或理解。

Awaker 1.0 也能夠與各種智慧型裝置結合,實現雲端協同。 Awaker 1.0 作為 「大腦」 部署在雲端,控制各種邊端智慧型裝置執行各項任務。邊端智慧型裝置執行各項任務時獲得的回饋又會源源不絕地傳回給 Awaker 1.0,讓它持續獲得訓練數據,不斷進行自我更新。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
上述雲邊協同的技術路線已經應用在電網智慧巡檢、智慧城市等應用場景中,取得了遠遠好於傳統小模型的識別效果,並獲得了行業客戶的高度認可。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

現實世界的模擬器:VDT

Awaker 1.0 的生成側,是智子引擎自主研發的類Sora 影片產生底座VDT,可以用作現實世界的模擬器。 VDT 的研究成果於 2023 年 5 月發佈在 arXiv 網站,比 OpenAI 發布 Sora 提早 10 個月。 VDT 的學術論文已經被國際頂尖人工智慧會議 ICLR 2024 接收。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

影片產生底座VDT 的創新之處,主要包含以下幾個面向:

  • ##將Transformer 技術應用於基於擴散的視訊生成,展現了Transformer 在視訊生成領域的巨大潛力。 VDT 的優勢在於其出色的時間依賴性擷取能力,能夠產生時間上連貫的視訊幀,包括模擬三維物件隨時間的物理動態。
  • 提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視訊生成任務,實現了該技術的廣泛應用。 VDT 靈活的條件資訊處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模態的資訊。同時,透過與時空掩碼建模機制結合,VDT 成為了一個通用的視訊擴散工具,在不修改模型結構的情況下可以應用於無條件生成、視訊後續幀預測、插幀、圖生視訊、視訊畫面補全等多種視訊生成任務。

我們重點探討了 VDT 對簡單物理規律的模擬,在 Physion 資料集上對 VDT 進行訓練。在下面的範例中,我們發現 VDT 成功模擬了物理過程,如小球沿著拋物線軌跡運動和小球在平面上滾動並與其他物體碰撞等。同時也能從第 2 行第 2 個例子中看出 VDT 捕捉到了球的速度和動量規律,因為小球最終由於衝擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構可以學習到一定的物理規律。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們還在寫真影片生成任務上進行了深度探索。這項任務對影片產生品質的要求非常高,因為我們天然對人臉以及人物的動態變化更加敏感。鑑於該任務的特殊性,我們需要結合 VDT(或 Sora)和可控生成來應對寫真影片生成面臨的挑戰。目前智子引擎已經突破寫真影片產生的大部分關鍵技術,取得比 Sora 更好的寫真影片產生品質。智子引擎也將繼續優化人像可控生成演算法,同時也積極進行商業化探索。目前已經找到確定的商業落地場景,預計近期就打破大模型 “最後一公里” 落地難的困境。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
未來更通用的 VDT 將成為解決多模態大模型資料來源問題的得力工具。使用影片產生的方式,VDT 將能夠對現實世界進行模擬,進一步提高視覺資料生產的效率,為多模態大模型 Awaker 的自主更新提供助力。

結語

Awaker 1.0 是智子引擎團隊朝向「實現AGI」的終極目標邁進的關鍵一步。團隊認為 AI 的自我探索、自我反思等自主學習能力是智慧水準的重要評估標準,與持續增加參數規模(Scaling Law)相比是同等重要的。 Awaker 1.0 已實現「資料主動生成、模型反思評估、模型連續更新」 等關鍵技術框架,在理解側和生成側都實現了效果突破,有望加速多模態大模型行業的發展,最終讓人類實現AGI 。

以上是人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器