首頁  >  文章  >  科技週邊  >  人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

PHPz
PHPz轉載
2024-04-30 08:13:071108瀏覽
在4 月27 日舉行的中關村論壇通用人工智慧平行論壇上,人大系新創公司智子引擎隆重發布全新的多模態大模型Awaker 1.0,向AGI 邁出至關重要的一步。

相對於智子引擎前代的ChatImg 序列模型,Awaker 1.0 採用全新的MOE 架構並具備自主更新能力,是業界首個實現「真正」 自主更新的多模態大模型。

在視覺生成方面,Awaker 1.0 採用完全自研的視頻生成底座VDT,在寫真視頻生成上取得好於Sora 的效果,打破大模型“最後一公里” 落地難的困境。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 1.0 是將視覺理解與視覺生成進行超級融合的多模態大模型。在理解側,Awaker 1.0 與數位世界和現實世界進行交互,在執行任務的過程中將場景行為資料反哺給模型,以實現持續更新與訓練;在生成側,Awaker 1.0 可以產生高品質的多模態內容,對現實世界進行模擬,為理解側模型提供更多的訓練資料。

尤其重要的是,因為具備「真正」的自主更新能力,Awaker 1.0 適用於更廣泛的行業場景,能夠解決更複雜的實際任務,例如AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 的MOE 基座模型

在理解側,Awaker 1.0 的基座模型主要解決了多模態多任務預訓練存在嚴重衝突的問題。受惠於精心設計的多工 MOE 架構,Awaker 1.0 的基座模型既能繼承智子引擎前代多模態大模型 ChatImg 的基礎能力,還能學習各個多模態任務所需的獨特能力。相對於前代多模態大模型 ChatImg,Awaker 1.0 的基座模型能力在多個任務上都有了大幅提升。

鑑於主流的多模態評測榜單存在評測資料外洩的問題,我們採取嚴格的標準來建構自有的評測集,其中大部分的測驗圖片來自個人的手機相簿。在這多模態評測集上,我們對 Awaker 1.0 和國內外最先進的三個多模態大模型進行公平的人工評測,詳細的評測結果如下表所示。注意到 GPT-4V 和 Intern-VL 並不直接支援檢測任務,它們的檢測結果是透過要求模型使用語言描述物體方位得到的。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們發現,Awaker 1.0 的基座模型在視覺問答和業務應用任務上超過了GPT-4V、Qwen-VL-Max 和Intern-VL,同時它在描述、推理和檢測任務上也達到了次好的效果。整體而言,Awaker 1.0 的平均分數超過國內外最先進的三個模型,驗證了多任務 MOE 架構的有效性。以下是幾個具體的比較分析範例。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從這些對比例子可以看到,在計數和 OCR 問題上,Awaker 1.0 能正確地給出答案,而其它三個模型都回答錯誤(或部分錯誤)。在詳細描述任務上,Qwen-VL-Max 比較容易出現幻覺,Intern-VL 能夠準確地描述圖片的內容但在某些細節上不夠準確和具體。 GPT-4V 與 Awaker 1.0 不僅能詳細描述圖片的內容,而且能夠準確地辨識出圖片中的細節,如圖中所呈現的可口可樂。

Awaker 具身智能:邁向AGI

多模態大模型與具身智慧的結合是非常自然的,因為多模態大模型所具有的視覺理解能力可以天然與具身智慧的攝影機結合。在人工智慧領域,「多模態大模型 具身智能」 甚至被認為是實現通用人工智慧(AGI)的可行路徑。

一方面,人們期望具身智能擁有適應性,即智能體能夠透過持續學習來適應不斷變化的應用環境,既能在已知多模態任務上越做越好,也能快速適應未知的多模態任務。

另一方面,人們也期望具身智慧具有真正的創造性,希望它透過對環境的自主探索,能夠發現新的策略和解決方案,並探索人工智慧的能力邊界。透過將多模態大模型用作具身智能的 “大腦”,我們有可能大幅地提升具身智能的適應性和創造性,從而最終接近 AGI 的門檻(甚至實現 AGI)。

但是,現有的多模態大模型都存在兩個明顯的問題:一是模型的迭代更新周期長,需要大量的人力和財力投入;二是模型的訓練數據都源自於現有的數據,模型無法持續獲得大量的新知識。雖然透過 RAG 和長上下文的方式也可以注入持續出現的新知識,但是多模態大模型本身並沒有學習到這些新知識,同時這兩種補救方式還會帶來額外的問題。

總之,目前的多模態大模型在實際應用場景中均不具備很強的適應性,更不具備創造性,導致在產業落地時總是出現各種各樣的困難。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

智子引擎此次發布的Awaker 1.0,是世界上首個具有自主更新機制的多模態大模型,可以用作具身智能的“大腦” 。 Awaker 1.0 的自主更新機制,包含三大關​​鍵技術:資料主動產生、模型反思評估、模型連續更新。

區別於所有其它多模態大模型,Awaker 1.0 是 「活」 的,它的參數可以即時持續地更新。

從上方的框架圖中可以看出,Awaker 1.0 能夠與各種智慧型裝置結合,透過智慧型裝置觀察世界,產生動作意圖,並自動建構指令控制智慧型設備完成各種動作。智慧型裝置在完成各種動作後會自動產生各種回饋,Awaker 1.0 能夠從這些動作和回饋中獲得有效的訓練資料進行持續的自我更新,不斷強化模型的各種能力。

以新知識注入為例,Awaker 1.0 能夠不斷地在互聯網上學習最新的新聞信息,並結合新學習到的新聞信息回答各種複雜問題。不同於 RAG 和長上下文的傳統方式,Awaker 1.0 能真正學到新知識並 “記憶” 在模型的參數上。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從上述例子可以看到,在連續三天的自我更新中,Awaker 1.0 每天都能學習當天的新聞信息,並在回答問題時準確地說出對應信息。同時,Awaker 1.0 在連續學習的過程中並不會遺忘學過的知識,例如智界 S7 的知識在 2 天後仍然被 Awaker 1.0 記住或理解。

Awaker 1.0 也能夠與各種智慧型裝置結合,實現雲端協同。 Awaker 1.0 作為 「大腦」 部署在雲端,控制各種邊端智慧型裝置執行各項任務。邊端智慧型裝置執行各項任務時獲得的回饋又會源源不絕地傳回給 Awaker 1.0,讓它持續獲得訓練數據,不斷進行自我更新。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
上述雲邊協同的技術路線已經應用在電網智慧巡檢、智慧城市等應用場景中,取得了遠遠好於傳統小模型的識別效果,並獲得了行業客戶的高度認可。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

現實世界的模擬器:VDT

Awaker 1.0 的生成側,是智子引擎自主研發的類Sora 影片產生底座VDT,可以用作現實世界的模擬器。 VDT 的研究成果於 2023 年 5 月發佈在 arXiv 網站,比 OpenAI 發布 Sora 提早 10 個月。 VDT 的學術論文已經被國際頂尖人工智慧會議 ICLR 2024 接收。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

影片產生底座VDT 的創新之處,主要包含以下幾個面向:

  • ##將Transformer 技術應用於基於擴散的視訊生成,展現了Transformer 在視訊生成領域的巨大潛力。 VDT 的優勢在於其出色的時間依賴性擷取能力,能夠產生時間上連貫的視訊幀,包括模擬三維物件隨時間的物理動態。
  • 提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視訊生成任務,實現了該技術的廣泛應用。 VDT 靈活的條件資訊處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模態的資訊。同時,透過與時空掩碼建模機制結合,VDT 成為了一個通用的視訊擴散工具,在不修改模型結構的情況下可以應用於無條件生成、視訊後續幀預測、插幀、圖生視訊、視訊畫面補全等多種視訊生成任務。

我們重點探討了 VDT 對簡單物理規律的模擬,在 Physion 資料集上對 VDT 進行訓練。在下面的範例中,我們發現 VDT 成功模擬了物理過程,如小球沿著拋物線軌跡運動和小球在平面上滾動並與其他物體碰撞等。同時也能從第 2 行第 2 個例子中看出 VDT 捕捉到了球的速度和動量規律,因為小球最終由於衝擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構可以學習到一定的物理規律。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們還在寫真影片生成任務上進行了深度探索。這項任務對影片產生品質的要求非常高,因為我們天然對人臉以及人物的動態變化更加敏感。鑑於該任務的特殊性,我們需要結合 VDT(或 Sora)和可控生成來應對寫真影片生成面臨的挑戰。目前智子引擎已經突破寫真影片產生的大部分關鍵技術,取得比 Sora 更好的寫真影片產生品質。智子引擎也將繼續優化人像可控生成演算法,同時也積極進行商業化探索。目前已經找到確定的商業落地場景,預計近期就打破大模型 “最後一公里” 落地難的困境。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
未來更通用的 VDT 將成為解決多模態大模型資料來源問題的得力工具。使用影片產生的方式,VDT 將能夠對現實世界進行模擬,進一步提高視覺資料生產的效率,為多模態大模型 Awaker 的自主更新提供助力。

結語

Awaker 1.0 是智子引擎團隊朝向「實現AGI」的終極目標邁進的關鍵一步。團隊認為 AI 的自我探索、自我反思等自主學習能力是智慧水準的重要評估標準,與持續增加參數規模(Scaling Law)相比是同等重要的。 Awaker 1.0 已實現「資料主動生成、模型反思評估、模型連續更新」 等關鍵技術框架,在理解側和生成側都實現了效果突破,有望加速多模態大模型行業的發展,最終讓人類實現AGI 。

以上是人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除