搜尋
首頁科技週邊人工智慧人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

在4 月27 日舉行的中關村論壇通用人工智慧平行論壇上,人大系新創公司智子引擎隆重發布全新的多模態大模型Awaker 1.0,向AGI 邁出至關重要的一步。

相對於智子引擎前代的ChatImg 序列模型,Awaker 1.0 採用全新的MOE 架構並具備自主更新能力,是業界首個實現「真正」 自主更新的多模態大模型。

在視覺生成方面,Awaker 1.0 採用完全自研的視頻生成底座VDT,在寫真視頻生成上取得好於Sora 的效果,打破大模型“最後一公里” 落地難的困境。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 1.0 是將視覺理解與視覺生成進行超級融合的多模態大模型。在理解側,Awaker 1.0 與數位世界和現實世界進行交互,在執行任務的過程中將場景行為資料反哺給模型,以實現持續更新與訓練;在生成側,Awaker 1.0 可以產生高品質的多模態內容,對現實世界進行模擬,為理解側模型提供更多的訓練資料。

尤其重要的是,因為具備「真正」的自主更新能力,Awaker 1.0 適用於更廣泛的行業場景,能夠解決更複雜的實際任務,例如AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

Awaker 的MOE 基座模型

在理解側,Awaker 1.0 的基座模型主要解決了多模態多任務預訓練存在嚴重衝突的問題。受惠於精心設計的多工 MOE 架構,Awaker 1.0 的基座模型既能繼承智子引擎前代多模態大模型 ChatImg 的基礎能力,還能學習各個多模態任務所需的獨特能力。相對於前代多模態大模型 ChatImg,Awaker 1.0 的基座模型能力在多個任務上都有了大幅提升。

鑑於主流的多模態評測榜單存在評測資料外洩的問題,我們採取嚴格的標準來建構自有的評測集,其中大部分的測驗圖片來自個人的手機相簿。在這多模態評測集上,我們對 Awaker 1.0 和國內外最先進的三個多模態大模型進行公平的人工評測,詳細的評測結果如下表所示。注意到 GPT-4V 和 Intern-VL 並不直接支援檢測任務,它們的檢測結果是透過要求模型使用語言描述物體方位得到的。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們發現,Awaker 1.0 的基座模型在視覺問答和業務應用任務上超過了GPT-4V、Qwen-VL-Max 和Intern-VL,同時它在描述、推理和檢測任務上也達到了次好的效果。整體而言,Awaker 1.0 的平均分數超過國內外最先進的三個模型,驗證了多任務 MOE 架構的有效性。以下是幾個具體的比較分析範例。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從這些對比例子可以看到,在計數和 OCR 問題上,Awaker 1.0 能正確地給出答案,而其它三個模型都回答錯誤(或部分錯誤)。在詳細描述任務上,Qwen-VL-Max 比較容易出現幻覺,Intern-VL 能夠準確地描述圖片的內容但在某些細節上不夠準確和具體。 GPT-4V 與 Awaker 1.0 不僅能詳細描述圖片的內容,而且能夠準確地辨識出圖片中的細節,如圖中所呈現的可口可樂。

Awaker 具身智能:邁向AGI

多模態大模型與具身智慧的結合是非常自然的,因為多模態大模型所具有的視覺理解能力可以天然與具身智慧的攝影機結合。在人工智慧領域,「多模態大模型 具身智能」 甚至被認為是實現通用人工智慧(AGI)的可行路徑。

一方面,人們期望具身智能擁有適應性,即智能體能夠透過持續學習來適應不斷變化的應用環境,既能在已知多模態任務上越做越好,也能快速適應未知的多模態任務。

另一方面,人們也期望具身智慧具有真正的創造性,希望它透過對環境的自主探索,能夠發現新的策略和解決方案,並探索人工智慧的能力邊界。透過將多模態大模型用作具身智能的 “大腦”,我們有可能大幅地提升具身智能的適應性和創造性,從而最終接近 AGI 的門檻(甚至實現 AGI)。

但是,現有的多模態大模型都存在兩個明顯的問題:一是模型的迭代更新周期長,需要大量的人力和財力投入;二是模型的訓練數據都源自於現有的數據,模型無法持續獲得大量的新知識。雖然透過 RAG 和長上下文的方式也可以注入持續出現的新知識,但是多模態大模型本身並沒有學習到這些新知識,同時這兩種補救方式還會帶來額外的問題。

總之,目前的多模態大模型在實際應用場景中均不具備很強的適應性,更不具備創造性,導致在產業落地時總是出現各種各樣的困難。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

智子引擎此次發布的Awaker 1.0,是世界上首個具有自主更新機制的多模態大模型,可以用作具身智能的“大腦” 。 Awaker 1.0 的自主更新機制,包含三大關​​鍵技術:資料主動產生、模型反思評估、模型連續更新。

區別於所有其它多模態大模型,Awaker 1.0 是 「活」 的,它的參數可以即時持續地更新。

從上方的框架圖中可以看出,Awaker 1.0 能夠與各種智慧型裝置結合,透過智慧型裝置觀察世界,產生動作意圖,並自動建構指令控制智慧型設備完成各種動作。智慧型裝置在完成各種動作後會自動產生各種回饋,Awaker 1.0 能夠從這些動作和回饋中獲得有效的訓練資料進行持續的自我更新,不斷強化模型的各種能力。

以新知識注入為例,Awaker 1.0 能夠不斷地在互聯網上學習最新的新聞信息,並結合新學習到的新聞信息回答各種複雜問題。不同於 RAG 和長上下文的傳統方式,Awaker 1.0 能真正學到新知識並 “記憶” 在模型的參數上。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

從上述例子可以看到,在連續三天的自我更新中,Awaker 1.0 每天都能學習當天的新聞信息,並在回答問題時準確地說出對應信息。同時,Awaker 1.0 在連續學習的過程中並不會遺忘學過的知識,例如智界 S7 的知識在 2 天後仍然被 Awaker 1.0 記住或理解。

Awaker 1.0 也能夠與各種智慧型裝置結合,實現雲端協同。 Awaker 1.0 作為 「大腦」 部署在雲端,控制各種邊端智慧型裝置執行各項任務。邊端智慧型裝置執行各項任務時獲得的回饋又會源源不絕地傳回給 Awaker 1.0,讓它持續獲得訓練數據,不斷進行自我更新。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
上述雲邊協同的技術路線已經應用在電網智慧巡檢、智慧城市等應用場景中,取得了遠遠好於傳統小模型的識別效果,並獲得了行業客戶的高度認可。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

現實世界的模擬器:VDT

Awaker 1.0 的生成側,是智子引擎自主研發的類Sora 影片產生底座VDT,可以用作現實世界的模擬器。 VDT 的研究成果於 2023 年 5 月發佈在 arXiv 網站,比 OpenAI 發布 Sora 提早 10 個月。 VDT 的學術論文已經被國際頂尖人工智慧會議 ICLR 2024 接收。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

影片產生底座VDT 的創新之處,主要包含以下幾個面向:

  • ##將Transformer 技術應用於基於擴散的視訊生成,展現了Transformer 在視訊生成領域的巨大潛力。 VDT 的優勢在於其出色的時間依賴性擷取能力,能夠產生時間上連貫的視訊幀,包括模擬三維物件隨時間的物理動態。
  • 提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視訊生成任務,實現了該技術的廣泛應用。 VDT 靈活的條件資訊處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模態的資訊。同時,透過與時空掩碼建模機制結合,VDT 成為了一個通用的視訊擴散工具,在不修改模型結構的情況下可以應用於無條件生成、視訊後續幀預測、插幀、圖生視訊、視訊畫面補全等多種視訊生成任務。

我們重點探討了 VDT 對簡單物理規律的模擬,在 Physion 資料集上對 VDT 進行訓練。在下面的範例中,我們發現 VDT 成功模擬了物理過程,如小球沿著拋物線軌跡運動和小球在平面上滾動並與其他物體碰撞等。同時也能從第 2 行第 2 個例子中看出 VDT 捕捉到了球的速度和動量規律,因為小球最終由於衝擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構可以學習到一定的物理規律。

人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora

我們還在寫真影片生成任務上進行了深度探索。這項任務對影片產生品質的要求非常高,因為我們天然對人臉以及人物的動態變化更加敏感。鑑於該任務的特殊性,我們需要結合 VDT(或 Sora)和可控生成來應對寫真影片生成面臨的挑戰。目前智子引擎已經突破寫真影片產生的大部分關鍵技術,取得比 Sora 更好的寫真影片產生品質。智子引擎也將繼續優化人像可控生成演算法,同時也積極進行商業化探索。目前已經找到確定的商業落地場景,預計近期就打破大模型 “最後一公里” 落地難的困境。 人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora
未來更通用的 VDT 將成為解決多模態大模型資料來源問題的得力工具。使用影片產生的方式,VDT 將能夠對現實世界進行模擬,進一步提高視覺資料生產的效率,為多模態大模型 Awaker 的自主更新提供助力。

結語

Awaker 1.0 是智子引擎團隊朝向「實現AGI」的終極目標邁進的關鍵一步。團隊認為 AI 的自我探索、自我反思等自主學習能力是智慧水準的重要評估標準,與持續增加參數規模(Scaling Law)相比是同等重要的。 Awaker 1.0 已實現「資料主動生成、模型反思評估、模型連續更新」 等關鍵技術框架,在理解側和生成側都實現了效果突破,有望加速多模態大模型行業的發展,最終讓人類實現AGI 。

以上是人大系多模態模型邁向AGI:首次實現自主更新,寫真影片產生力壓Sora的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。