搜尋
首頁科技週邊人工智慧數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

打開一個數字人,裡面全是生成式 AI。

9月23日晚上,杭州亞運會的開幕式上,點燃主火炬的環節展現了上億線上數字火炬手的「小火苗」聚集在錢塘江上,形成了一個數字人形象。接著,數位人火炬手和現場的第六棒火炬手一同走到火炬台前,共同點燃了主火炬

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

作為開幕式的核心創意,數實互聯的火炬點燃形式衝上了熱搜,引發了人們的重點。 重寫後的內容:作為開幕式的核心創意,數實互聯的火炬點燃方式引起了熱議,吸引了人們的關注

數字人點火是一個前所未有的創舉,上億人參與其中,涉及了大量先進且複雜的技術。其中最重要的問題之一是如何讓數位人「動起來」。可以明顯看出,隨著生成式人工智慧和大型模式的快速發展,數位人研究也出現了更多新的變化

在即將舉行的全球電腦視覺頂會ICCV 2023 上,我們關注到一篇生成3D 數位人運動研究被大會收錄。相關論文題目為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學、螞蟻集團共同發布。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

根據介紹,這項研究在一定程度上解決了數位人遠距離合成複雜運動的問題,能夠實現原始模型或路徑規劃無法實現的效果。數位人驅動相關的技術也被應用於亞運會的1億數位人線上傳遞

生成式AI 驅動,讓數位人動起來

很多時候,我們需要在給定的3D 場景中合成3D 人體運動,使虛擬人能夠自然地在場景中漫步並與物體交互,這種效果在AR/VR、電影製作和視頻遊戲中都存在多種應用。

在這裡,傳統的角色控制運動生成方法旨在由使用者的控制訊號引導生成短期或重複的運動,新研究則專注於在給定起始位置和目標物件模型的情況下生成更長時間的人機互動內容。

這種想法雖然效果更好,但顯然挑戰更大。首先,人與物體的互動應該是連貫的,這需要對人與物體之間的遠端互動進行建模的能力。其次,在內容生成的背景下,生成模型應該能夠合成大小不同的運動,因為真人存在多種接近目標物並與之互動的方式。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技
圖 1. 人與物件互動形象的生成。給定一個對象,新方法首先預測一組里程碑(milestone)事件,其中環表示位置,粉紅色衣服的人代表原始姿勢。演算法在里程碑之間填滿動作。此圖顯示新方法使用相同物件產生不同的里程碑和動作。時間的流動以顏色代碼顯示,越深的藍色表示越往後的畫面。  

在產生數字人動作的方法上,現有的合成方法大致可分為線上產生和離線產生。大多數線上方法側重於角色的即時控制。給定一個目標對象,他們通常使用自回歸模型透過回饋預測來循環生成未來的運動。儘管這種方法已廣泛用於視頻遊戲等互動場景,但其品質對於長期生成來說還難以令人滿意。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

為了提高運動質量,近期的一些離線方法開始採用多層框架,首先產生軌跡,然後合成運動。儘管這種策略能夠產生合理的路徑,但路徑的多樣性是有限的

在這項新研究中,作者提出了一種全新的離線方法,用於綜合長期且多樣化的人與物體之間的互動。此方法的創新之處在於採用了分層生成策略。首先,該策略會預測一系列的里程碑,然後再產生這些里程碑之間的人體動作

具體來說,給定起始位置和目標對象,作者設計了一個里程碑生成模組來合成沿著運動軌蹟的一組節點,每個里程碑對局部姿勢進行編碼並指示人體運動過程中的過渡點。基於這些里程碑,演算法採用運動生成模組來產生完整的運動序列。由於這些里程碑的存在,我們可以將長序列的生成簡化為合成幾個短運動序列。

每個里程碑的局部姿態是由考慮全局依賴性的transformer 模型產生的,以產生時間一致的結果,從而進一步促進相干運動

除了分層生成框架之外,研究人員也進一步利用擴散模型來合成人與物體的交互作用。先前的一些運動合成擴散模型結合了 transformer 和去噪擴散機率模型(DDPM)。

值得一提的是,由於運動序列較長,直接將它們應用到新設定中需要大量的計算,可能導致 GPU 記憶體爆炸。由於新的分層生成框架將長期生成轉換為多個短序列的合成,因此所需的 GPU 記憶體減少到了與短期運動生成相同的水平。

因此,研究人員可以有效地使用Transformer DDPM來合成長期運動序列,從而提高生成品質

為了達到這個目的,研究人員設計了一個分層生成框架,如下圖所示

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

首先,他們使用GoalNet來預測物件上的互動目標,然後產生目標姿態來明確建模人與物件的交互作用。接下來,他們使用里程碑生成模組來估計里程碑的長度,從而產生從起點到目標的里程碑軌跡,並放置里程碑姿態

這樣一來,長距離運動生成就被分解為多個短距離運動生成的組合。最後,作者設計了一個運動生成模組,用於合成里程碑之間的軌跡並填充動作。

人工智慧(AI)的姿態生成

研究者將人與物體互動並保持靜止的姿態稱為目標姿態。先前,大多數方法使用 cVAE 模型產生人體姿態,但研究者發現該方法在自己的研究中表現不佳。

為了回應這個挑戰,他們採用了VQ-VAE模型來對資料分佈進行建模。此模型利用離散表示將資料聚類在有限的點集中。此外,根據觀察,不同的人體姿態可能具有相似的屬性。例如,當人坐下時,手的動作可能不同,但腿部位置可能相同。因此,他們將關節分為L(L = 5)個不同的非重疊組

根據圖3所示,目標姿勢被劃分為獨立的關節組

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

根據起始姿態和目標姿態,我們可以讓演算法產生里程碑軌跡,並合成里程碑處的局部姿勢。由於運動資料的長度是未知的,而且可以是任意的(例如,人們可能快速走向椅子並坐下,也可能繞著椅子慢慢走一圈後坐下),因此需要預測里程碑的長度,用N 表示。然後,合成 N 個里程碑點,並在這些點上放置局部姿態。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

最後是動作生成,研究者用到的方法不是逐幀預測動作,而是根據生成的里程碑分層合成整個序列。他們首先生成軌跡,然後合成動作。具體來說,在兩個連續的里程碑內,他們首先完成軌跡。然後,在連續里程碑姿態的引導下填充運動。這兩個步驟分別使用兩個 Transformer DDPM 完成。

研究者會為每個步驟精心設計DDPM的條件,以產生目標輸出

#重寫的內容是:領先其他產品的效果

#研究人員在SAMP 資料集上比較了不同方法的結果。可以看到,論文所提方法具有較低的 FD、更高的使用者研究分數和更高的 APD。此外,他們的方法實現了比 SAMP 更高的軌跡多樣性。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

這種新方法可以在複雜的場景中產生令人滿意的結果。此方法產生的穿透幀的百分比為3.8%,SAMP為4.9%

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

#在SAMP、COUCH等資料集上,研究中提到的方法都取得了比基準方法更好的結果

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

完成全連結佈局

數字人是將語音、語意、視覺等多模態技術融合在一起的綜合體。在最近生成式AI 取得突破的同時,數位人領域正在經歷跨越式的發展,以前需要手工製作的建模、生成交互、渲染等環節正在全面實現人工智能化

隨著工程師不斷優化,這項技術在行動端的體驗也在變得更好,剛結束的亞運火炬線上傳遞活動就是個很好的例子:想要成為火炬手,我們只需要點開支付寶App 的小程式。

據說,為確保開幕式專案順暢進行,螞蟻集團的工程師們針對上百款不同型號的手機進行了超過10 萬次測試,敲下了20 多萬行程式碼,並通過自研Web3D 互動引擎Galacean、AI 數位人、雲端服務、區塊鏈等多種技術結合,保證了人人都可以成為數位火炬手,參與火炬傳遞。亞運數位火炬手平台,能做到億級用戶規模覆蓋,並支援 97% 的常見智慧型手機設備。

為了讓數位火炬手們能夠真實參與,螞蟻的技術團隊開發了58個捏臉控制器。透過使用人臉辨識和AI演算法,他們可以根據每個人的臉部特徵繪製數位火炬手的臉部形象。同時,使用者還可以自由調整臉型、髮型、鼻子、嘴巴、眉毛等特徵,實現自由換裝。這項技術可以提供2兆種不同的數位形象選擇

另外,開幕式點火儀式後,每位數位火炬手都可以收到一張數位點火專屬證書,繪有每位數位火炬手獨一無二的形象,這張證書會透過分散式技術儲存在區塊鏈上。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

從研究論文內容和亞運專案不難看出,背後都有完整數位人類技術體系的支撐。據了解,螞蟻集團正積極進行數位人技術探索,並已完成數位人的全鏈路核心技術自研佈局。

與市面上多數公司不同,螞蟻集團的數位人技術自研,選擇與生成式 AI 結合的發展方向。從技術部署上,則涵蓋數位人建模、渲染、驅動、互動的全生命週期,結合 AIGC 與大模型,大幅降低了數位人全鏈路生產成本。目前可支援 2D、3D 數位人,提供了播報型、互動型等多種解決方案。

數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

根據公開資料,可以總結螞蟻數位人平台目前具備四方面技術優勢和特色:

  • 低成本建模:與清華大學合作推出亞洲人臉3D 參數化模型,基於照片重建3D 人臉,更符合亞洲人臉型特色。
  • 生成式驅動:驅動產生和動作捕捉結合,比較傳統動作製作流程有效降低成本和提升動作豐富度。
  • 高適配渲染:自研Web3D 渲染引擎Galacean,涵蓋97% 常見手機終端;在神經渲染方面搭建了動態驅動和靜態建模解耦的NeRF 框架,應用於數位人動態視訊場景。
  • 智慧化互動:基於預先訓練的音色克隆,支援分鐘級音訊輸入產生個人化數位人音色;並佈局基於大模型的數位人互動。

亞運會開幕式之前,中國信通院發布最新數位人標準符合性驗證結果,螞蟻集團靈境數位人平台,成為業界首個通過金融數位人評測的產品,獲得了最高評級「傑出級(L4)」。

而在亞運之外,螞蟻數位人平台也支持了螞蟻集團支付寶、數位金融、政務、五福等業務,並在今年開始應用於短視頻、直播、小程序等載體向合作夥伴提供基礎服務。

可以預見在不久之後,伴隨生成式 AI 加持的數位人不斷升級,我們也會在更多場景中體驗到更好的交互,真正進入數實融合的智慧生活。

以上是數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器