清華系新創公司發布全球首個4D骨骼動畫框架，實現一鍵將實景轉化為動畫，並且能夠產生個人化角色-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

清華系新創公司發布全球首個4D骨骼動畫框架，實現一鍵將實景轉化為動畫，並且能夠產生個人化角色

PHPz

Jan 19, 2024 pm 12:39 PM

產業

蘋果最近宣布將於2月2日推出首款虛擬頭顯設備Vision Pro，預計這款XR設備將引領下一代終端的快速發展。隨著虛擬顯示設備的普及，數位互動將從平面走向立體，立體模型和立體動畫將成為未來主流的內容形式。多維沉浸式互動在虛實融合的趨勢下也將成為潮流。

但從資料規模來看，現階段內容產業的資料累積仍以 2D 影像、平面視訊為主，3D 模型、4D 動畫等資料基礎較為薄弱。其中，4D 動畫是在傳統3D 模型的基礎上引入時間序列，即隨時間變化的3D 模型，可以呈現出動態立體效果，在遊戲動畫、電影特效、虛擬實境等領域具有廣泛的應用，但也是目前內容生態開發中最困難的環節。

因此，面對即將到來的多維沉浸式體驗，建構建構體化的數位內容將成為重要的基礎工作。

面向此前沿領域，清華系創業團隊生數科技進行了系列研究和產品研發，於近期聯合清華大學、同濟大學等高校推出全球首個基於「骨骼動畫」的4D動畫生成框架「AnimatableDreamer」，能夠直接將2D 影片素材一鍵轉成動態立體模型（即4D 動畫），支援自動提取骨骼動作、一鍵轉換動畫效果並可透過文字輸入進行個人化角色生成。

清華系新創公司發布全球首個4D骨骼動畫框架，實現一鍵將實景轉化為動畫，並且能夠產生個人化角色

論文網址：https://arxiv.org/pdf/2312.03795.pdf
項目網址：https://animatabledreamer.github.io/
論文標題：AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

#大家可以看以下Demo影片。

清華系新創公司發布全球首個4D骨骼動畫框架，實現一鍵將實景轉化為動畫，並且能夠產生個人化角色

全新內容生產方式

#顛覆立體動畫開發流程

過往業界製作立體動畫，需要經過3D 建模、貼圖渲染、骨骼綁定、動畫製作等複雜流程，需要建模師、動畫師等專業人員參與才能完成，效率低、成本高。根據統計，單一靜態 3D 模型建模的生產週期就在數小時到幾天時間，成本可高達上千美元，再進行動態化處理成本投入將更高。

從官方發布的demo 視頻可以看到，上傳一段松鼠的2D 實景視頻，通過輸入“A squirrel with red sweater”（穿紅色毛衣的松鼠）的文本描述，原本實景的松鼠一鍵轉換成動畫風格，而且完美保留了動作姿勢，同步還可產生360 度視角下的立體動態模型，透過切換文字描述，可以自訂角色，將松鼠任意切換為狐狸、傑尼龜等不同的卡通形象。

「AnimatableDreamer」可自動擷取影片中目標物件（人物、動物等）的骨骼動作，再透過文字描述將該物件轉換為任意的帶骨動畫模型。整個過程不受模版限制，支援任意視訊長度和任意類型動作，具備高度的時間一致性和多視角一致性，並且導出的動態立體模型，能夠在任意 3D 環境中進行渲染。

面向影視動漫等領域的後製，通常需要針對動畫做更多編輯，“AnimatableDreamer”也支持針對已經完成骨骼綁定的模型進行更換或編輯動畫文件，實現更高的自由度。未來相關技術逐漸落地後，遊戲開發、影視動畫等場景的 3D 建模、動畫製作流程，有望變得更有效率。

面向未來

有望形成全新的內容生態

在實現原則上，研究團隊創新地提出了規格得分蒸餾策略（Canonical Score Distillation，簡稱CSD），在隨時間變化的相機空間中對不同幀及不同視角的3D 模型進行渲染及降噪，並統一將梯度回傳至不同相機空間共享的規格空間中進行蒸餾，將4D 生成降維至3D，即將4D 生成問題簡化為3D 空間上的生成。

「AnimatableDreamer」能直接從影片中提取關節動作，透過解耦物體的模型與運動，生成的模型具備高度的時間一致性和幾何合理性，不受視頻長度限制，而且能有效地消除如形狀斷裂、閃爍和多視角不一致等問題。

在有限視角和大幅度運動的場景中，由於引入了Diffusion 模型的先驗知識，即便輸入的視頻未覆蓋完整物體，“AnimatableDreamer”也能自動補全畫面信息，實現較好的生成質量。

可以說，「AnimatableDreamer」的提出直接打通文字到4D 骨骼動畫的生成，建模、貼圖、骨骼綁定、動作驅動一氣呵成！輸入自然語言描述，自動輸出立體動畫視頻，無需專業知識，普通人也能直接上手，輕鬆自訂動畫內容。

以「AnimatableDreamer」為基礎的工作將大大降低3D、4D 數位內容的生產難度，將互動體驗豐富化，讓每個人都能進行創意內容的生成和編輯，將催生出3D 時代下全新的內容娛樂與內容消費模式。

暢想一下，在未來的虛擬世界中，使用者可以快速建立自訂的數位空間，打造個人化的互動體驗。例如：

數字空間下的每個人物可以任意個人化的生成，例如給小朋友穿上超人的衣服、萬聖節隨意切換節日主題服裝等；
養寵物的使用者可以將自家寵物卡通化，例如將其產生虛擬的米老鼠形象。寵物日常就如卡通片一樣，主人跟寵物的日常互動將變得趣味橫生；
人與人的互動方式也變得更豐富，隨時隨地可以來上一場主題派對，即時產生想要的派對環境、人物裝扮等等。

作為一家成立不到一年的新創公司，生數科技團隊長期致力於圖像、3D、視訊等多模態大模型領域，在9 月發布了3D 資產創建工具VoxCraft，在Discord 正式上線，支援文圖引導、分鐘級創建3D 模型、3D 貼圖自訂更換等功能，賦能遊戲開發、影視動畫等場景的3D 建模流程。此次推出的 4D 骨骼動畫生成是生數科技的另一項全新探索工作，未來將在 VoxCraft 的產品中進行整合。

VoxCraft 工具地址：https://voxcraft.ai/

蘋果Vision Pro 的來臨不僅是硬體設備層面的重要革新，同時也將開啟一場內容和體驗革命的序幕。 4D 動畫生成等生成式 AI 的創新能力，除了帶來更好的視覺呈現，還將以全新方式開啟多維數位體驗，為下一代人機互動帶來更多可能。

以上是清華系新創公司發布全球首個4D骨骼動畫框架，實現一鍵將實景轉化為動畫，並且能夠產生個人化角色的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年