阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 pm 12:39 PM

專案promptt2v

阿里巴巴又一篇名為「舞蹈整活兒」的論文在AnimateAnyone之後引起了轟動

現在，只要上傳一張臉部照片並簡單描述一句話，就可以在任何地方跳舞啦！

例如下面這段《擦玻璃》的舞蹈影片：

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

您需要做的就是上傳一張人像照片，以及填寫相應的提示信息

在秋天的金色樹葉中，一個女孩穿著淺藍色的連衣裙微笑著跳舞

隨著提示的變化，人物的背景和衣服也會相應地改變。例如，我們可以再換幾句話：

一個女孩在木屋裡微笑著跳舞，她穿著毛衣和長褲

一個女孩，微笑著，在時代廣場跳舞，穿著洋裝般的白襯衫，長袖，長褲。

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

這就是阿里最新的研究－DreaMoving，主打的就是讓任何人、隨時且隨地地跳舞。

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

而且不只真人，連卡通動畫人物也都是可以hold住的~

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！ #圖片

專案一出，也是引發了不少網友的關注，有人在看過效果之後直呼「Unbelievable」~

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

那麼這個結果是如何實現的呢？這項研究是如何進行的呢？

背後原理

雖然像是穩定視訊傳播（Stable Video Diffusion）和Gen2等文字到視訊（text-to-video，T2V）模型的問世，已經在視訊生成領域取得了重大突破，但目前仍面臨著許多挑戰

例如，在數據集方面，目前缺乏開源的人類舞蹈視頻數據集以及難以獲得相應的精確文本描述，這就使得讓模型們去生成多樣化性、幀一致性、時長更長的影片成為挑戰

並且在以人為中心的內容生成領域，生成結果的個人化和可控性也是關鍵因素。

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

為了回應這兩個挑戰，阿里團隊首先開始處理資料集

研究者們首先從網路收集了約1000個優質的人類舞蹈影片。然後，他們將這些影片切割成約6000個短影片（每個影片8至10秒），以確保影片片段中沒有轉場和特效，有利於時間模型的訓練

此外，為了生成影片的文字描述，他們使用了Minigpt-v2作為視訊字幕器（video captioner），特別採用了「grounding」版本，指令是詳細描述這個畫面。

透過基於關鍵影格中心影格所產生的字幕，可以精確地描述影片片段的主題與背景內容

在框架方面，阿里團隊則是提出了一個名叫DreaMoving、基於Stable Diffusion的模型。

它主要由三個神經網路來構成，包括去噪U-Net（Denoising U-Net）、視訊控制網路（Video ControlNet）和內容引導器（Content Guider）。

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

其中，Video ControlNet是在每個U-Net區塊之後注入Motion Block的影像控製網絡，將控制序列（姿態或深度）處理為額外的時間殘差

Denoising U-Net是一種衍生的Stable-Diffusion U-Net，帶有用於視訊生成的運動塊。

而Content Guider則是將輸入文字提示和外觀表情（如人臉）傳送到內容嵌入。

透過這樣的操作，DreaMoving能夠在輸入給定的引導序列和簡單的內容描述（例如文字和參考圖像）的情況下產生高品質、高保真度的影片

阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！圖片

不過很可惜的一點是，目前DreaMoving專案並沒有開源程式碼。

對於對此感興趣的伙伴，可以先關註一下，等待代碼開源的發布~

請參考以下連結：[1]https://dreamoving.github.io/dreamoving /[2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

以上是阿里再次創新：透過一句話和人臉即可實現《擦玻璃》舞蹈，服裝背景自由切換！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

加固芬特的指南 - 分析Vidhya

加固芬特的指南 - 分析VidhyaApr 28, 2025 am 09:30 AM

增強者通過教授模型根據人類反饋進行調整來震撼AI的開發。它將監督的學習基金會與基於獎勵的更新融合在一起，使其更安全，更準確，真正地幫助

讓我們跳舞：結構化運動以微調我們的人類神經網

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析Vidhya

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務？ - 分析Vidhya

如何將Google Gemini模型用於計算機視覺任務？ - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺：綜合指南領先的AI聊天機器人Google Gemini擴展了其功能，超越了對話，以涵蓋強大的計算機視覺功能。本指南詳細說明瞭如何利用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

刺客信條陰影：貝殼謎語解決方案

1 個月前ByDDD

Windows 11 KB5054979中的新功能以及如何解決更新問題

3 週前ByDDD

在哪裡可以找到原子中的起重機控制鑰匙卡

1 個月前ByDDD

如何修復KB5055523無法在Windows 11中安裝？

2 週前ByDDD

Inzoi：如何申請學校和大學

3 週前ByDDD

熱工具

mPDF

mPDF

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

熱門話題

gmail信箱登陸入口在哪裡

7777

15

1644

14

1399

52

1296

25

1234

29