Sora之後,居然還有新的AI影片模型,能驚艷得大家狂轉狂贊!
圖片
有了它,《狂飆》大反派高啟強化身羅翔,都能給大夥兒普法啦(狗頭)。
這就是阿里最新推出的基於音訊驅動的肖像視訊生成框架,EMO(Emote Portrait Alive)。
有了它,輸入單張參考影像,以及一段音訊(說話、唱歌、RAP皆可),就能產生表情生動的AI影片。視訊最終長度,取決於輸入音訊的長度。
你可以讓蒙娜麗莎-這位AI屆效果體驗的老選手,朗誦一段獨白:
年輕俊美的小李子來段快節奏的RAP才藝秀,嘴形跟上完全沒問題:
#甚至粵語口型也能hold住,這就讓哥哥張國榮來首陳奕迅的《無條件》:
總之,不管是讓肖像唱歌(不同風格的肖像和歌曲)、讓肖像開口說話(不同語種)、還是各種「張冠李戴」的跨演員表演,EMO的效果,都讓咱看得一愣的。
網友大感嘆:「我們正走進一個新的現實!」
2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的台詞
甚至已經有網友開始對EMO產生影片開始了拉片,逐幀分析效果究竟怎麼樣。
如下面這段視頻,主角是Sora生成的AI女士,本次為大家演唱的曲目是《Don’t Start Now》。
推友分析:
這段影片的一致性,比以往更上一層樓了!
一分多鐘的影片裡,Sora女士臉上的墨鏡幾乎沒有亂動,耳朵、眉毛都有獨立的運動。
最精彩的是Sora女士的喉嚨好像真的有呼吸哎!她唱歌的過程中身體還有微顫和移動,我直接震驚!
圖片
話說回來,EMO是熱門新技術嘛,免不了拿來與同類對比——
就在昨天,AI視頻生成公司Pika也推出了為視頻人物配音,同時“對口型”的唇形同步功能,撞車了。
具體效果怎麼樣呢,我們直接擺在這裡
評論區網友對比過後得出的結論是,被阿里吊打了。
圖片
EMO公佈論文,同時宣告開源。
但是!雖說開源,GitHub上仍然是空倉。
再但是!雖然是空倉,標星數已經超過2.1k了。
圖片
惹得網友們真的好著急,有吉吉王那麼急。
與Sora不同架構
EMO論文一出,圈內不少人鬆了一口氣。
它與Sora技術路線不同,說明復刻Sora不是唯一的路。
EMO並不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去取代傳統UNet,其骨幹網路魔改自Stable Diffusion 1.5。
具體來說,EMO是一種富有表現力的音訊驅動的肖像視訊生成框架,可以根據輸入視訊的長度生成任何持續時間的視訊。
圖片
此框架主要由兩個階段構成:
- ##影格編碼階段
- 擴散階段
- 可以根據輸入音頻生成任意持續時間的視頻,同時保證角色身份一致性(演示中給出的最長單個視頻為1分49秒)。
- 支援各種語言的交談與唱歌(演示中包括普通話、廣東話、英語、日語、韓語)
- 支援不同畫風(照片、傳統繪畫、漫畫、3D渲染、 AI數字人)
圖片
圖片
圖片
圖片
圖片
圖片
圖片
圖片
如果現在把所有這些技術結合起來,那效果…
不敢想,但好期待。
圖片
總之,我們離「發給AI一個劇本,輸出整部電影」越來越近了。
圖片
One More Thing
#Sora,代表文字驅動的影片合成的斷崖式突破。
EMO,也代表音訊驅動的視訊合成一個新高度。
兩者儘管任務不同、具體架構不同,但還有一個重要的共通性:
中間都沒有加入顯式的物理模型,卻都在一定程度上模擬了物理規律。
因此有人認為,這與Lecun堅持的「透過生成像素來為動作建模世界是浪費且注定要失敗的」觀點相悖,更支持了Jim Fan的「數據驅動的世界模型」思想。
圖片
過去種種方法失敗了,而現在的成功,可能真就來自還是強化學習之父Sutton的《苦澀的教訓》,大力出奇蹟。
讓AI能夠像人們一樣去發現,而不是包含人們發現的內容
#突破性的進展最終透過擴大計算規模來實現
#論文:https://www.php.cn/link/a717f41c203cb970f96f706e4b12617bGitHub:#https://www.php.cn/link/e43a09ffc30b44cb1f026fcn/link/e43a09ffc30b44cb1f026fcn/link/e46f878##連結:[1]
https://www.php.cn/link/0dd4f2526c7c874d06f19523264f6552以上是AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP的詳細內容。更多資訊請關注PHP中文網其他相關文章!

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)