Sora の後に、実は新しい AI ビデオ モデルがあり、これはとても素晴らしいもので、誰もが気に入って賞賛しています。
写真
これで、「クロニクス」の悪役ガオ・チー強がルオ・シャンに変身し、みんなを教育できるようになります(犬頭)。
これは、Alibaba の最新のオーディオ主導のポートレート ビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。
これを使えば、1枚の参考画像と音声(スピーチ、歌、ラップなども可)を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力音声の長さによって異なります。
AI エフェクト体験のベテラン出場者であるモナ リザにモノローグを朗読してもらうことができます:
若くてハンサムな小さなプラムが登場します。このペースの速い RAP タレント ショーでは、口の形についていくのに問題はありませんでした。
広東語のリップシンクさえも続けることができ、弟のレスリー チャンはそれを可能にしました。イーソン・チャンの「無条件」を歌う:
#要するに、肖像画に歌わせるか(さまざまなスタイルの肖像画や歌)、肖像画にしゃべらせるか(さまざまな言語)、またはあらゆる種類の「大げさな」ものを作るためです。俳優を超えたパフォーマンスとEMO効果には、私たちはしばらく唖然としました。
ネチズンは嘆いた:「私たちは新たな現実に入りつつある!」
2019年版『ジョーカー』は2008年版『ダークナイト』のセリフを言った
一部のネチズンは、EMO で生成されたビデオのビデオを取得し、その効果をフレームごとに分析し始めています。
下の動画にあるように、主人公はソラが生成したAIレディで、今回彼女が歌ってくれたのは「Don’t Start Now」です。
コメント投稿者が分析:
このビデオの一貫性は以前よりもさらに優れています。
1分以上の動画では、ソラさんの顔のサングラスはほとんど動かず、耳と眉毛が独立して動きました。
一番興奮したのは、そらさんの喉が本当に息をしているように見えることです!歌いながら体が震えたり、微妙に動いたりして、衝撃を受けました!
写真
昨日、AI動画生成会社ピカも動画キャラクターの吹き替えと「口パク」を同時に行う口パク機能をリリースし、大ヒットしました。 具体的な効果は何ですか? 直接ここに載せます
写真
これは、ジジ王と同じくらいネットユーザーを本当に不安にさせました。
Sora とは異なるアーキテクチャ
EMO は DiT のようなアーキテクチャに基づいていません。つまり、Transformer は従来の UNet を置き換えるために使用されていません。そのバックボーン ネットワークは Stable Diffusion 1.5 から変更されています。
具体的には、EMO は、入力ビデオの長さに基づいて任意の長さのビデオを生成できる、表現力豊かなオーディオ主導のポートレート ビデオ生成フレームワークです。
#画像
- #フレーム エンコード ステージ
- # ReferenceNet と呼ばれる UNet ネットワークを展開します。これは、参照画像とビデオのフレームから特徴を抽出する役割を果たします。
- まず、事前トレーニングされたオーディオ エンコーダーがオーディオの埋め込みを処理し、顔領域マスクがマルチフレーム ノイズと結合されて、ノイズの生成が制御されます。顔画像。
バックボーン ネットワークがノイズ除去操作を主導します。バックボーン ネットワークでは、リファレンス アテンションとオーディオ アテンションという 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。
さらに、時間モジュールは時間次元を操作し、動きの速度を調整するために使用されます。
トレーニング データに関しては、チームは 250 時間以上のビデオと 1,500 万以上の画像を含む、大規模で多様な音声およびビデオ データ セットを構築しました。
最終実装の具体的な機能は次のとおりです。
キャラクターのアイデンティティの一貫性を確保しながら、入力音声に基づいて任意の長さのビデオを生成できます (指定された最長の単一ビデオ)デモは 1 分 49 秒です)。- さまざまな言語での会話と歌をサポート (デモには中国語、広東語、英語、日本語、韓国語が含まれます)
- さまざまな絵画スタイルをサポート (写真、伝統的な絵画、コミック、3D レンダリング、 AI デジタル パーソン)
写真 # 口の形状を測定するだけで SOTA を取得する以前の方法と比較して、定量的な比較も大幅に改善されました。 SyncNet の同期品質の指標は若干劣ります。
写真 拡散モデルに依存しない他の方法と比較して、EMO は時間がかかります。
そして、明示的な制御信号が使用されていないため、手などの他の身体部分が不用意に生成される可能性があるため、潜在的な解決策は、特に身体部分に制御信号を使用することです。
EMO のチーム
最後に、EMO を支えるチームのメンバーを見てみましょう。
この論文は、EMO チームがアリババ インテリジェント コンピューティング研究所から来ていることを示しています。
著者は Linrui Tian、Qi Wang、Bang Zhang、Liefeng Bo の 4 人です。
写真 このうち、リーフェン・ボー氏はアリババ同義研究所のXR研究室の現所長です。
Bo Liefeng 博士は、西安電子科学技術大学を卒業し、シカゴ大学トヨタ研究所およびワシントン大学で博士研究員研究に従事し、主に ML、 CVとロボット工学。 Google Scholar での引用数は 13,000 を超えています。
アリババに入社する前は、まずアマゾンのシアトル本社でチーフサイエンティストを務め、その後、JD Digital Technology Group の AI 研究所にチーフサイエンティストとして加わりました。
2022 年 9 月、薄烈峰氏はアリババに入社しました。
写真アリババが AIGC 分野で成功を収めたのは、EMO が初めてではありません。
写真OutfitAI を使えば誰でもワンクリックでドレスアップできます。
写真世界中の犬や猫にお風呂ダンスを踊らせる AnimateAnyone もあります。
これは以下のものです:
写真EMOが開始された今、多くのネチズンはアリババが何らかのテクノロジーを蓄積していることを嘆いていますその上で。
写真
これらのテクノロジーをすべて組み合わせると、その効果は次のようになります...
あえて考えませんが、でも本当に楽しみです。
写真
つまり、「AIにスクリプトを送って動画全体を出力する」という状況にどんどん近づいています。
写真
One More Thing
Sora は、テキスト駆動のビデオ合成における崖っぷちの画期的な進歩を表します。
EMO は、新しいレベルのオーディオ駆動型ビデオ合成も表します。
2 つのタスクは異なり、具体的なアーキテクチャも異なりますが、重要な共通点が 1 つあります:
中間に明示的な物理モデルはありませんが、両方とも物理法則をシミュレートします。ある程度まで。 。
したがって、一部の人々は、これは「ピクセルを生成してアクションの世界をモデル化することは無駄であり、失敗する運命にある」という Lecun の主張に反しており、Jim Fan の「データ駆動型世界モデル」のアイデアを支持していると信じています。
写真
過去にはさまざまな手法が失敗してきましたが、現在の成功は強化学習の父であるサットンの「苦い教訓」から来ているのかもしれません. 勢いよく奇跡を。
#人間が発見したものを封じ込めるのではなく、AI が同様の人間を発見できるようにする画期的な進歩は、最終的にはコンピューティングをスケールアップすることで達成されます #論文:https://www.php.cn/link/a717f41c203cb970f96f706e4b12617b
GitHub:https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40参考リンク:
[1]以上がAIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

Dreamweaver Mac版
ビジュアル Web 開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック



