AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。-AI-php.cn

ホームページ

テクノロジー周辺機器

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

王林

Feb 29, 2024 pm 07:07 PM

ai音写真

Sora の後に、実は新しい AI ビデオモデルがあり、これはとても素晴らしいもので、誰もが気に入って賞賛しています。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

これで、「クロニクス」の悪役ガオ・チー強がルオ・シャンに変身し、みんなを教育できるようになります（犬頭）。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

これは、Alibaba の最新のオーディオ主導のポートレートビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。

これを使えば、1枚の参考画像と音声（スピーチ、歌、ラップなども可）を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力音声の長さによって異なります。

AI エフェクト体験のベテラン出場者であるモナリザにモノローグを朗読してもらうことができます:

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

若くてハンサムな小さなプラムが登場します。このペースの速い RAP タレントショーでは、口の形についていくのに問題はありませんでした。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

広東語のリップシンクさえも続けることができ、弟のレスリーチャンはそれを可能にしました。イーソン・チャンの「無条件」を歌う：

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

#要するに、肖像画に歌わせるか（さまざまなスタイルの肖像画や歌）、肖像画にしゃべらせるか（さまざまな言語）、またはあらゆる種類の「大げさな」ものを作るためです。俳優を超えたパフォーマンスとEMO効果には、私たちはしばらく唖然としました。

ネチズンは嘆いた:「私たちは新たな現実に入りつつある!」

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 2019年版『ジョーカー』は2008年版『ダークナイト』のセリフを言った

一部のネチズンは、EMO で生成されたビデオのビデオを取得し、その効果をフレームごとに分析し始めています。

下の動画にあるように、主人公はソラが生成したAIレディで、今回彼女が歌ってくれたのは「Don’t Start Now」です。

コメント投稿者が分析:

このビデオの一貫性は以前よりもさらに優れています。
1分以上の動画では、ソラさんの顔のサングラスはほとんど動かず、耳と眉毛が独立して動きました。
一番興奮したのは、そらさんの喉が本当に息をしているように見えることです！歌いながら体が震えたり、微妙に動いたりして、衝撃を受けました！

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

# とはいえ、EMO は注目の新技術であるため、類似製品と比較することは避けられません——

昨日、AI動画生成会社ピカも動画キャラクターの吹き替えと「口パク」を同時に行う口パク機能をリリースし、大ヒットしました。

具体的な効果は何ですか? 直接ここに載せます

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

比較後、コメントエリアのネチズンはアリに負けたという結論に達しました。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

EMO は論文を公開し、オープンソースであると発表しました。＃＃＃＃＃＃しかし！オープンソースですが、GitHub にはまだショートポジションがあります。

しかしまた！ショートポジションですがスター数は2.1kを超えています。

写真

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。これは、ジジ王と同じくらいネットユーザーを本当に不安にさせました。

Sora とは異なるアーキテクチャ AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

EMO の論文が発表されるとすぐに、サークル内の多くの人が安堵のため息をつきました。

ソラの技術的なルートとは異なり、ソラをコピーすることが唯一の方法ではないことを示しています。

EMO は DiT のようなアーキテクチャに基づいていません。つまり、Transformer は従来の UNet を置き換えるために使用されていません。そのバックボーンネットワークは Stable Diffusion 1.5 から変更されています。

具体的には、EMO は、入力ビデオの長さに基づいて任意の長さのビデオを生成できる、表現力豊かなオーディオ主導のポートレートビデオ生成フレームワークです。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 #画像

フレームワークは主に 2 つのステージで構成されます:

# ReferenceNet と呼ばれる UNet ネットワークを展開します。これは、参照画像とビデオのフレームから特徴を抽出する役割を果たします。

拡散段階

まず、事前トレーニングされたオーディオエンコーダーがオーディオの埋め込みを処理し、顔領域マスクがマルチフレームノイズと結合されて、ノイズの生成が制御されます。顔画像。

バックボーンネットワークがノイズ除去操作を主導します。バックボーンネットワークでは、リファレンスアテンションとオーディオアテンションという 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。

さらに、時間モジュールは時間次元を操作し、動きの速度を調整するために使用されます。

トレーニングデータに関しては、チームは 250 時間以上のビデオと 1,500 万以上の画像を含む、大規模で多様な音声およびビデオデータセットを構築しました。

最終実装の具体的な機能は次のとおりです。

キャラクターのアイデンティティの一貫性を確保しながら、入力音声に基づいて任意の長さのビデオを生成できます (指定された最長の単一ビデオ)デモは 1 分 49 秒です)。

さまざまな言語での会話と歌をサポート (デモには中国語、広東語、英語、日本語、韓国語が含まれます)
さまざまな絵画スタイルをサポート (写真、伝統的な絵画、コミック、3D レンダリング、 AI デジタルパーソン)

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 # 口の形状を測定するだけで SOTA を取得する以前の方法と比較して、定量的な比較も大幅に改善されました。 SyncNet の同期品質の指標は若干劣ります。

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。拡散モデルに依存しない他の方法と比較して、EMO は時間がかかります。

そして、明示的な制御信号が使用されていないため、手などの他の身体部分が不用意に生成される可能性があるため、潜在的な解決策は、特に身体部分に制御信号を使用することです。

EMO のチーム

最後に、EMO を支えるチームのメンバーを見てみましょう。

この論文は、EMO チームがアリババインテリジェントコンピューティング研究所から来ていることを示しています。

著者は Linrui Tian、Qi Wang、Bang Zhang、Liefeng Bo の 4 人です。

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。このうち、リーフェン・ボー氏はアリババ同義研究所のXR研究室の現所長です。

Bo Liefeng 博士は、西安電子科学技術大学を卒業し、シカゴ大学トヨタ研究所およびワシントン大学で博士研究員研究に従事し、主に ML、 CVとロボット工学。 Google Scholar での引用数は 13,000 を超えています。

アリババに入社する前は、まずアマゾンのシアトル本社でチーフサイエンティストを務め、その後、JD Digital Technology Group の AI 研究所にチーフサイエンティストとして加わりました。

2022 年 9 月、薄烈峰氏はアリババに入社しました。

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。アリババが AIGC 分野で成功を収めたのは、EMO が初めてではありません。

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 OutfitAI を使えば誰でもワンクリックでドレスアップできます。

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。世界中の犬や猫にお風呂ダンスを踊らせる AnimateAnyone もあります。

これは以下のものです:

写真 AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 EMOが開始された今、多くのネチズンはアリババが何らかのテクノロジーを蓄積していることを嘆いていますその上で。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

これらのテクノロジーをすべて組み合わせると、その効果は次のようになります...

あえて考えませんが、でも本当に楽しみです。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

つまり、「AIにスクリプトを送って動画全体を出力する」という状況にどんどん近づいています。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

One More Thing

Sora は、テキスト駆動のビデオ合成における崖っぷちの画期的な進歩を表します。

EMO は、新しいレベルのオーディオ駆動型ビデオ合成も表します。

2 つのタスクは異なり、具体的なアーキテクチャも異なりますが、重要な共通点が 1 つあります:

中間に明示的な物理モデルはありませんが、両方とも物理法則をシミュレートします。ある程度まで。。

したがって、一部の人々は、これは「ピクセルを生成してアクションの世界をモデル化することは無駄であり、失敗する運命にある」という Lecun の主張に反しており、Jim Fan の「データ駆動型世界モデル」のアイデアを支持していると信じています。

AIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

過去にはさまざまな手法が失敗してきましたが、現在の成功は強化学習の父であるサットンの「苦い教訓」から来ているのかもしれません. 勢いよく奇跡を。

#人間が発見したものを封じ込めるのではなく、AI が同様の人間を発見できるようにする
画期的な進歩は、最終的にはコンピューティングをスケールアップすることで達成されます
#論文:

https://www.php.cn/link/a717f41c203cb970f96f706e4b12617b

GitHub:https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40 参考リンク:

[1]

https://www.php.cn/link/0dd4f2526c7c874d06f19523264f6552

以上がAIビデオが再び爆発！写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ

補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。