一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:
这场表演背后的「AI 复活召唤术」,叫做 EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO 就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。在央视《2024 中国・AI 盛典》中,同样基于 EMO 技术,北宋文学家苏轼被「复活」,与李玉刚同台合唱了一曲《水调歌头》。「AI 苏轼」动作古朴自然,仿佛穿越时空而来:
在 EMO 等 AI 领域前沿技术的激发下,首个以人工智能为核心的国家级科技盛宴《2024 中国・AI 盛典》盛大开幕,以「媒体 + 科技 + 艺术」的融合形式将最前沿的国产 AI 技术力量传递给节目前的每一位观众:这不是 EMO 第一次「出圈」。曾在社交媒体爆火的「高启强化身罗翔普法」,也是出自 EMO 之手: 登陆通义 APP 之后,借助玩家各种脑洞大开的试玩,EMO 火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用,进入「频道」选择「全民舞台」,就可以丝滑体验了。
实际上,早在今年 2 月,通义实验室就公开了 EMO(Emote Portrait Alive) 相关论文。这篇论文上线之初就好评如潮,更是有人称赞:「EMO 是一项革命性的研究。」
- 論文アドレス: https://arxiv.org/pdf/2402.17485
- プロジェクトホームページ: https://humanaigc.github.io/emote-portrait-alive/
なぜ機能するのかこれほど高い評価を受けるには?これも、ビデオ生成技術の開発状況と、その根底にある EMO の技術革新から始まります。 それでは輪から外れているのに、なぜ EMO なのでしょうか? ここ数年、画像生成における AI の成功は誰の目にも明らかです。現在、AI 分野における研究のホットスポットは、ビデオ生成というより困難なタスクを克服することです。 EMO は、最も困難なタスクの 1 つである オーディオ駆動のキャラクター ビデオの生成に直面しています。 一般的な Vincent ビデオや Tusheng ビデオのゲームプレイとは異なり、オーディオ主導のキャラクター ビデオ生成は、オーディオ モダリティからビデオ モダリティに直接横断するプロセスです。このタイプのビデオの生成には、頭の動き、視線、まばたき、唇の動きなどの複数の要素が含まれることが多く、ビデオ コンテンツの一貫性と滑らかさを維持する必要があります。 これまでの方法では、ほとんどのモデルは最初に 3D モデリングまたは顔、頭、体の一部の顔のキー ポイント マーキングを実行し、これを中間表現として使用して最終ビデオを生成します。ただし、中間表現を使用する方法では、音声の情報が圧縮されすぎて、最終的に生成されるビデオの感情表現に影響を与える可能性があります。 Tongyi Laboratoryの応用ビジョンチームの責任者であるBo Liefeng氏は、EMOの主要な革新である「弱い制御設計」が上記の問題をうまく解決し、ビデオ生成のコストを削減するだけでなく、ビデオ生成のコストを大幅に改善すると述べました。ビデオ生成の品質。
「弱い制御」は 2 つの側面に反映されています。まず、EMO はモデリングを必要とせず、音声から情報を直接抽出して顔の表情のダイナミクスとリップシンクのビデオを生成するため、複雑な前処理の必要性がなくなります。 . 自然でスムーズで表現力豊かなポートレートビデオをエンドツーエンドで作成します。第二に、EMO は生成される表情や体の動きをあまり「制御」しません。自然で滑らかな最終生成結果は、高品質のデータから学習してトレーニングされたモデル自体の汎化能力によるものです。 兵馬俑とジェムジェムを同じフレームに収めて「軍隊行進曲」を歌うと、歌の中で伝えられる感情(興奮など)が、人に感情を与えずに彼の顔によく現れています。不服従:
弱い制御の概念に基づいて、研究チームは EMO モデル用に大規模で多様なオーディオおよびビデオ データ セットを構築し、合計 250 時間以上の録音と 1 億 5,000 万枚以上の画像 をカバーしました。スピーチ、映画などのさまざまなコンテンツ中国語や英語を含む多言語でのテレビクリップや歌唱パフォーマンスなど、豊富なビデオにより、トレーニング教材は人間の幅広い表現や発声スタイルを確実に捉えることができます。 学術コミュニティには、データセットに対する最良の可逆圧縮は、データセット外のデータに対する最良の一般化であるという見解があります。効率的な圧縮を実現できるアルゴリズムは、データの深いパターンを明らかにすることが多く、これはインテリジェンスの重要な現れでもあります。 したがって、チームは、データの圧縮または処理のプロセス中に元の情報の豊富な詳細とダイナミック レンジが可能な限り維持されるように、トレーニング プロセス中に 忠実度の高いデータ エンコード アルゴリズム を設計しました。 。 EMOトレーニング特有の、音声情報が揃って初めてキャラクターの感情をうまく表現することができます。
Tongyi Lab はどのようにして世界初のエシュロンになったのでしょうか? 今年 2 月初旬、Sora のリリースによりビデオ生成トラックに火がつき、DiT (Diffusion Transformer) を含む、その背後にある多くのテクノロジーが注目を集めました。 拡散モデルの U-Net は、ノイズから信号を段階的に回復するプロセスをシミュレートできることがわかっています。理論的には、あらゆる複雑なデータ分布を近似でき、敵対的生成ネットワーク (GAN) よりも優れており、変数の点でも優れています。オートエンコーダ (VAE) は、より自然なテクスチャとより正確な詳細を備えた現実世界の画像を生成します。ただし、DiT の論文では、U-Net 誘導バイアスは拡散モデルのパフォーマンスに不可欠ではなく、標準設計 (Transformer など) で簡単に置き換えることができることが示されています。これは、Transformer アーキテクチャに基づく新しい拡散モデル DiT です。論文で提案されている。 最も重要なことは、DiT をコアとした Sora がビデオ生成モデルにスケーリング則がまだ存在することを検証し、研究者はより多くのパラメーターとデータを追加することでモデルのサイズを拡張してより良い結果を達成できることです。 実際のビデオ生成における DiT モデルの成功により、AI コミュニティがこの手法の可能性を認識できるようになり、ビデオ生成の分野が古典的な U-Net アーキテクチャから U-Net アーキテクチャのパラダイムへの移行を促しました。トランスベースの拡散バックボーン アーキテクチャ。 Transformer のアテンション メカニズムに基づく時間予測と大規模な高品質ビデオ データが、この変革を推進する重要な力となります。 しかし、現在のビデオ生成分野を見ると、まだ「統合された」アーキテクチャは存在していません。 EMO は DiT のようなアーキテクチャに基づいていません。つまり、従来の U-Net を置き換える Transformer を使用しません。また、実際の物理世界を非常にうまくシミュレートでき、これが研究全体に影響を与えました。分野。 将来、ビデオ生成の分野ではどのような技術的なルートが現れるでしょうか?理論研究者も実践者も、「比較的オープンな期待」を維持できます。 Bo Liefeng氏は、本質的に、現在の言語モデルと画像/ビデオ生成モデルは統計的機械学習の枠組みを超えていないと述べました。スケーリング法にも独自の制限があります。各モデルは、強い関係と中程度の関係の生成を比較的正確に把握していますが、弱い関係の学習はまだ不十分です。研究者が十分な高品質のデータを提供し続けられない場合、モデルの機能を質的に向上させることは困難になります。 見方を変えると、映像生成の分野で「国の半分を占める」統一アーキテクチャがあったとしても、それが絶対的な優位性を持っているわけではない。自然言語の分野と同様に、常に C の地位を堅持してきた Transformer も、Mamba に追い越されることになるでしょう。 特にビデオ生成の分野では、各技術ルートに独自のアプリケーション シナリオがあります。たとえば、キーポイントドライバーやビデオドライバーは表情の移り変わりのシーンに適しており、オーディオドライバーはキャラクターが話したり歌ったりするシーンに適しています。条件付き制御の程度という点では、弱い制御方法は創造的なタスクに非常に適していますが、多くの専門的で特殊なタスクは強い制御方法の恩恵を受けることができます。 Tongyi Laboratoryは、中国で最も早くビデオ生成技術を開発した機関の1つであり、現在、特にキャラクタービデオの生成など、多方向の研究開発を蓄積しています。は、Animate Anybody、キャラクター アクション ビデオ生成フレームワーク、Outfit Anybody、キャラクター ビデオ役割置換フレームワーク Motionshop、およびキャラクターの歌唱とパフォーマンス ビデオ生成フレームワーク Emote Portrait Alive を含む、People完全な研究マトリックスを形成しました。 :その他のプロジェクトについては、https://github.com/humanaigc、EMO以前、Animateなど、かつては誰もがソーシャルメディアと友人の輪を支配していました。このモデルは、キャラクターの動きのビデオの生成におけるキャラクターの外観の短期的な連続性と長期的な一貫性を維持するという問題を解決しました。その後、Tongyi アプリに「National Dance King」機能が開始され、全国的なダンスの波が始まりました。クライマックス。
テクノロジーから現実世界へ 過去 2 年間、言語モデルは対話、理解、要約、推論などにおいて強力なテキスト機能を実証し、画像生成モデルは強力なテキスト機能を実証してきました。ナチュラルジェネレーション、エンターテインメント性とアート性を兼ね備えた両代表曲は数々のヒット作を生み出してきた。これらのモデルの成功は、少なくとも 1 つのことを教えてくれます。
この時代に影響力を持ちたい技術チームは、「基本モデル」と「スーパー アプリケーション」の二本足で歩くことを学ぶ必要があります。 現在、動画コンテンツは爆発的な成長傾向を示しており、誰にとっても「使える」「実用的」なAI動画生成プラットフォームの登場が期待されています。
EMO はこの状況を打破するための重要な技術的進歩となる可能性があり、Tongyi アプリは技術実装のための広範なプラットフォームを提供します。 ビデオ生成テクノロジーにおける次の課題は、プロレベルのコンテンツをキャプチャする方法です。
テクノロジー企業は、AI テクノロジーを、短編ビデオブロガー、映画やテレビのプロデューサー、広告やゲームのクリエイティブに役立つ真の生産性ツールに変えたいと考えています。これが、ビデオ生成アプリケーションが単に「一般的なコンテンツ」のレベルにとどまることができない理由です。
現在のほとんどのビデオ生成アプリケーションを見てみると、そのほとんどは 3 ~ 5 秒のビデオ生成モデルに基づいており、アプリケーションとエクスペリエンスに明らかな制限があります。
ただし、EMO テクノロジーは音声の長さに非常に寛容で、生成されたコンテンツの品質はスタジオの標準を満たすことができます。たとえば、CCTV で放送されたこの「兵馬俑と馬の歌とパフォーマンス」では、兵馬俑の 4 分間のパフォーマンス ビデオのうち、ポストプロダクションでの手動の「微調整」は 1 秒も必要ありませんでした。 さて、EMOに代表されるキャラクタービデオ生成技術は、最も「プロレベルの生成レベル」に近い実装方向の一つであると思われます。 Wensheng ビデオ テクノロジのユーザー プロンプトには多くの不確実性があるのに比べ、EMO テクノロジは、キャラクター ビデオ作成におけるコンテンツの一貫性と一貫性という中核的な要件と高度に一致しており、非常に潜在的なアプリケーション領域であることを示しています。
EMOが「サークルから出てきた」理由は、研究開発チームの技術力だけではなく、より重要なことに、ビデオ生成技術の実装の加速です。
「一人当たりのプロのクリエイター」の時代はそう遠くないかもしれません。
以上是央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?的详细内容。更多信息请关注PHP中文网其他相关文章!