ホームページ  >  記事  >  テクノロジー周辺機器  >  Alibaba Cloud は、写真と音声を使用して歌のビデオを生成する、Tongyi アプリ上で自社開発した EMO モデルの開始を発表しました。

Alibaba Cloud は、写真と音声を使用して歌のビデオを生成する、Tongyi アプリ上で自社開発した EMO モデルの開始を発表しました。

王林
王林転載
2024-04-26 08:00:38934ブラウズ

「本サイトは4月25日、EMO(Emote Portrait Alive)はアリババグループ知能計算研究所が開発したフレームワークであると報じた。単一の参照画像と音声を入力できるオーディオ駆動型のAIポートレートビデオ生成システムである」

Alibaba Cloud は本日、研究所 EMO を通じて開発された AI モデルが一般アプリとして正式にリリースされ、誰でも利用できることを発表しました。無料です。ユーザーにとって。この機能では、ユーザーは曲、ホットミーム、顔文字からテンプレートを選択し、ポートレート写真をアップロードすると、EMO が歌のビデオを合成できます。

阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频

紹介文によると、Tongyi App は、人気曲「Up Spring Mountain」を含む、最初のバッチとして 80 以上の EMO テンプレートをリリースしました。 「ワイルド ウルフ ディスコ」などのほか、「ボボ チキン」、「バック ハンド ディギング」などの人気のインターネット ミームもありますが、現在カスタム オーディオは提供されていません。

このサイトには、EMO 公式 Web サイトの入り口が添付されています:

  • 公式プロジェクトのホームページ: https://humanaigc.github.io/emote-portrait-生きています/

  • arXiv 研究論文: https://arxiv.org/abs/2402.17485

  • GitHub: https://github.com/HumanAIGC/EMO (モデルとソースコードはオープンソースになります)

阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频
##EMO の主な機能

    # EMO オーディオを使用してビデオを生成: EMO は、事前に記録されたビデオに依存せずに、入力オーディオ (ダイアログや歌など) から直接ビデオを生成できます。クリップまたは 3D 顔モデル。
  • 表現力豊かでリアル: EMO で生成されたビデオは表現力が高く、微妙な微表情を含む人間の表情のニュアンスを捉えて再現することができ、音声のリズムも一致します。頭の動き。
  • シームレスなフレーム遷移: EMO は、ビデオ フレーム間の遷移が自然かつスムーズになるようにし、フレーム間の顔の歪みやジッターの問題を回避し、ビデオ全体の品質を向上させます。
  • アイデンティティの保持: FrameEncoding モジュールを通じて、EMO はビデオ生成プロセス中にキャラクターのアイデンティティの一貫性を維持し、キャラクターの外観が入力参照画像と一致することを保証します。
  • 安定した制御メカニズム: EMO は、ビデオ生成中の安定性を高め、ビデオ クラッシュなどの問題を回避するために、スピード コントローラーや顔エリア コントローラーなどの安定した制御メカニズムを採用しています。
  • 柔軟なビデオの長さ: EMO は、入力音声の長さに基づいて任意の長さのビデオを生成し、ユーザーに柔軟なクリエイティブ スペースを提供します。
  • クロス言語とクロススタイル: EMO のトレーニング データセットは、中国語や英語のほか、リアリズム、アニメ、3D スタイルなど、さまざまな言語とスタイルをカバーしています。 EMO は、さまざまな文化や芸術スタイルを適応させることができます。

以上がAlibaba Cloud は、写真と音声を使用して歌のビデオを生成する、Tongyi アプリ上で自社開発した EMO モデルの開始を発表しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はithome.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。