ホームページ > 記事 > テクノロジー周辺機器 > MoDaコミュニティが、ワンクリックで写真をしゃべらせるAIビデオ生成ツール「Live Portait」を発表
マジックコミュニティは、ワンクリックで写真の中のキャラクターをしゃべらせることができるAI動画生成ツール「ライブポートレート」をリリースしました
Alibaba Cloud は、Live Portrait と呼ばれるデジタル ヒューマン ビデオ生成ツールをリリースしました。ユーザーは写真とテキストまたは音声をアップロードするだけで、話すデジタル ヒューマン ビデオを生成できます。このツールは、ライブビデオブロードキャスト、チャットロボット、企業マーケティングなどのさまざまなシナリオで使用できます。現在、このツールは Magic Community Creation Space で体験可能です
自己会話大型モデルや AI 絵画モデルの人気に伴い、研究コミュニティは生成 AI の研究を徐々に多様化させており、その中でも AI ビデオ生成技術が大きな注目を集めています。この技術は、テキストや音声などの情報を顔の動きの情報に変換し、キャラクター画像を含むアニメーション写真を生成することで、ビデオ撮影と制作の敷居を効果的に下げることができます。
Alibaba Cloud の最新の Live Portait ツールは、モーション モジュールと生成モジュールを組み合わせています。このツールは、Alibaba Cloud が独自に開発した口の形状予測アルゴリズムを使用しており、口の形状の生成の精度が大幅に向上し、従来の方法と比較して大幅に改善されています。トレーニング段階では、姿勢の明示的な制御が追加されるため、生成されたビデオはベースボード ビデオを必要とせずにあらゆるアクションを表示できるため、デジタル人間の音声のリアリズムが大幅に向上します。さらに、アクティブ アイ コントロール テクノロジを通じて、Live Portait は眼球に自然な動きを追加し、生成された結果を現実の効果に近づけることができます。レポートによると、Live Portait 関連テクノロジーは、CVPR や ICCVなどの主要な国際 AI カンファレンスに組み込まれています。
Magic Community からの情報によると、Live Portait は写真をアップロードした後にユーザーが選択できる 2 つの方法、つまりテキスト駆動とオーディオ駆動を提供します。テキスト駆動モードでは、ユーザーは中国語、英語、広東語、子供の声を含む 28 種類の音声から選択できます。さらに、Live Portait は、ユーザーがビデオをより速く生成できるようにするための軽量モデルの選択も提供します。
このツールのアルゴリズム責任者である Zhang Bang 氏は次のように述べています。「Live Portait は、単一の画像を使用してリアルな顔のアニメーションを生成する機能など、チームによって独自に開発された多数の革新的なテクノロジーを統合しており、従来の敵対的生成の制限を打ち破っています。技術の継続的な進化により、画像生成ビデオには幅広い応用の可能性があり、企業にとって生産効率を向上させ、コストを削減するための重要なツールになることが期待されています。」
このチームの研究の方向性には、デジタル ヒューマン、3D モデル AI 生成、高忠実度レンダリング、人間とコンピューターの自然なインタラクションが含まれていると考えられており、主要な国際会議で 50 以上の論文を発表しています。以上がMoDaコミュニティが、ワンクリックで写真をしゃべらせるAIビデオ生成ツール「Live Portait」を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。