検索
ホームページテクノロジー周辺機器AIネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

あなたと友達が冷たいモバイル画面越しにチャットしているときは、相手の口調を推測する必要があります。彼が話すとき、彼の表情や行動さえもあなたの心に現れます。もちろんビデオ通話ができれば一番良いのですが、実際はいつでもビデオ通話ができるわけではありません。

遠隔地の友人とチャットしている場合、それは冷たい画面のテキストや表情のないアバターではなく、リアルでダイナミックで表現力豊かなデジタル仮想人物です。この仮想人物は、友人の笑顔、目、微妙な体の動きさえも完璧に再現することができます。もっと優しくて温かい気持ちになれるでしょうか?これはまさに「ネットワークケーブルに沿って這ってあなたを見つけます」という文を体現しています。

これは SF の空想ではなく、現実に実現可能なテクノロジーです。

表情や体の動きには多くの情報が含まれており、内容の意味に大きく影響します。例えば、常に相手の目を見ながら話すのと、目を合わせずに話すのでは全く違う印象を与えますし、相手のコミュニケーション内容の理解にも影響します。私たちは、コミュニケーション中にこれらの微妙な表情や動作を検出し、それらを使用して会話相手の意図、快適さのレベル、理解度を高度に理解する非常に鋭い能力を持っています。したがって、これらの微妙な点を捉えた非常に現実的な会話アバターを開発することは、インタラクションにとって重要です。

この目的を達成するために、Meta とカリフォルニア大学の研究者は、2 人の会話の音声に基づいて現実的な仮想人間を生成する方法を提案しました。音声と密接に同期したさまざまな高周波ジェスチャーや表情豊かな顔の動きを合成できます。体と手には、自己回帰 VQ ベースのアプローチと拡散モデルの利点が活用されています。顔については、音声を条件とした拡散モデルを使用します。予測された顔、体、手の動きは、現実的な仮想人間にレンダリングされます。我々は、拡散モデルにガイド付きジェスチャー条件を追加すると、以前の研究よりも多様で合理的な会話ジェスチャーを生成できることを実証します。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal


  • 論文アドレス: https://huggingface.co/papers/2401.01885
  • # プロジェクトのアドレス: https://people.eecs.berkeley.edu/~ebonne_ng/projects/audio2photoreal/

研究者らは、対人会話のためのリアルな顔、体、手の動きを生成する方法を研究した最初のチームであると述べています。以前の研究と比較して、研究者らは VQ と拡散法に基づいて、より現実的で多様なアクションを合成しました。

方法の概要

研究者らは、記録されたマルチビューデータから潜在的な表情コードを抽出して顔を表現し、運動学的骨格の関節角度を使用して、体の姿勢を表現します。図 3 に示すように、本システムは 2 人の会話音声を入力すると表情コードと体位系列を生成する 2 つの生成モデルから構成されます。表情コードと体のポーズ シーケンスは、ニューラル アバター レンダラーを使用してフレームごとにレンダリングでき、特定のカメラ ビューから顔、体、手を備えた完全にテクスチャ化されたアバターを生成できます。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

#身体と顔のダイナミクスは大きく異なることに注意してください。まず、顔は入力音声、特に唇の動きと強く相関しますが、体は音声と弱い相関があります。これにより、特定の音声入力におけるボディ ジェスチャのより複雑な多様性が生じます。第二に、顔と体は 2 つの異なる空間で表現されるため、それぞれ異なる時間的ダイナミクスに従います。したがって、研究者らは 2 つの独立した動作モデルを使用して顔と体をシミュレートしました。このようにして、顔モデルは音声と一致する顔の詳細に「焦点を当てる」ことができ、一方、身体モデルは多様だが合理的な身体の動きを生成することにさらに重点を置くことができます。

顔の動きモデルは、入力オーディオと、事前にトレーニングされた唇のリグレッサーによって生成された唇の頂点に条件付けされた拡散モデルです (図 4a)。手足の動きのモデルについて、研究者らは、音声のみを条件とした純粋な拡散モデルによって生成された動きは多様性に欠けており、時系列で十分に調整されていないことを発見しました。しかし、研究者がさまざまな指導姿勢を条件にすると、品質は向上しました。したがって、彼らは身体運動モデルを 2 つの部分に分割しました。まず、自己回帰オーディオ コンディショナーが 1 fp で粗い誘導ポーズを予測し (図 4b)、次に拡散モデルがこれらの粗い誘導ポーズを利用して、きめの細かい高精度の誘導ポーズを埋めます。周波数の動き(図4c)。メソッド設定の詳細については、元の記事を参照してください。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

実験と結果

研究者らは、実際の音声に基づいてリアルな対話アクションを生成する Audio2Photoreal の有効性を定量的に評価しました。データ能力。定量的な結果を裏付け、特定の会話コンテキストでジェスチャを生成する際の Audio2Photoreal の適切性を測定するために、知覚評価も実行されました。実験結果は、ジェスチャが 3D メッシュではなく現実的なアバター上で提示された場合に、評価者が微妙なジェスチャに対してより敏感になることを示しました。

研究者らは、この手法の生成結果を、トレーニング セット内のランダム モーション シーケンスに基づく 3 つのベースライン手法 (KNN、SHOW、および LDA) と比較しました。アブレーション実験は、音声またはガイド付きジェスチャーなし、ガイド付きジェスチャーなしで音声に基づく、音声なしでガイド付きジェスチャーに基づく Audio2Photoreal の各コンポーネントの有効性をテストするために実施されました。

定量的結果

表 1 は、以前の研究と比較して、この方法が世代の多様性が最も高いことを示しています。 FD スコアは運動時に最も低くなります。ランダムは GT と一致する優れた多様性を持っていますが、ランダム セグメントは対応する会話のダイナミクスと一致しないため、FD_g が高くなります。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

# 図 5 は、私たちの方法によって生成された誘導ポーズの多様性を示しています。 VQ ベースのトランスフォーマー P サンプリングにより、同じオーディオ入力で非常に異なるジェスチャを生成できます。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

#図 6 に示すように、拡散モデルは動的なアクションを生成することを学習し、そのアクションはより適切に一致するようになります。会話音声。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal# 図 7 は、LDA によって生成されたモーションにはエネルギーが不足しており、動きが少ないことを示しています。対照的に、この方法によって合成された動きの変化は、実際の状況とより一致しています。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photorealさらに、研究者らは、唇の動きを生成する際のこの方法の精度も分析しました。表 2 の統計が示すように、Audio2Photoreal はベースライン メソッド SHOW を大幅に上回っており、アブレーション実験で事前学習された唇リグレッサーを除去した後のパフォーマンスも大幅に上回っています。この設計により、話すときの口の形状の同期が改善され、話していないときの口のランダムな開閉の動きが効果的に回避され、モデルがより適切に唇の動きを再構築できるようになり、同時に顔のメッシュ頂点 (グリッド L2) のエラーが減少します。 。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal#定性的評価

対話におけるジェスチャーの一貫性により、定量的に評価することは難しいため、研究者らは評価に定性的な方法を使用しました。彼らは MTurk で 2 セットの A/B テストを実施しました。具体的には、評価者に、私たちの手法とベースライン手法で生成された結果、または私たちの手法と実際のシーンのビデオのペアを見て、どのビデオの動きがより合理的に見えるかを評価するように依頼しました。

図 8 に示すように、この方法は以前のベースライン方法 LDA よりも大幅に優れており、レビュー担当者の約 70% がグリッドとリアリズムの点で Audio2Photoreal を好みます。

図 8 の上部のグラフに示すように、LDA と比較して、この手法に対する評価者の評価は「やや好き」から「非常に好き」に変化しました。現実と比較しても同様の評価が示されている。それでも、評価者はリアリズムに関しては、Audio2Photoreal よりも本物を支持しました。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

技術的な詳細については、元の論文をお読みください。

以上がネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photorealの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境