検索
ホームページテクノロジー周辺機器AIネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

あなたと友達が冷たいモバイル画面越しにチャットしているときは、相手の口調を推測する必要があります。彼が話すとき、彼の表情や行動さえもあなたの心に現れます。もちろんビデオ通話ができれば一番良いのですが、実際はいつでもビデオ通話ができるわけではありません。

遠隔地の友人とチャットしている場合、それは冷たい画面のテキストや表情のないアバターではなく、リアルでダイナミックで表現力豊かなデジタル仮想人物です。この仮想人物は、友人の笑顔、目、微妙な体の動きさえも完璧に再現することができます。もっと優しくて温かい気持ちになれるでしょうか?これはまさに「ネットワークケーブルに沿って這ってあなたを見つけます」という文を体現しています。

これは SF の空想ではなく、現実に実現可能なテクノロジーです。

表情や体の動きには多くの情報が含まれており、内容の意味に大きく影響します。例えば、常に相手の目を見ながら話すのと、目を合わせずに話すのでは全く違う印象を与えますし、相手のコミュニケーション内容の理解にも影響します。私たちは、コミュニケーション中にこれらの微妙な表情や動作を検出し、それらを使用して会話相手の意図、快適さのレベル、理解度を高度に理解する非常に鋭い能力を持っています。したがって、これらの微妙な点を捉えた非常に現実的な会話アバターを開発することは、インタラクションにとって重要です。

この目的を達成するために、Meta とカリフォルニア大学の研究者は、2 人の会話の音声に基づいて現実的な仮想人間を生成する方法を提案しました。音声と密接に同期したさまざまな高周波ジェスチャーや表情豊かな顔の動きを合成できます。体と手には、自己回帰 VQ ベースのアプローチと拡散モデルの利点が活用されています。顔については、音声を条件とした拡散モデルを使用します。予測された顔、体、手の動きは、現実的な仮想人間にレンダリングされます。我々は、拡散モデルにガイド付きジェスチャー条件を追加すると、以前の研究よりも多様で合理的な会話ジェスチャーを生成できることを実証します。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal


  • 論文アドレス: https://huggingface.co/papers/2401.01885
  • # プロジェクトのアドレス: https://people.eecs.berkeley.edu/~ebonne_ng/projects/audio2photoreal/

研究者らは、対人会話のためのリアルな顔、体、手の動きを生成する方法を研究した最初のチームであると述べています。以前の研究と比較して、研究者らは VQ と拡散法に基づいて、より現実的で多様なアクションを合成しました。

方法の概要

研究者らは、記録されたマルチビューデータから潜在的な表情コードを抽出して顔を表現し、運動学的骨格の関節角度を使用して、体の姿勢を表現します。図 3 に示すように、本システムは 2 人の会話音声を入力すると表情コードと体位系列を生成する 2 つの生成モデルから構成されます。表情コードと体のポーズ シーケンスは、ニューラル アバター レンダラーを使用してフレームごとにレンダリングでき、特定のカメラ ビューから顔、体、手を備えた完全にテクスチャ化されたアバターを生成できます。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

#身体と顔のダイナミクスは大きく異なることに注意してください。まず、顔は入力音声、特に唇の動きと強く相関しますが、体は音声と弱い相関があります。これにより、特定の音声入力におけるボディ ジェスチャのより複雑な多様性が生じます。第二に、顔と体は 2 つの異なる空間で表現されるため、それぞれ異なる時間的ダイナミクスに従います。したがって、研究者らは 2 つの独立した動作モデルを使用して顔と体をシミュレートしました。このようにして、顔モデルは音声と一致する顔の詳細に「焦点を当てる」ことができ、一方、身体モデルは多様だが合理的な身体の動きを生成することにさらに重点を置くことができます。

顔の動きモデルは、入力オーディオと、事前にトレーニングされた唇のリグレッサーによって生成された唇の頂点に条件付けされた拡散モデルです (図 4a)。手足の動きのモデルについて、研究者らは、音声のみを条件とした純粋な拡散モデルによって生成された動きは多様性に欠けており、時系列で十分に調整されていないことを発見しました。しかし、研究者がさまざまな指導姿勢を条件にすると、品質は向上しました。したがって、彼らは身体運動モデルを 2 つの部分に分割しました。まず、自己回帰オーディオ コンディショナーが 1 fp で粗い誘導ポーズを予測し (図 4b)、次に拡散モデルがこれらの粗い誘導ポーズを利用して、きめの細かい高精度の誘導ポーズを埋めます。周波数の動き(図4c)。メソッド設定の詳細については、元の記事を参照してください。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

実験と結果

研究者らは、実際の音声に基づいてリアルな対話アクションを生成する Audio2Photoreal の有効性を定量的に評価しました。データ能力。定量的な結果を裏付け、特定の会話コンテキストでジェスチャを生成する際の Audio2Photoreal の適切性を測定するために、知覚評価も実行されました。実験結果は、ジェスチャが 3D メッシュではなく現実的なアバター上で提示された場合に、評価者が微妙なジェスチャに対してより敏感になることを示しました。

研究者らは、この手法の生成結果を、トレーニング セット内のランダム モーション シーケンスに基づく 3 つのベースライン手法 (KNN、SHOW、および LDA) と比較しました。アブレーション実験は、音声またはガイド付きジェスチャーなし、ガイド付きジェスチャーなしで音声に基づく、音声なしでガイド付きジェスチャーに基づく Audio2Photoreal の各コンポーネントの有効性をテストするために実施されました。

定量的結果

表 1 は、以前の研究と比較して、この方法が世代の多様性が最も高いことを示しています。 FD スコアは運動時に最も低くなります。ランダムは GT と一致する優れた多様性を持っていますが、ランダム セグメントは対応する会話のダイナミクスと一致しないため、FD_g が高くなります。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

# 図 5 は、私たちの方法によって生成された誘導ポーズの多様性を示しています。 VQ ベースのトランスフォーマー P サンプリングにより、同じオーディオ入力で非常に異なるジェスチャを生成できます。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

#図 6 に示すように、拡散モデルは動的なアクションを生成することを学習し、そのアクションはより適切に一致するようになります。会話音声。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal# 図 7 は、LDA によって生成されたモーションにはエネルギーが不足しており、動きが少ないことを示しています。対照的に、この方法によって合成された動きの変化は、実際の状況とより一致しています。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photorealさらに、研究者らは、唇の動きを生成する際のこの方法の精度も分析しました。表 2 の統計が示すように、Audio2Photoreal はベースライン メソッド SHOW を大幅に上回っており、アブレーション実験で事前学習された唇リグレッサーを除去した後のパフォーマンスも大幅に上回っています。この設計により、話すときの口の形状の同期が改善され、話していないときの口のランダムな開閉の動きが効果的に回避され、モデルがより適切に唇の動きを再構築できるようになり、同時に顔のメッシュ頂点 (グリッド L2) のエラーが減少します。 。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal#定性的評価

対話におけるジェスチャーの一貫性により、定量的に評価することは難しいため、研究者らは評価に定性的な方法を使用しました。彼らは MTurk で 2 セットの A/B テストを実施しました。具体的には、評価者に、私たちの手法とベースライン手法で生成された結果、または私たちの手法と実際のシーンのビデオのペアを見て、どのビデオの動きがより合理的に見えるかを評価するように依頼しました。

図 8 に示すように、この方法は以前のベースライン方法 LDA よりも大幅に優れており、レビュー担当者の約 70% がグリッドとリアリズムの点で Audio2Photoreal を好みます。

図 8 の上部のグラフに示すように、LDA と比較して、この手法に対する評価者の評価は「やや好き」から「非常に好き」に変化しました。現実と比較しても同様の評価が示されている。それでも、評価者はリアリズムに関しては、Audio2Photoreal よりも本物を支持しました。

ネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photoreal

技術的な詳細については、元の論文をお読みください。

以上がネットワークケーブルに沿って登るのが現実となり、対話を通じてリアルな表現や動きを生成できるAudio2Photorealの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元Apr 07, 2023 pm 02:57 PM

自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。然鹅,现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计,在1000多家受访美国企业中,用ChatGPT取代部分员工的,比例已达到惊人的48%。在这些企业中,有49%已经启用ChatGPT,还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道:相关话题还曾一度冲上了知乎热榜,众网友表示,不得不承认,现在ChatGPT等AIGC工具已势不可挡——浪潮既来,不进则退。有程序员还指出:用过Copil

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。