ホームページ >テクノロジー周辺機器 >AI >NVIDIA、遠隔電話会議用の AI 3D ビデオ チャット ソリューションを開発
ビデオ会議システムは 50 年以上前に初めて商品化され、人々は何千マイルも離れた同僚、友人、家族と視聴覚でコミュニケーションできるようになりました。ビデオ会議の最終的な目標は、リモートの参加者間で、あたかも全員が同じ場所にいるかのように、没入型のコミュニケーションを可能にすることです。
既存の 3D ビデオ会議システムは、アイコンタクトやその他の非言語的合図をキャプチャできる可能性を示していますが、高価な 3D キャプチャ機器を必要とします。「AI 仲介 3D ビデオ会議」と呼ばれるプロジェクトで、NVIDIA、カリフォルニア大学サンディエゴ校、ノースカロライナ大学チャペルヒル校のチームは、高忠実度で低コストのビデオ会議システムの開発に成功しました。 AI人工知能技術を活用した3Dテレプレゼンス方式で、3Dスキャンでは実現できない新機能を提供
さらに、チームのソリューションは、立体ディスプレイやライトフィールド ディスプレイなど、さまざまな既存の 3D ディスプレイと互換性があります。
詳細記事
: AI を使用してサイズを削減、Google がライト フィールド呼び出しプロジェクト Project Starline の新たな反復を実証Google がライト フィールド通話プロジェクト Project Starline を改善するために人工知能を使用していることは注目に値します。簡単に言えば、Project Starline は、ライト フィールド テクノロジーを使用して、相手が実際に向かい側に座っているかのような感覚を生み出す 3D ビデオ チャット ルームです。この革新的なリモート コミュニケーション ツールは、Google のハードウェアとソフトウェアの進歩を組み合わせて、友人、家族、同僚がリモートでコミュニケーションする際により没入できるようにします。
NVIDIA チームは「AI 仲介 3D ビデオ会議」プロジェクトに戻り、SIGGRAPH でセットアップをデモンストレーションし、それについて執筆しました
図示のシステムには、単一の RGB Web カメラから 2D ビデオを記録および送信する送信側と、2D ビデオを受信して 3D に変換し、新しい 3D ビューを表示する受信側が含まれています。
ワンショット アプローチを使用することで、研究者は、ポーズを付けていない 1 つの画像からリアルな 3D 表現をリアルタイムで推論してレンダリングし、NVIDIA RTX A5000 ラップトップ上でライト フィールド画像を生成できます。インスタント AI 超解像度テクノロジーを使用すると、参加者は瞬時に自分の 3D セルフイメージを確認できます。参加者は、2D ウェブカメラの画像がヘッドトラッキング機能を備えた立体的な 3D ビューに持ち上げられる様子をリアルタイムで観察できます。 ユーザーは、Web カメラ画像の使用に加えて、2D アバター ジェネレーター モジュールを使用して、ユーザー主導の 2D アバターを生成およびカスタマイズすることもできます。
研究者らは、2D 入力を効率的な三平面の暗黙的な 3D 表現に変換するための Vision Transformer に基づく新しいエンコーダを提案することにより、3D 拡張において重要な進歩を遂げました。ユーザーの 1 つの RGB 画像を指定すると、この方法はユーザーの正面 3D 表現を自動的に作成し、ボリューム 3D レンダリングを通じて新しい視点から効率的にレンダリングできます。
この文を書き直すと、次のようになります。 3 プレーン エンコーダは、トレーニング用に事前トレーニングされた EG3D によって生成された合成データに完全に依存しますが、3D リフティング モジュールは、生成された事前分布を使用して、生成されたビューが複数のビューにわたって一貫していることを確認します。ビューと写真 リアリズムと、個別の特別なトレーニングなしで誰にでも一発で適用できるという点で
チームは最先端のニューラル手法を使用して、図に示すように、特定のユーザー画像のリダイレクトされた視線を合成し、視線補正を通じて 2D 画像を 3D 画像にアップグレードすることでアイコンタクトを実現しました
このシステムは、1 人用の立体ディスプレイや複数人用のライト フィールド ディスプレイなど、さまざまな既製 3D ディスプレイをサポートしています。
この写真は、Dimenco の 32 インチ 3D 立体ディスプレイの使用を示しています。アイトラッキングとレンズテクノロジーを使用して、ユーザーの目の位置を正確に表示する立体画像をレンダリングします。 A は概要を示し、b と c は参加者の立体画像を正しい視点で記録するシステムの機能を示します。一方、d と e は、単一の RGB 画像が与えられた場合、この方法で現実的なテレプレゼンス効果を生成できることを示しています。
さらに、研究者らは 32 インチの Look Glass モニターを使用して AI システムを評価しました。ディスプレイには等身大のトーキングヘッドを同時に表示できるため、複数の人がはっきりと見ることができます。このライトフィールドディスプレイは、一般の聴衆やデモンストレーションを待っている人にテクノロジーの明確なデモンストレーションを提供します。
次に、列に並んでいる人は、さまざまなブースで 3D ディスプレイを試し、マルチチャンネルの人工知能によるガイドによる 3D ビデオ会議を体験できます。詳細資料
:AI を介した 3D ビデオ会議詳細資料
:ライブ 3D ポートレート: 単一画像ポートレート ビュー合成のためのリアルタイム放射フィールド チームが NVIDIA TensorRT を使用してエンコーダーを最適化し、NVIDIA A6000 Ada Generation GPU でのリアルタイム推論を可能にしたことは注目に値します。システム全体は、キャプチャ、ストリーミング、レンダリングを含めて 100 ミリ秒未満で実行されます
以上がNVIDIA、遠隔電話会議用の AI 3D ビデオ チャット ソリューションを開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。