ホームページ  >  記事  >  テクノロジー周辺機器  >  「人物とシーンのインタラクティブ生成」で新たな躍進!天達大学と清華大学がナレーターをリリース: テキスト駆動、自然に制御可能 | ICCV 2023

「人物とシーンのインタラクティブ生成」で新たな躍進!天達大学と清華大学がナレーターをリリース: テキスト駆動、自然に制御可能 | ICCV 2023

PHPz
PHPz転載
2023-09-11 23:13:05907ブラウズ

自然で制御可能なヒューマン シーン インタラクション (HSI) の生成は、仮想現実/拡張現実 (VR/AR) コンテンツ作成や人間中心の人工知能などの多くの分野で重要な役割を果たしています。

#しかし、既存の方法には制御性が限られ、インタラクションの種類が限られ、生成される結果が不自然であり、実際の適用シナリオが大幅に制限されています。

ICCV 2023 での研究では、天津大学と清華大学のチームが、この問題を調査するためにナレーターと呼ばれるソリューションを提案しました。このソリューションは、テキストの説明から現実的で多様な人間のシーンのインタラクションを自然かつ制御可能に生成するという困難なタスクに焦点を当てています

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 Picture

プロジェクトのホームページのリンク: http://cic.tju.edu.cn/faculty/likun/projects/Narrator

書き換えられた内容は次のとおりです: コードのリンク: https://github.com/HaibiaoXuan/Narrator

人間の認知の観点から見ると、理想的な生成モデルは、空間関係を正しく推論し、相互作用の自由度を探索できる必要があります。

そこで、著者は関係推論に基づく生成モデルを提案します。このモデルは、シーン グラフを通じてシーンと説明の空間的関係をモデル化し、インタラクティブなアクションを原子パーツの状態として表現するパーツレベルのインタラクション メカニズムを導入します。

特に、著者は単純なしかし、関係推論による効果的な複数人生成戦略は、制御可能な複数人シーンのインタラクティブな生成の最初の探求です

最終的に、広範な実験とユーザー調査の後、著者はナレーターが次のことを証明しました。制御可能な方法で多様なインタラクションを生成でき、その効果は既存の作品よりも大幅に優れています

#メソッド モチベーション

既存の人間とシーンのインタラクション生成方法は主にインタラクションの物理的な幾何学的関係に焦点を当てていますが、生成に対する意味論的な制御が欠如しており、単一人物の生成に限定されています。

したがって、著者らは、自然言語記述から現実的で多様な人間のシーンのインタラクションを制御可能に生成するという困難なタスクに焦点を当てます。著者らは、人間は通常、空間認識と行動認識を使用して、さまざまな場所でさまざまな相互作用に従事している人々を自然に描写していることを観察しました。

画像「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023書き換えられたコンテンツは次のとおりです。 図 1 によると、ナレーターは意味的に一貫した物理的なメッセージを自然かつ制御可能に生成できます。合理的な人間とシーンのインタラクションは、次の状況に適しています: (a) 空間関係に基づいたインタラクション、(b) 複数のアクションに基づいたインタラクション、(c) 複数人のシーンのインタラクション、および (d) 上記のインタラクション タイプの組み合わせ- シーン インタラクション

具体的には、空間関係を使用して、シーンまたはローカル エリア内のさまざまなオブジェクト間の相互関係を説明できます。インタラクティブなアクションは、人間の両足が地面に着く、胴にもたれる、右手でタップする、頭を下げるなど、原子の各部分の状態によって指定されます。 ##これを出発点として、著者は空間関係を表すためにシーン グラフが使用され、後続の世代にグローバルな位置認識を提供するためにジョイント グローバルおよびローカル シーン グラフ (JGLSG) メカニズムが提案されています。

同時に、ボディパーツの状態がテキストと一致する現実的なインタラクションをシミュレートするための鍵であることを考慮して、著者はパーツレベルアクション (PLA) メカニズムを導入して、人体の各部位とそれらの間の動作の対応関係。

効果的な観察的認知と、提案された関係論的推論の柔軟性と再利用可能性の恩恵を受けて、著者はさらに、シンプルで効果的な複数人生成戦略を提案します。これは、当時初めて自然に制御可能なものでした。ユーザーフレンドリーなマルチヒューマンシーンインタラクション(MHSI)生成ソリューション。

メソッドのアイデア

ナレーター フレームワークの概要

ナレーターの目標は自然であることですテキストの説明と意味的に一貫性があり、3 次元シーンと物理的に一致するキャラクターとシーン間のインタラクションを生成する制御可能な方法

##Picture

図 2 ナレーター フレームワークの概要

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023図 2 に示すように、このメソッドは Transformer ベースの条件付き変分オートエンコーダー (cVAE) を使用します。これには主に次のいくつかの部分が含まれます。

既存の研究と比較して、複雑な空間関係を推論し、全地球測位認識を達成するために、グローバルおよびローカルの共同シーン グラフ メカニズムを設計します

2)人間は体のさまざまな部分でインタラクティブなアクションを同時に完了するという観察に基づいて、現実的で多様なインタラクションを実現するために、コンポーネント レベルのアクション メカニズムが導入されています。最適化プロセスを意識し、より良い生成結果を得るためにインタラクティブな両面損失を追加導入しました

4) さらに複数人のインタラクションの生成まで拡張し、最終的には複数人のシーン インタラクションの最初のステップを促進します。

グローバル シーン グラフとローカル シーン グラフのメカニズムを組み合わせた

空間関係の推論により、モデルに特定のシーンに関する手がかりを提供できます。人間とシーンのインタラクションを実現し、自然な制御性が重要な役割を果たします。

この目標を達成するために、著者は、次の 3 つのステップを通じて実装される、グローバルおよびローカルのシーン グラフ結合メカニズムを提案します。 1. グローバル シーン グラフの生成: 与えられたシーンで、事前トレーニングされたシーン グラフ モデルを使用してグローバル シーン グラフ、つまり

を生成します。ここで、

はカテゴリ ラベル

を持つオブジェクトです。は 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 の間の関係、n はオブジェクトの数、m は関係の数です; 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 20232. ローカル シーン グラフの生成: セマンティック分析ツールを使用して、識別して説明する 文構造が抽出および生成され、ローカル シーン

が生成されます。ここで、

は主語、述語、目的語の 3 つの要素を定義します。

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 シーン グラフのマッチング: ~同じオブジェクト セマンティクス ラベルを使用すると、モデルはグローバル シーン グラフとローカル シーン グラフのノードに対応し、エッジ関係を拡張して位置情報を提供する仮想ヒューマン ノードを追加します

コンポーネント レベルのアクション (PLA) メカニズム

著者は、モデルが身体の重要な部分の状態に気づき、特定の状態から無関係な部分を無視できるようにする、きめの細かいパーツ レベルのアクション メカニズムを提案します。インタラクション

具体的には、著者は豊富で多様なインタラクティブなアクションを探索し、これらの可能なアクションを人体の 5 つの主要な部分 (頭、胴体、左/右腕、左/右手) にマッピングします。そして左右の下半身。

#後続のエンコードでは、One-Hot を使用してこれらのアクションと身体部分を同時に表現し、対応する関係に従ってそれらを接続できます

著者は、身体構造のさまざまな部分の状態を学習するために、マルチアクションのインタラクション生成でアテンション メカニズムを使用しています。

インタラクティブ アクションの特定の組み合わせでは、各アクションに対応する身体部分と他のすべてのアクションの間の注意は自動的にブロックされます。

「キャビネットを使って地面にしゃがむ人」を例にとると、しゃがむということは下半身の状態に相当するため、他の部分によってマークされた注意力​​はゼロになります。 書き換え内容:「キャビネットを使って地面にしゃがむ人」を例にとると、しゃがむということは下半身の状態に相当するため、他の部位への注意が完全に遮断されてしまう

#シーンを意識した最適化

作者は、幾何学的および物理的制約を使用してシーンを意識した最適化を実行し、生成結果を改善しました。この方法では、最適化プロセス全体を通じて、生成されたポーズが逸脱しないようにしながら、シーンとの接触を促進し、シーンとの相互侵入を避けるために身体を拘束します。

与えられた 3 次元シーンS 生成された SMPL-X パラメータを追加した後の最適化損失は次のとおりです:

その中で、「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 はボディの頂点がシーンに接触することを促します。「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 は符号付き距離に基づく衝突項です。「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 はサンプリングされた既存の作業と比較して追加で導入されたインタラクティブ二部構成 (IBS) 損失です。 from シーンと人体との間の等距離点のコレクション; 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 は、初期化から逸脱したパラメーターにペナルティを与えるために使用される正則化係数です。

複数人シーン インタラクション (MHSI)

現実世界のシーンでは、多くの場合、シーンと対話しているのは 1 人だけではなく、複数人です。独立して、または関係的に相互作用します。

ただし、MHSI データセットが不足しているため、既存の方法では通常、追加の手動作業が必要であり、このタスクを制御された自動方法で処理することはできません。

この目的を達成するために、著者は既存の 1 人のデータセットのみを利用し、複数人の生成方向のためのシンプルで効果的な戦略を提案します。

複数の人物に関連するテキストの説明が与えられた後、作成者はまずそれを複数のローカル シーン グラフ 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 とインタラクティブ アクション 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 に解析し、候補セットを ## として定義します。 #、l は人数です。 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

候補セット内の各項目は、まずシーン

および対応するグローバル シーン グラフ 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 とともにナレーターに入力され、その後、最適化プロセスが実行されます。 。 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

人々間の衝突を処理するために、最適化プロセス中に追加の損失

が導入されます。ここで、「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 は人々の間の記号的な距離です。 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

その後、最適化損失が実験経験に基づいて決定された閾値よりも低い場合、生成された結果は受け入れられ、人間のノードを追加することによって更新されます

; それ以外の場合、生成された結果は信頼できないとみなされ、対応するオブジェクトが削除されます。 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 を更新するシールド ノードです。 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

この更新方法は、各世代の結果と前の世代の結果の間の関係を確立し、ある程度の混雑を回避し、単純な複数の方法と一貫性があることに注目する価値があります。空間配信よりも合理的でインタラクティブな生成。

#上記のプロセスは次のように表現できます:

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

##実験結果

既存の方法では、テキスト記述から直接人間とシーンのインタラクションを自然かつ制御可能に生成できないという事実を考慮して、PiGraph [1]、POSA [2]、および COINS [3] を使用します。テキストの説明を処理できるように合理的に拡張し、同じデータセットを使用して公式モデルをトレーニングしました。変更後、これらのメソッドに PiGraph-Text、POSA-Text、COINS-Text

という名前を付けました。

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

図 3 さまざまな方法の定性的比較結果

ナレーターと 3 つのベースラインを図 3 に示します。定性的比較結果。 PiGraph-Text の表現制限により、より深刻な浸透の問題が発生します。

POSA-Text は、最適化プロセス中に極小値に陥ることが多く、その結果、インタラクティブな接触が不良になります。 COINS-Text はアクションを特定のオブジェクトにバインドし、シーンの全体的な認識を欠き、不特定のオブジェクトの侵入につながり、複雑な空間関係を処理するのが困難です。

対照的に、ナレーターは、さまざまなレベルのテキスト説明に基づいて空間関係を正確に推論し、複数のアクションの下で身体の状態を分析することで、より良い生成結果を達成できます。

表 1 に示すように、定量的な比較の観点からは、ナレーターは 5 つの指標において他の方法よりも優れており、この方法によって生成された結果はテキストの一貫性がより正確であり、物理的な妥当性が優れていることがわかります。

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023#表 1 さまざまな方法の定量的比較結果

さらに、著者は詳細な比較も提供しています。提案された MHSI 戦略の有効性をより深く理解するために分析が行われます。

現在 MHSI に関する作業がないことを考慮して、彼らはベースラインとして直接的なアプローチ、つまり COINS による逐次生成と最適化を選択しました。

公平な比較を行うために、人為的な衝突による損失も導入されています。図 4 と表 2 はそれぞれ定性的結果と定量的結果を示しており、どちらも著者が提案した戦略が MHSI 上で意味的に一貫しており、物理的に合理的であることを強く証明しています。

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023図 4 COINS 逐次生成および最適化手法を使用した MHSI との定性的比較

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

著者について

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

主な研究方向には、3 次元ビジョン、コンピュータ ビジョン、人間によるインタラクティブ生成が含まれます。シーン付き

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

#主な研究方向: 3 次元ビジョン、コンピュータ ビジョン、人体と衣服の再構築

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

研究の方向性には主に 3 次元ビジョン、コンピュータ ビジョン、画像生成が含まれます

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023##研究の方向性は主に人間中心のコンピュータ ビジョンとグラフィックスに焦点を当てています

##主な研究方向: コンピューター グラフィックス、3 次元ビジョン、コンピューテーショナル フォトグラフィー「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

##個人ホームページのリンク: https://liuyebin.com/

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

主な研究方向: 3 次元ビジョン、インテリジェントな再構成と生成

個人ホームページ: http:// cic .tju.edu.cn/faculty/likun

参考文献:

[1] Savva M、Chang A X、Hanrahan P、ほか Pigraphs: From Observationインタラクティブ スナップショットの学習[J]. ACM Transactions on Graphics (TOG)、2016、35(4): 1-12.

[2] Hassan M、Ghosh P、Tesch J 他、3D シーンの作成人間とシーンのインタラクションを学習することによる[C]. コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録. 2021: 14708-14718.

[3] Zhao K、Wang S、Zhang Y、他. セマンティック制御を使用した構成的ヒューマンシーン インタラクション合成 [C]. コンピュータ ビジョンに関する欧州会議. Cham: Springer Nature Switzerland, 2022: 311-327.

以上が「人物とシーンのインタラクティブ生成」で新たな躍進!天達大学と清華大学がナレーターをリリース: テキスト駆動、自然に制御可能 | ICCV 2023の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。