ホームページ >テクノロジー周辺機器 >AI >速度が24倍に向上し、大規模な屋内シーンの逆レンダリングを30分で完了可能 Rushiの研究成果がCVPR 2023に選出
インバースレンダリング技術の研究成果は、コンピュータビジョンのトップカンファレンスCVPRに2年連続で選出されており、単一画像の処理から屋内シーン全体をカバーするまでの範囲に及びます。次元の再構成が鮮やかに実証されました。
三次元再構成は、コンピュータ ビジョン (CV) およびコンピュータ グラフィックス (CG) の注目のトピックの 1 つであり、CV テクノロジを使用して、カメラなどでキャプチャされた実際の物体やシーンの 2 次元画像を処理します。センサーを使用して 3 次元モデルを取得します。関連技術が成熟し続けるにつれて、3D 再構築は、スマート ホーム、AR ツーリズム、自動運転と高精度地図、ロボット、都市計画、文化遺物の再構築、映画エンターテインメントなど、さまざまな分野でますます使用されています。
#2 次元画像に基づいた典型的な 3 次元の顔の再構成。出典: 10.1049/iet-cvi.2013.0220
従来の 3 次元再構成は、測光法と幾何学的手法に大別され、前者はピクセルの明るさの変化を解析し、後者は視差を利用して再構成します。再建。近年、機械学習、特に深層学習技術が活用され始めており、特徴検出や深さ推定などにおいて良好な成果を上げています。現在の手法の中には空間幾何学モデルやテクスチャ マップを使用するものもありますが、シーンの外観は現実世界とほぼ同じに見えます。
ただし、これらの方法にはまだいくつかの制限があることに注意してください。これらの方法はシーンの外観特性を復元することしかできず、シーン内の照明、反射率、粗さなどのより深い属性をデジタル化することはできません。深い情報 編集は問題外です。これにより、レンダリング エンジンで使用できる PBR レンダリング アセットに変換できなくなり、リアルなレンダリング効果を生み出すことができなくなります。これらの問題を解決するにはどうすればよいでしょうか?逆レンダリング技術は徐々に人々の視野に入ってきました。
逆レンダリング タスクは、1978 年に古い世代のコンピューター科学者であるバローとテネンバウムによって最初に提案されました。3 次元の再構築に基づいて、照明、反射率、粗さ、金属性などのシーンの固有の特性は次のようになります。よりリアルな描写を実現するためにさらに復元されます。ただし、画像からこれらの属性を分解することは非常に不安定であり、属性構成が異なると同様の外観になることがよくあります。微分可能レンダリングと暗黙的ニューラル表現の進歩により、いくつかの手法は、明示的または暗黙的な事前分布を伴う小さなオブジェクト中心のシーンで良好な結果を達成しました。
しかし、大規模な屋内シーンの逆レンダリングは十分に解決されておらず、実際のシーンで物理的に合理的なマテリアルを復元することが難しいだけでなく、シーン内の複数の視点の一貫性を確保することも困難です。シーン。 中国には、コア アルゴリズムの独立した研究開発に深く取り組み、3D 再構築の分野で大規模な産業応用に焦点を当てているテクノロジー企業、Realsee があります。大規模な屋内シーンのレンダリング効率的なマルチビュー逆レンダリング フレームワークを提案します。この論文は CVPR 2023 カンファレンスに採択されました。
具体的には、Rushi の新しいメソッドは、正確な空間データに基づいて、照明、反射率、粗さなどのシーンを取得するために逆推測することができます。属性は、3D 再構成に基づいて実際のシーンに近い照明とマテリアルのパフォーマンスを復元し、再構成効果、コスト効率、適用範囲などの側面で包括的な向上を実現します。
この記事では、大規模な屋内シーン向けの Rushi のマルチビュー逆レンダリング テクノロジを詳細に解釈し、その利点を詳細に分析します。
下の図2は、RuShiの新しい逆レンダリング手法の全体像を示しています。プロセス。この方法は、大規模な屋内シーンの調整された一連の HDR 画像を考慮して、グローバルに一貫した照明と SVBRDF (双方向反射率分布関数) を正確に回復することを目的としており、画像パイプラインやダウンストリーム アプリケーションへの簡単な統合を可能にします。
これらの目標を達成するために、Rushi は最初に TBL (Texture-based Lighting) と呼ばれるコンパクトな照明表現を提案しました。これは、3D メッシュと HDR テクスチャで構成され、グローバルな照明を効率的に構築します。大きな屋内シーン全体の任意の位置での直接照明と無限バウンス間接照明を含む照明。 Rushi 氏は、TBL に基づいて、事前に計算された放射照度を使用した 混合照明表現 をさらに提案しました。これにより、マテリアルの最適化における効率が大幅に向上し、レンダリング ノイズが削減されました。最後に、Rushi 氏は、セグメンテーションに基づく 3 段階のマテリアル最適化戦略 を導入しました。これは、複雑な大規模な屋内シーンにおけるマテリアルの物理的な曖昧さをうまく処理できます。
テクスチャベースの照明 (TBL)
大規模な屋内シーンの照明を表現する場合、TBL の利点は ニューラル表現と IBL のコンパクトさに反映されます。グローバル イルミネーション、パラメトリック ライトの解釈可能性と空間的一貫性#。 TBL はシーン全体のグローバル表現であり、すべてのサーフェス ポイントの出射放射照度を定義します。表面ポイントの放出放射照度は、通常、HDR テクスチャの値、つまり、入力 HDR 画像内の対応するピクセルの観測された HDR 放射照度に等しくなります。
Rushi は、独自に開発した高品質 3D 再構築技術を使用して、大規模なシーン全体のメッシュ モデルを再構築します。最後に、入力 HDR 画像に基づいて HDR テクスチャが再構築され、HDR テクスチャを介して任意の位置および任意の方向からグローバル イルミネーションがクエリされます。以下の図 3 (左) は、TBL を視覚化したものを示しています。
混合照明表現
実際には、TBL を直接使用してマテリアルを最適化することには欠点があります。サンプルを使用すると、計算コストとメモリ コストが高くなります。ほとんどのノイズは拡散成分に存在するため、拡散成分の表面点の放射照度は事前に計算されます。したがって、図 3 (右) に示すように、コストのかかるオンライン計算に代わって放射照度を効率的にクエリできるようになります。 TBL ベースのレンダリング式は、式 (1) から式 (2) に書き換えられます。
Rushi は、事前計算された放射照度をモデル化する 2 つの表現を提案しています。 1 つは Neural Irradiance Field (NIrF) で、表面点を入力として受け取り、放射照度 p を出力する浅い多層パーセプトロン (MLP) です。もう 1 つは イラディアンス テクスチャ (IrT) で、コンピュータ グラフィックスで一般的に使用されるライト マップに似ています。
ご覧のとおり、この混合ライティング表現には、拡散コンポーネントの事前計算された放射照度と鏡面コンポーネントのソース TBL が含まれており、これによりレンダリング ノイズが大幅に削減され、マテリアルの効率的な最適化が実現されます。式 (2) の拡散成分は、式 (3) に示すようにモデル化されます。
#セグメンテーションに基づく 3 段階のマテリアル推定
ニューラルマテリアルの場合、非常に複雑なマテリアルを大規模に使用することは困難ですシーンに対応しており、従来のグラフィック エンジンには適していません。ジオメトリを直接最適化する明示的なマテリアル テクスチャを選択する代わりに、Disney BRDF モデルの簡略化されたバージョンがパラメータとして SV アルベドと SV 粗さを使用して使用されました。ただし、観察がまばらであるため、明示的なマテリアル テクスチャを直接最適化すると、一貫性がなく収束しない粗さが生じます。 これに関して、Rushi はセマンティックおよび部屋セグメンテーション事前分布を利用してこの問題を解決します。セマンティック画像は学習ベースのモデルによって予測され、部屋セグメンテーションは占有グリッドによって計算されます。実装プロセスにおいて、Rushi は 3 段階の戦略を採用しています。
最初のステージでは、小さなオブジェクト中心のシーンのようにアルベドを定数に初期化するのではなく、ランバートの仮定に基づいてスパース アルベド を最適化します。拡散アルベドは式 (3) で直接計算できますが、ハイライト領域のアルベドが明るくなりすぎて、次の段階で過度のラフネスが発生します。したがって、以下の式 (4) に示すように、セマンティック スムージング制約を使用して、同じセマンティック セグメンテーションに同様のアルベドを誘導します。スパース アルベドは式 (5) によって最適化されます。
第 2 段階の仮想ハイライト (VHL) ベースのサンプリングとセマンティックベースの伝播。マルチビュー イメージでは、まばらな鏡面反射キューのみが観察され、特に大規模なシーンで全体的に一貫性のない粗さが生じます。ただし、事前のセマンティック セグメンテーションを通じて、ハイライト領域の適度な粗さを同じセマンティクスを持つ領域に伝播することができます。
Rushi はまず、粗さ 0.01 の入力ポーズに基づいて画像をレンダリングして、各セマンティック クラスの VHL 領域を見つけます。次に、凍結されたスパース アルベドとライティングに基づいてこれらの VHL の粗さを最適化します。妥当な粗さは、式 (6) を介して同じセマンティック セグメンテーションに伝播でき、この粗さは式 (7) を介して最適化できます。#セグメンテーション ベースの微調整の第 3 段階。 RuShi は、セマンティック セグメンテーションと部屋セグメンテーションの事前設定に基づいて、すべてのマテリアル テクスチャを微調整します。具体的には、Rushi は式 (4) と同様のスムージング制約と粗さの部屋スムージング制約を使用して、さまざまな部屋の粗さをより柔らかく滑らかにします。部屋の平滑化制約は式 (8) によって定義されますが、アルベドに平滑化制約を使用しない場合、総損失は式 (9) によって定義されます。
実験設定と効果の比較
データセットについて、Rushi は 2 つのデータ セットを使用しました:合成データ セットそして実際のデータセット。前者の場合、Rushi はパス トレーサーを使用して、さまざまなマテリアルとライトを使用した複合シーンを作成し、最適化のための 24 のビューと 14 の新しいビューをレンダリングし、ビューごとに Ground Truth マテリアル イメージをレンダリングしました。後者の場合、Scannet、Matterport3D、Replica などの一般的に使用される大規模シーンの実際のデータセットにはフル HDR 画像が不足しているため、Rushi は 10 個のフル HDR リアル データセットを収集し、7 つのブラケット露出を結合することで 10 ~ 20 個のデータセットをキャプチャしました。フルHDRのパノラマ画像。
ベースライン手法について。大規模シーンの多視点画像から SVBRDF を復元するための現在の逆レンダリング手法には、単一画像学習に基づく SOTA 手法 PhyIR、多視点オブジェクト中心の SOTA ニューラル レンダリング手法 InvRender、NVDIFFREC、および NeILF が含まれます。 評価メトリクスに関して、Rushi は PSNR、SSIM、MSE を使用してマテリアル予測と再レンダリングされたイメージを評価して定量的比較を行い、MAE と SSIM を使用して異なる照明表現でレンダリングされた再照明イメージを評価します。
まず、以下の表 1 と図 4 に示すように、合成データ セットの評価を見てみましょう。 Rushi メソッドは、粗さの推定において SOTA メソッドよりも大幅に優れており、粗さによって生成される物理的に妥当な鏡面反射率 。さらに、元の暗黙的表現と比較して、視覚的なハイブリッド照明表現を備えた NeILF では、マテリアルと照明の間のあいまいさが軽減されます。
その後、複雑なマテリアルと照明を含む困難な実際のデータ セットで評価しました。以下の表 2 の 定量的比較結果は、Rushi メソッドが以前のメソッドよりも優れていることを示しています。 1.メソッド。これらの方法にはおおよその再レンダリング エラーがありますが、グローバルに一貫性があり、物理的に健全なマテリアルを分離するのは視覚的な方法だけです。
以下の図 5 と図 6 は、それぞれ 3D ビューと 2D 画像ビューの定性的な比較 を示しています。 PhyIR はドメイン ギャップが大きいため汎化パフォーマンスが低く、グローバルな一貫性予測を達成できません。 InvRender、NVDIFFREC、および NeILF では、アーティファクトを伴う不鮮明な予測が生成され、正しいマテリアルを分離することが困難でした。 NVDIFFREC は RuSight メソッドと同様のパフォーマンスを達成できますが、アルベドとラフネスの間のあいまいさを切り離すことはできません。そのため、鏡面反射成分のハイライトが誤って拡散アルベドに復元されてしまいます。
アブレーション実験
示されているように、照明表現とマテリアルの最適化戦略の有効性を実証するために、TBL、アブレーション実験は、ハイブリッド照明表現、第 1 段階でのアルベド初期化、第 2 段階での粗さ推定のための VHL サンプリングとセマンティック伝播、そして第 3 段階でのセグメンテーションベースの微調整について実施されました。 最初に
TBLを、以前の方法で広く使用されていたSH照明およびSG照明方法と比較しました。結果を以下の図7に示します。たとえば、ビデオTBLは、低周波と高周波の両方を備えています。・周波数特性も忠実に再現。
次に、混合照明表現の有効性を検証します。
混合照明表現を元の TBLと比較します。結果を以下の図 8 に示します。混合ライティング表現を使用しないと、アルベドによってノイズが発生し、収束が遅くなる可能性があります。事前計算された放射照度の導入により、高解像度入力を使用して微細な材料を回収できるようになり、最適化プロセスが大幅にスピードアップされます。同時に、IrT は、NIrF と比較して、より微細でアーチファクトのないアルベドを生成します。
最後に
3 段階戦略の有効性が検証されました その結果を以下の表 3 と図 9 に示します。ベースラインの粗さは収束せず、ハイライト領域のみが更新されます。最初の段階でアルベドの初期化を行わないと、ハイライト領域が明るすぎて不正確なラフネスが発生します。 VHL ベースのサンプリングとセマンティックベースの伝播の第 2 段階は、鏡面反射光ハイライトが観察されない領域で適度な粗さを回復するために重要です。セグメンテーションベースの微調整の第 3 段階では、細かいアルベドが生成され、最終的な粗さがより滑らかになり、異なるマテリアル間での粗さの誤差の伝播が防止されます。
実際、Rushi は CVPR 2022 論文「PhyIR: パノラマ屋内画像のための物理ベースの逆レンダリング」でニューラル ネットワーク トレーニング方法を提案することにより、単一画像の逆レンダリング タスクで SOTA の結果を達成しました。新しい逆レンダリング フレームワークは、家全体、空間、シーンなど複数の視点を実現するだけでなく、以前の逆レンダリング手法の多くの重要な欠陥も解決します。 まず第一に、合成データ トレーニングに基づく以前の方法は、実際のシナリオではうまく機能しませんでした。 Rushi の新しいデプス インバース レンダリング フレームワークは、「階層的シーン プリオリ」を初めて導入し、多段階のマテリアル最適化を通じて、Rushi デジタル空間の世界最大の 3 次元空間データベースの生活空間データと組み合わせることで、空間内の照明、反射率、ライティングを実現します。粗さなどの物理的特性により、階層的かつ正確な予測が可能になります。 最終出力は、物理的に合理的でグローバルに一貫したマルチタイプのマテリアル マップです。これは、Rushi 機器によって実際にキャプチャされた屋内シーン データをデジタル レンダリング アセットにシームレスに変換し、現在のニーズに適応します。 Unity、Blender など。すべての主流のレンダリング エンジン により、シーン アセットと物理ベースの MR アプリケーション (マテリアル編集、新しいビュー合成、再ライティング、仮想オブジェクト挿入など) の自動生成が可能になります。この汎用性の高いデジタル資産は、将来さらにさまざまなアプリケーションや製品をサポートするのに役立ちます。
リライティング Secondly ただし、大規模な屋内シーンにはオクルージョンやシャドウなどの複雑な光学効果が多数存在するため、微分可能レンダリングでグローバル イルミネーションをモデル化すると、高い計算コストがかかります。例えば、今回提案された TBL は屋内シーンのグローバル イルミネーションを効率的かつ正確に表現でき、必要なメモリは約 20MB だけですが、密グリッドベースの VSG ライティング [2] は約 1GB のメモリを必要とし、スパース グリッドベースの VSG ライティング [2] は約 1GB のメモリを必要とします。 SH 照明方式プレノセル [3] 約 750MB のメモリが必要となり、 データメモリ容量が数十分の それだけでなく、Rushi の新しい方法では屋内シーン全体の逆レンダリングを 30 分以内に完了できますが、従来の方法 [4] では約 、合計 24 倍 の改善。計算速度の大幅な向上はコストの削減とコストパフォーマンスの大幅な向上を意味し、大規模な実用化に一歩近づくことができます。 最後に、これまでの NeRF 風のニューラル インバース レンダリング手法 (PS-NeRF [5]、NeRFactor [6] など) は主にオブジェクトを中心とした小規模なシーンを対象としており、無力であるように見えます。大規模な屋内シーンをモデル化します。 Rushi の正確なデジタル空間モデルと効率的かつ正確な混合照明表現に基づいた新しい逆レンダリング フレームワークは、セマンティック セグメンテーションと部屋セグメンテーションの事前分布を導入することでこの問題を解決します。 この新しいディープ インバース レンダリング フレームワークについて、Rushi のチーフ サイエンティストである Pan Cihui 氏は次のように述べています。「これは、現実世界のより深いデジタル化を真に実現し、現実のシーンで物理を復元することが困難だった以前のインバース レンダリング手法の問題を解決します。合理的なマテリアルと照明、およびマルチビューの一貫性の問題により、3D 再構築と MR のアプリケーションに大きな想像力がもたらされます。」 インバース レンダリング テクノロジの利点を理解してください デジタル空間 中国イノベーション VR 産業統合 これらのアルゴリズムと技術的利点は、現実世界のより深いデジタル化を実現し、デジタル空間の構築をさらに加速します。現在、Rushi Digital Spaceは、自社開発の収集機器を通じて、さまざまな国とさまざまなアプリケーションシナリオで2,700万セット以上のコレクションを蓄積しており、22億7,400万平方メートルの面積をカバーしています。 Rushi Digital Space は、同社の VR 業界統合開発の方向性も支援し、商業小売、産業施設、文化展示会、広報、室内装飾、不動産取引、および VR 住宅の閲覧、 VRミュージアムなど Rushi が開発した AI マーケティング アシスタント VR 業界の統合において、Rushi の最大の利点は継続的なサービスであることです進化したデジタル再構築アルゴリズムと大量の実データの蓄積により、高い技術的障壁と大きなデータ障壁が生じています。これらのアルゴリズムとデータはある程度相互に循環することもでき、その利点は常に拡大されます。同時に、データとアルゴリズムの障壁により、Rushi はさまざまな業界の問題点に切り込み、技術的な解決策をもたらし、業界発展の新しいモデルを革新することが容易になります。 Rushi の新しい逆レンダリング テクノロジーの強みは何ですか?
Rushi は長年にわたり、3D 再構成の分野で多くの技術を蓄積し、磨きに多大なエネルギーを投資し、関連アルゴリズムの実装に取り組んできました。同時に、最先端技術の研究開発に多大な支援を提供し、業界の最先端技術を征服することを重視しています。これらは、この新しい逆レンダリング技術を含む、RuShi の 3D 現実モデルの再構成と MR 研究の重要な基盤となり、国際的な学術コミュニティからの評価を得るとともに、RuShi のアルゴリズム能力が理論研究の点で国際トップレベルに到達するのに役立ちました。そして技術的な応用。
以上が速度が24倍に向上し、大規模な屋内シーンの逆レンダリングを30分で完了可能 Rushiの研究成果がCVPR 2023に選出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。