ホームページ >テクノロジー周辺機器 >AI >iPhone は 300 平方メートルの部屋をリアルタイムでレンダリングし、その精度はセンチメートルレベルに達します。 Googleの最新調査:NeRFはまだ破産していない
大規模なシーンの 3D リアルタイム レンダリングは、コンピューターまたは携帯電話でも完了できます。
リビング ルームからマスター ベッドルーム、物置、キッチン、バスルームに至るすべてのブラインド コーナーを、本物のビデオを撮影するのと同じように、コンピューター上でリアルにレンダリングできます。
さらに、iPhone 上で複雑なシーンのレンダリングを完了することもできます。
Google、Google DeepMind、テュービンゲン大学の研究者らは最近、新技術 SMERF を提案しました。
スマートフォンやラップトップなどのさまざまなデバイス上で、大規模なビュー シーンをリアルタイムでレンダリングできます。
論文アドレス: https://arxiv.org/pdf/2312.07541.pdf
エッセンス技術的に言えば、SMERF は NeRF に基づく方法であり、よりメモリ効率の高い MERF (Memory-Efficient Radiance Fields) に依存しています。
現在、ラディアンス フィールドは、フォトリアリスティックな現実世界の 3D シーンを再構築および再レンダリングするための強力で簡単に最適化された表現として登場しています。
メッシュや点群などの明示的な表現とは対照的に、放射線場は通常、ニューラル ネットワークとして保存され、体積測定光線の移動を使用してレンダリングされます。
十分な計算量があれば、ニューラル ネットワークは複雑なジオメトリとビュー依存の効果を簡潔に表現できます。
#ボリューム表現として、イメージのレンダリングに必要な操作の数は、プリミティブの数ではなくピクセル数で測定されます (例: 三角形)、最高のパフォーマンスを提供します 最高のモデルには、数千万回のネットワーク評価が必要です。
したがって、放射線場のリアルタイム手法は品質、速度、または表現サイズの点で譲歩しており、そのような表現がガウス スプラッティングなどの代替手段と競合できるかどうかは未解決のままです。質問。
最新の研究では、著者はこれまでよりも忠実度の高いリアルタイム大空間レンダリングを実現するスケーラブルな方法を提案しています。
SMERF は、住宅のレンダリングなどの大規模な 3D 表現を学習するために特別に設計されています。
Google と他の研究者は、空間と学習パラメータの異なる部分が異なる MERF で表される階層モデル分割スキームを組み合わせました。
これにより、モデルの容量が増加するだけでなく、計算要件とメモリ要件も制限されます。このような大規模な 3D 表現は、従来の NERF ではリアルタイムでレンダリングできないためです。
#K=3 個の座標空間パーティションと P=4 個の遅延出現ネットワーク サブパーティションを備えた SMERF のシーンの座標系SMERF のレンダリング品質を向上させるために、研究チームは「教師と生徒」の蒸留方法も使用しました。
この方法では、すでにトレーニングされた高品質の Zip-Nerf モデル (教師) を使用して、新しい MERF モデル (生徒) をトレーニングします。
「教師のスーパービジョン」の全体的なプロセスは次のとおりです。教師モデルは、カラーのレンダリングによる測光監視と、カメラ光線に沿った体積重み付けによる幾何学的監視を提供します。教師も生徒も同じ一連の光間隔で操作します。
このアプローチにより、研究者は強力な Zip-Nerf モデルの詳細と画質をより効率的かつ高速な構造に転送できます。
これは、スマートフォンやラップトップなどのそれほど強力ではないデバイス上のアプリに特に役立ちます。
研究者らはまず、Zip-NeRF によって導入された 4 つの主要なシナリオ (ベルリン、アラメダ、ロンドン) でこの方法を評価しました。ニューヨーク。
これらの各シーンは、180 度の魚眼レンズを使用して 1,000 ~ 2,000 枚の写真から撮影されました。 3DGS との包括的な比較を行うために、研究者らは写真を 110° にトリミングし、COLMAP を使用してカメラ パラメーターを再推定しました。
表 1 に示す結果は、中程度の空間分割 K の場合、最先端の手法の精度が MERF および 3DGS を大幅に上回っていることを示しています。
K が増加すると、モデルの再構成精度が向上し、Zip-NeRF 教師の精度に近づきます。K=5 の場合、その差は 0.1 PSNR と 0.01 未満になります。 SSIM。
研究者らは、図 5 に示すように、これらの量的な改善が再構成精度の質的な改善を過小評価していることも発見しました。
大規模なシーンでは、SMERF メソッドは、薄いジオメトリ、高周波テクスチャ、鏡面ハイライト、およびリアルタイム ベースラインの範囲を超えた遠方のコンテンツを一貫してモデル化します。
#同時に、研究者らは、サブモデルの解像度を上げると、特に高周波テクスチャの品質が自然に向上することを発見しました。
実際、研究者らは、図 8 に示すように、最新のレンダリング手法が Zip-NeRF とほとんど区別できないことを発見しました。
さらに、研究者らは、屋内および屋外シーンの mip-NeRF 360 データセットに関する最先端の手法をさらに評価しました。
これらのシーンは、Zip-NeRF データセット内のシーンよりもはるかに小さいため、高品質の結果を得るために空間を細分化する必要はありません。表 2 に示すように、モデルの K=1 バージョンは、画質の点でこのベンチマークの以前のすべてのリアルタイム モデルよりも優れており、レンダリング速度では 3DGS に匹敵します。
図 6 と 8 は、この改善を定性的に示しています。研究者が提案した方法は、高周波のジオメトリとテクスチャを表現する点ではるかに優れています。気が散る漂流物や霧を排除します。
トレーニング後は、SMERF をブラウザで使用できるロールアップ一般的なスマートフォンやラップトップでのリアルタイム レンダリングによる完全な 6 自由度のナビゲーションを可能にします。
大規模な 3D シーンをリアルタイムでレンダリングする機能が、ビデオ ゲーム、仮想拡張現実、プロフェッショナルなデザインや建築アプリケーションなどのさまざまなアプリケーションにとって重要であることは誰もが知っています。
たとえば、Google Immersive Maps では、リアルタイム ナビゲーションが可能です。
ただし、Google などのチームが提案する最新の方法にも一定の制限があります。 SMERF は再構成品質とストレージ効率に優れていますが、ストレージ コストが高く、読み込み時間が長く、トレーニング ワークロードが重いという問題があります。
しかし、この研究は、NeRF や同様の放射線場が 3 次元ガウスステッチング法と比較して、将来的にも利点を持つ可能性があることを示しています。
以上がiPhone は 300 平方メートルの部屋をリアルタイムでレンダリングし、その精度はセンチメートルレベルに達します。 Googleの最新調査:NeRFはまだ破産していないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。