ホームページ >テクノロジー周辺機器 >AI >一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史
ビュー合成は、コンピューター ビジョンとコンピューター グラフィックスが交わる重要な問題であり、シーンの複数の写真からシーンの新しいビューを作成することを指します。
シーンの新しいビューを正確に合成するには、モデルは小さな参照画像のセットから、 詳細な 3D 構造などの複数の種類の情報をキャプチャする必要があります。 、マテリアルと照明など。
研究者らが 神経放射線場 (NeRF) モデルを 2020 年に提案して以来、この問題にもますます注目が集まり、合成パフォーマンスという新しい見解が大きく推進されました。
超大手企業の 1 つは Google であり、NeRF の分野で多くの論文も発表しています。 CVPR 2022 と ECCV 2022 で Google が発表した 2 つの論文を紹介します。 ライト フィールド ニューラル レンダリング モデル の進化について説明します。
最初の論文では、参照ピクセルの色の組み合わせを学習するための、Transformer に基づく 2 段階モデルを提案しています。まず、エピポーラ ラインに沿った特徴が取得されます。次に、参照ビューに沿った特徴が取得されてターゲット光線の色が生成され、ビューの再現精度が大幅に向上します。
#紙のリンク: https://arxiv.org/pdf/2112.09687.pdf
#クラシックライト フィールド レンダリング反射、屈折、半透明などのビュー関連の効果を正確に再現できますが、シーンの高密度のビュー サンプリングが必要です。幾何学的再構成に基づく方法は、まばらなビューのみを必要としますが、非ランバート効果、つまり 非理想散乱 を正確にシミュレートすることはできません。
この記事で提案する新しいモデルは、光に焦点を当てることで、これら 2 つの方向の利点を組み合わせ、その制限を軽減しますフィールドの 4 次元表現を操作することにより、モデルはビュー依存の効果を正確に表現することを学習できます。シーン ジオメトリは、トレーニングと推論中に幾何学的制約を強制することによって、まばらなビューのセットから暗黙的に学習されます。
このモデルは、複数の前方および 360 度のデータセットで最先端のモデルよりも優れたパフォーマンスを発揮し、視線への依存性が深刻です。性転換シーンの余裕が増します。別の論文では、正規化された位置エンコーディングを備えた
Transformer シーケンス を使用して、目に見えないシーンを合成する 一般化問題を解決しています。モデルが一連のシーンでトレーニングされた後、それを使用して新しいシーンのビューを合成できます。
#紙のリンク: https://arxiv.org/pdf/2207.10662.pdf#この記事では、深度機能と NeRF のようなボリューム レンダリングを必要としない別のパラダイムを提案します。この方法では、シーンからパッチ セットをサンプリングするだけで、新しいシーンのターゲット レイの色を直接予測できます。
最初に エピポーラ ジオメトリ
を使用して、各参照ビューの エピポーラ ラインに沿ってパッチ を抽出し、各パッチを 1 つに線形投影して割り当てます。次元特徴ベクトルに変換されると、このセットは一連の Transformer によって処理されます。 位置エンコーディングの場合、研究者らはライト フィールド表現法と同様の方法を使用して光線をパラメータ化しました。違いは、座標が相対的に正規化されていることです。これにより、メソッドが参照フレームから独立し、汎用性が向上します。 このモデルの革新的な点は、画像ベースのレンダリングを実行し、参照画像の色と特性を組み合わせて新しいビューをレンダリングすることです。それは純粋に Transformer に基づいており、イメージ パッチ セットで動作します。また、位置エンコードに 4D ライト フィールド表現を利用し、ビュー関連の効果をシミュレートするのに役立ちます。 最終的な実験結果は、この方法が、 よりもはるかに少ないデータでトレーニングされた場合でも、まだ見ていないシーンの新しいビュー合成において他の方法よりも優れていることを示しています。同じことが ## にも当てはまります。 ライト フィールド ニューラル レンダリング 新しい画像を生成するには、入力画像のカメラ パラメーターから開始し、まずターゲット レイの座標 (それぞれがピクセルに対応します) を取得する必要があります。そして各座標のモデルクエリ。 研究者らの解決策は、各参照画像を完全に処理するのではなく、ターゲット ピクセルに影響を与える可能性のある領域のみを確認することでした。これらの領域は、各ターゲット ピクセルを各参照フレーム上のラインにマッピングするエピポーラ幾何学によって決定できます。 安全のため、エピポーラ ライン上のいくつかの点の周囲の小さな領域を選択して、モデルによって実際に処理されるパッチのセットを形成し、適用する必要があります。 Transformer をこのパッチのセットに追加し、ターゲット ピクセルの色を取得します。
Transformer は、そのセルフアテンション メカニズムがパッチ コレクションを入力として自然に取得し、アテンション ウェイト自体を自然に取得できるため、この場合に特に役立ちます。参照ビューの色と特徴を組み合わせることにより、出力ピクセルの色を予測するために使用できます。 ライト フィールド ニューラル レンダリング (LFNR) では、研究者は 2 つの Transformer シーケンスを使用して、パッチのコレクションをターゲット ピクセル カラーにマッピングします。 最初の Transformer は各エピポーラ ラインに沿って情報を集約し、2 番目の Transformer は各参照イメージに沿って情報を集約します。 このメソッドは、最初のトランスフォーマーが各参照フレーム上のターゲット ピクセルの潜在的な対応関係を見つけるものとして解釈でき、2 番目のトランスフォーマーはオクルージョンと視線依存効果を担当します。これは、イメージベースのレンダリングでよくある困難でもあります。
LFNR は、最も一般的なビュー合成ベンチマーク (NeRF の Blender と Real Forward-Facing シーン、NeX の Shiny) で sota モデルよりも優れたパフォーマンスを示します。対ノイズ比 (PSNR) は最大 5dB 改善され、これはピクセルレベルの誤差を 1.8 倍減らすことに相当します。 LFNR は、CD 上の虹や反射、ボトル上の反射、屈折、半透明など、NeX/Shiny データセット内のより困難な視線依存効果の一部を再現できます。 。
NeX や NeRF などの以前の方法と比較すると、NeX のような視線関連の効果を再現することができません。 /光沢のあるデータセット 実験室シーンにおける試験管の半透明性と屈折率。
#1 つのトレーニング、新しいシーンへの一般化 最初の Transformer は、参照イメージごとに独立して各エピポーラ ラインに沿って情報を折り畳みます。これは、モデルがどの情報を保持するかを決定できるのは各参照イメージの出力光線座標とパッチに基づいてのみであることも意味します。これは機能します。 (ほとんどのニューラル レンダリング手法と同様に) 単一のシーンでのトレーニングでは問題ありませんが、異なるシーンに一般化することはできません。 一般化可能なモデルは、再トレーニングせずに新しいシナリオに直接適用できるため重要です。 研究者らは、LFNR のこの欠点を解決するために、一般的なパッチベース ニューラル レンダリング (GPNR) モデルを提案しました。 トランスフォーマーをモデルに追加して、他の 2 つのトランスフォーマーよりも前に、すべての参照画像交換の同じ深度のポイント間で実行されるようにします。間の情報。 GPNR は、エピポーラ ラインに沿って抽出されたパッチのセットをピクセル カラーにマッピングする 3 つのトランスフォーマーのシーケンスで構成されます。画像パッチは、線形投影レイヤーを介して初期特徴にマッピングされ、その後、これらの特徴がモデルによって継続的に洗練され、集約されて、最終的に特徴と色が形成されます。 たとえば、最初の Transformer が「公園のベンチ」からパッチ シーケンスを抽出した後、新しいモデルは両方のビューの対応する深さに表示される「花」を使用できます。このような手がかりは、潜在的な可能性を示しています。マッチ。 この作業のもう 1 つの重要なアイデアは、さまざまなシナリオで一般化したいため、ターゲット レイに従って位置エンコーディングを正規化することです。量は、絶対的な参照枠ではなく相対的な参照枠で表す必要があります。 モデルの汎化パフォーマンスを評価するために、研究者らは一連のシナリオで GPNR をトレーニングし、新しいシナリオでテストしました。 GPNR は、いくつかのベンチマーク (IBRNet および MVSNeRF プロトコルに従う) で平均 0.5 ~ 1.0 dB 改善されます。特に IBRNet ベンチマークでは、トレーニング シナリオの 11% のみを使用して GPNR が改善されます。の場合、ベースラインモデルを超えています。 GPNR は、微調整を行わずに、NeX/Shiny および LLFF で維持されているシーンのビューの詳細を生成しました。 GPNR は、IBRNet よりもブレードの詳細とレンズを通した屈折をより正確に再現します。 しかし、LFNR にも限界があります。
以上が一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。