#当社 Web サイトの AIxiv コラムは、学術的および技術的な内容に関するコラムです。過去数年間で、当社ウェブサイトの AIxiv コラムには、世界中の主要な大学や企業のトップ研究室を網羅した 2,000 件を超えるコンテンツが寄せられ、学術交流と普及の促進に貢献しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メールアドレスは liyazhou@jiqizhixin.com zhaoyunfeng@jiqizhixin.com です。
香港科技大学と清華大学の研究者は、統合生成型 NeRF から NeRF への変換フレームワークである「GenN2N」を提案しました。テキスト駆動の NeRF 編集、カラーリング、超解像度、修復などのさまざまな NeRF 変換タスクを非常に優れたパフォーマンスで実現します。
- 論文アドレス: https://arxiv.org/abs/2404.02788
- 論文のホームページ: https://xiangyueliu.github.io/GenN2N/
-
Github アドレス: https://github.com/Lxiangyue/GenN2N
- 論文タイトル: GenN2N: Generative NeRF2NeRF Translation
近年、神経放射場 (NeRF) は、コンパクトさ、高品質、多機能性により人気があり、3D再構築、3D生成、新視点合成の分野で広く注目を集めています。ただし、NeRF シーンが作成されると、これらの方法では、結果として得られるジオメトリと外観をさらに制御できないことがよくあります。したがって、NeRF 編集は最近注目に値する研究の焦点となっています。 現在の NeRF 編集方法は通常、NeRF のテキスト駆動編集、超解像度、修復、カラー化などのタスク固有のものです。これらの方法では、タスク固有のドメインに関する大量の知識が必要です。 2D 画像編集の分野では、多機能画像編集をサポートするために、2D 生成モデル Stable Difussion が使用されるなど、汎用的な画像間変換手法を開発する傾向にあります。したがって、基礎となる 2D 生成モデルを利用したユニバーサル NeRF 編集を提案します。 これに伴う課題は、特に画像エディターが異なる視点に対して複数の一貫性のない編集を生成することが多いため、NeRF 画像と 2D 画像の間の表現のギャップです。最近のテキストベースの NeRF 編集手法である Instruct-NeRF2NeRF では、これを検討しています。多視点画像を段階的にレンダリングし、編集してNeRFに集約することで、NeRFシーンを段階的に更新する「レンダリング・編集・集約」プロセスを採用しています。ただし、この編集方法では、特定の編集ニーズに合わせて多くの最適化を行った後、ユーザーが満足しない場合は、反復試行が必要になります。 したがって、さまざまな NeRF 編集タスクに適した汎用の NeRF-to-NeRF フレームワークである「GenN2N」を提案します。その の中核は、このメソッドの生成にあります。は編集プロセスのマルチソリューションの性質を記述するために使用され、ユーザーがジェネレーティブ編集の助けを借りて選択する要件を満たす多数の編集結果を簡単に生成できます。 GenN2N のコア部分では、1) 3D VAE-GAN の生成フレームワークが導入され、VAE を使用して編集空間全体を表現し、セットで 2D 編集を学習します。画像に対応するすべての可能な 3D NeRF 編集分布。編集結果の信頼性を確保するために、GAN を使用して編集 NeRF のさまざまなビューを適切に監視します。 2) 対照学習を使用して、編集内容と視点を分離します。異なる視点間の編集内容の一貫性、3) 推論中、ユーザーは条件付き生成モデルから複数の編集コードをランダムにサンプリングするだけで、編集対象に対応するさまざまな 3D 編集結果を生成します。
さまざまな NeRF 編集タスク (ICCV2023 Oral など) の SOTA 手法と比較して、GenN2N は編集品質、多様性、効率などの点で既存の手法よりも優れています。
#方法の紹介
まず 2D 画像編集を実行し、次にこれらの 2D 画像を編集します画像 3D NeRF にアップグレードして、生成的な NeRF から NeRF への変換を実現します。 Latent Distill モジュールを VAE のエンコーダとして使用し、編集された画像ごとに 1 つを学習します。 NeRF から NeRF への変換中に生成されるコンテンツを制御します。すべての編集コードは、より良いサンプリングを実現するために、KL 損失の制約の下で良好な正規分布に従います。編集内容と視点を分離するために、編集スタイルが同じで視点が異なる画像の編集コードが類似するように、編集スタイルは異なるが視点が同じ画像の編集コードが遠くなるように比較学習を慎重に設計しました。お互いに離れて。 B.NeRF から NeRF への変換 (NeRF の翻訳) us NeRF -to-NeRF Translation は VAE のデコーダとして使用され、編集コードを入力として受け取り、元の NeRF を変換された NeRF に変更します。元の NeRF ネットワークの隠れ層の間に残差層を追加しました。これらの残差層は編集コードを入力として使用して隠れ層ニューロンを変調するため、変換された NeRF は元の NeRF 情報を保持するだけでなく、3D 変換も制御できます。編集内容に基づいて。同時に、NeRF から NeRF への変換は、敵対的生成トレーニングに参加するためのジェネレーターとしても機能します。最適化ではなく生成することで、複数の変換結果を一度に取得できるため、NeRF 変換効率と結果の多様性が大幅に向上します。
##NeRF レンダリング画像を変換する必要がある生成空間を構成します。これらの写真の編集スタイルとレンダリングの視点は異なるため、生成空間は非常に複雑になります。したがって、識別子の追加情報として条件を提供します。具体的には、識別器が学習データ内の生成者のレンダリング画像 (ネガティブ サンプル) または編集画像 (ポジティブ サンプル) を識別した場合、学習データの画像 から同じ視点の編集画像 を選択します。条件として使用され、ポジティブサンプルとネガティブサンプルを区別する際に、ディスクリミネーターが遠近要因によって干渉されるのを防ぎます。 GenN2N 最適化後、ユーザーは編集コードをランダムにサンプリングできます。正規分布から変換し、変換された NeRF を入力して、編集された高品質でマルチビューの一貫した 3D NeRF シーンを生成します。 NeRF 間のさまざまなタスクを実施しました。 NeRF テキスト駆動の編集、カラー化、超解像度、修復など。実験結果は、GenN2N の優れた編集品質、マルチビューの一貫性、生成された多様性、編集効率を実証しています。 A. テキストベースの NeRF 編集B. NeRF のカラーリング C.NeRF 超解像度 D.NeRF 修復 私たちの手法は、さまざまな特定の NeRF タスク (テキスト駆動型の編集、色付け、スーパー解決と復元など)。結果は、一般的なフレームワークとしての GenN2N がタスク固有の SOTA と同等以上のパフォーマンスを示し、編集結果はより多様性に富んでいることを示しています (以下は、テキストベースの NeRF 編集タスクにおける GenN2N と Instruct-NeRF2NeRF の比較です) )。#A. テキストベースの NeRF エディター実験と手法の詳細については、こちらをご覧ください。紙のホームページをご覧ください。 この論文は香港大学の Tan Ping チームによるものです。論文の著者は、清華大学 3DVICI 研究室、上海人工知能研究所、上海 Qizhi Research Institute の学生である Liu Xiangyue 氏、清華大学の学生である Xue Han 氏、および清華大学の学生である Xue Han 氏です。香港科技大学の学生、羅昆明さん 講師は清華大学のイー・リー教授と同大学のタン・ピン先生。
以上がCVPR 2024 の高得点論文: NeRF 変換タスクを統合する新しいジェネレーティブ編集フレームワーク GenN2Nの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。