検索
ホームページテクノロジー周辺機器AICVPR 2024 の高得点論文: NeRF 変換タスクを統合する新しいジェネレーティブ編集フレームワーク GenN2N

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

#当社 Web サイトの AIxiv コラムは、学術的および技術的な内容に関するコラムです。過去数年間で、当社ウェブサイトの AIxiv コラムには、世界中の主要な大学や企業のトップ研究室を網羅した 2,000 件を超えるコンテンツが寄せられ、学術交流と普及の促進に貢献しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メールアドレスは liyazhou@jiqizhixin.com zhaoyunfeng@jiqizhixin.com です。


香港科技大学と清華大学の研究者は、統合生成型 NeRF から NeRF への変換フレームワークである「GenN2N」を提案しました。テキスト駆動の NeRF 編集、カラーリング、超解像度、修復などのさまざまな NeRF 変換タスクを非常に優れたパフォーマンスで実現します。 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • 論文アドレス: https://arxiv.org/abs/2404.02788
  • 論文のホームページ: https://xiangyueliu.github.io/GenN2N/
  • Github アドレス: https://github.com/Lxiangyue/GenN2N
  • 論文タイトル: GenN2N: Generative NeRF2NeRF Translation

近年、神経放射場 (NeRF) は、コンパクトさ、高品質、多機能性により人気があり、3D再構築、3D生成、新視点合成の分野で広く注目を集めています。ただし、NeRF シーンが作成されると、これらの方法では、結果として得られるジオメトリと外観をさらに制御できないことがよくあります。したがって、NeRF 編集は最近注目に値する研究の焦点となっています。

現在の NeRF 編集方法は通常、NeRF のテキスト駆動編集、超解像度、修復、カラー化などのタスク固有のものです。これらの方法では、タスク固有のドメインに関する大量の知識が必要です。 2D 画像編集の分野では、多機能画像編集をサポートするために、2D 生成モデル Stable Difussion が使用されるなど、汎用的な画像間変換手法を開発する傾向にあります。したがって、基礎となる 2D 生成モデルを利用したユニバーサル NeRF 編集を提案します。

これに伴う課題は、特に画像エディターが異なる視点に対して複数の一貫性のない編集を生成することが多いため、NeRF 画像と 2D 画像の間の表現のギャップです。最近のテキストベースの NeRF 編集手法である Instruct-NeRF2NeRF では、これを検討しています。多視点画像を段階的にレンダリングし、編集してNeRFに集約することで、NeRFシーンを段階的に更新する「レンダリング・編集・集約」プロセスを採用しています。ただし、この編集方法では、特定の編集ニーズに合わせて多くの最適化を行った後、ユーザーが満足しない場合は、反復試行が必要になります。

したがって、さまざまな NeRF 編集タスクに適した汎用の NeRF-to-NeRF フレームワークである「GenN2N」を提案します。その の中核は、このメソッドの生成にあります。は編集プロセスのマルチソリューションの性質を記述するために使用され、ユーザーがジェネレーティブ編集の助けを借りて選択する要件を満たす多数の編集結果を簡単に生成できます。

GenN2N のコア部分では、1) 3D VAE-GAN の生成フレームワークが導入され、VAE を使用して編集空間全体を表現し、セットで 2D 編集を学習します。画像に対応するすべての可能な 3D NeRF 編集分布。編集結果の信頼性を確保するために、GAN を使用して編集 NeRF のさまざまなビューを適切に監視します。 2) 対照学習を使用して、編集内容と視点を分離します。異なる視点間の編集内容の一貫性、3) 推論中、ユーザーは条件付き生成モデルから複数の編集コードをランダムにサンプリングするだけで、編集対象に対応するさまざまな 3D 編集結果を生成します。

さまざまな NeRF 編集タスク (ICCV2023 Oral など) の SOTA 手法と比較して、GenN2N は編集品質、多様性、効率などの点で既存の手法よりも優れています。

#方法の紹介

まず 2D 画像編集を実行し、次にこれらの 2D 画像を編集します画像 3D NeRF にアップグレードして、生成的な NeRF から NeRF への変換を実現します。

A. Latent Distill

Latent Distill モジュールを VAE のエンコーダとして使用し、編集された画像ごとに 1 つを学習します。 NeRF から NeRF への変換中に生成されるコンテンツを制御します。すべての編集コードは、より良いサンプリングを実現するために、KL 損失の制約の下で良好な正規分布に従います。編集内容と視点を分離するために、編集スタイルが同じで視点が異なる画像の編集コードが類似するように、編集スタイルは異なるが視点が同じ画像の編集コードが遠くなるように比較学習を慎重に設計しました。お互いに離れて。

B.NeRF から NeRF への変換 (NeRF の翻訳)

us NeRF -to-NeRF Translation は VAE のデコーダとして使用され、編集コードを入力として受け取り、元の NeRF を変換された NeRF に変更します。元の NeRF ネットワークの隠れ層の間に残差層を追加しました。これらの残差層は編集コードを入力として使用して隠れ層ニューロンを変調するため、変換された NeRF は元の NeRF 情報を保持するだけでなく、3D 変換も制御できます。編集内容に基づいて。同時に、NeRF から NeRF への変換は、敵対的生成トレーニングに参加するためのジェネレーターとしても機能します。最適化ではなく生成することで、複数の変換結果を一度に取得できるため、NeRF 変換効率と結果の多様性が大幅に向上します。

#C. 条件付き識別子

##NeRF レンダリング画像を変換する必要がある生成空間を構成します。これらの写真の編集スタイルとレンダリングの視点は異なるため、生成空間は非常に複雑になります。したがって、識別子の追加情報として条件を提供します。具体的には、識別器が学習データ内の生成者のレンダリング画像
(ネガティブ サンプル) または編集画像
(ポジティブ サンプル) を識別した場合、学習データの画像 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 から同じ視点の編集画像 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 を選択します。条件として使用され、ポジティブサンプルとネガティブサンプルを区別する際に、ディスクリミネーターが遠近要因によって干渉されるのを防ぎます。 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

D. 推論

GenN2N 最適化後、ユーザーは編集コードをランダムにサンプリングできます。正規分布から変換し、変換された NeRF を入力して、編集された高品質でマルチビューの一貫した 3D NeRF シーンを生成します。

実験

NeRF 間のさまざまなタスクを実施しました。 NeRF テキスト駆動の編集、カラー化、超解像度、修復など。実験結果は、GenN2N の優れた編集品質、マルチビューの一貫性、生成された多様性、編集効率を実証しています。

A. テキストベースの NeRF 編集CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B. NeRF のカラーリング CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务C.NeRF 超解像度 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务D.NeRF 修復 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
比較実験

私たちの手法は、さまざまな特定の NeRF タスク (テキスト駆動型の編集、色付け、スーパー解決と復元など)。結果は、一般的なフレームワークとしての GenN2N がタスク固有の SOTA と同等以上のパフォーマンスを示し、編集結果はより多様性に富んでいることを示しています (以下は、テキストベースの NeRF 編集タスクにおける GenN2N と Instruct-NeRF2NeRF の比較です) )。

#A. テキストベースの NeRF エディターCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
実験と手法の詳細については、こちらをご覧ください。紙のホームページをご覧ください。

チーム紹介

この論文は香港大学の Tan Ping チームによるものです。論文の著者は、清華大学 3DVICI 研究室、上海人工知能研究所、上海 Qizhi Research Institute の学生である Liu Xiangyue 氏、清華大学の学生である Xue Han 氏、および清華大学の学生である Xue Han 氏です。香港科技大学の学生、羅昆明さん 講師は清華大学のイー・リー教授と同大学のタン・ピン先生。

以上がCVPR 2024 の高得点論文: NeRF 変換タスクを統合する新しいジェネレーティブ編集フレームワーク GenN2Nの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール