CVPR 2024高分論文：全新生成式編輯架構GenN2N，統一NeRF轉換任務-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

CVPR 2024高分論文：全新生成式編輯架構GenN2N，統一NeRF轉換任務

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 19, 2024 pm 09:40 PM

git工程genn2n

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

我們網站的AIxiv欄位是關於學術和技術內容的欄位。過去幾年來，我們網站的AIxiv專欄已經收到超過2000篇內容，涵蓋全球各大大學與企業的頂級實驗室，有助於推進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱為liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

來自香港科技大學，清華大學的研究者提出了「GenN2N」，一個統一的生成式NeRF-to-NeRF 轉換框架，適用於各種NeRF 轉換任務，例如文字驅動的NeRF 編輯、著色、超解析度、修復等，效能皆表現極為出色！

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

論文網址：https://arxiv.org/abs/2404.02788
#論文首頁：https://xiangyueliu.github.io/GenN2N/
Github 網址：https://github.com/Lxiangyue/GenN2N
論文標題：GenN2N: Generative NeRF2NeRF Translation

近年來，神經輻射場（NeRF）因其緊湊、高品質、多功能性在三維重建、三維生成和新視角合成領域引起了廣泛關注。然而，一旦創建了 NeRF 場景，這些方法通常缺乏對生成幾何和外觀的進一步控制。因此，NeRF 編輯（NeRF Editing）最近成為了一個值得關注的研究重點。

目前的 NeRF 編輯方法通常是針對特定任務的，例如 NeRF 的文字驅動編輯、超解析度、修復和著色。這些方法需要大量的特定任務領域知識。而在 2D 影像編輯領域，開發通用的影像到影像（Image-to-image）轉換方法成為一種趨勢，例如利用 2D 生成模型 Stable Difussion 支援多功能的影像編輯。因此，我們提出了利用基礎的 2D 生成模型進行通用的 NeRF 編輯。

隨之而來的挑戰是 NeRF 和 2D 影像之間的表示差距，尤其是影像編輯器通常會為不同視角產生多種不一致的編輯。最近的一個以文字為主的 NeRF 編輯方法 Instruct-NeRF2NeRF 對此進行了探究。其採用 “渲染 - 編輯 - 聚合” 的流程，透過逐步渲染多視角圖像、編輯這些圖像，將編輯圖像聚合到 NeRF 中逐步更新 NeRF 場景。然而這種編輯方法，針對特定的編輯需求，經過大量的最佳化，只能產生一種特定編輯的結果，如果使用者不滿意則需要反覆迭代嘗試。

因此，我們提出了「GenN2N」，一個適用於多種NeRF 編輯任務的NeRF-to-NeRF 通用框架，其核心在於用生成的方式來刻畫編輯過程多解性，使其可以藉助生成式編輯輕鬆產生大量符合要求的編輯結果供用戶挑選。

在GenN2N 的核心部分，1）引入了3D VAE-GAN 的生成式框架，使用VAE 表徵整個編輯空間，來學習與一組輸入的2D 編輯影像對應的所有可能的3D NeRF 編輯分佈，並用GAN 為編輯NeRF 的不同視圖提供合理的監督，確保編輯結果的真實性，2）使用對比學習解耦編輯內容和視角，確保不同視角間的編輯內容一致性，3）在推理時，使用者簡單地從條件產生模型中隨機取樣多個編輯碼，就可以產生與編輯目標對應的各種3D 編輯結果。

比相比各種 NeRF 編輯任務的 SOTA 方法（ICCV2023 Oral 等），GenN2N 在編輯品質、多樣性、效率等方面均優於已有方法。

方法介紹

#我們先進行2D 影像編輯，然後再將這些2D 編輯提升到3D NeRF 來實現生成式的NeRF-to-NeRF 的轉換。

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

A. 隱式蒸餾（Latent Distill）

我們用Latent Distill Module 作為VAE 的encoder，為每張編輯圖像學習一個隱式的編輯碼，在NeRF-to-NeRF 轉換中透過此編輯碼控制產生的內容。所有編輯碼在 KL loss 的限制下服從一個良好的常態分佈，以便更好地採樣。為了了解耦編輯內容和視角，我們精心設計對比學習，鼓勵相同編輯風格視角不同的圖片的編輯碼相近，不同編輯風格但視角相同的圖片的編輯碼互相遠離。

B.NeRF-to-NeRF 的轉換（Translated NeRF）

##我們以NeRF-to-NeRF Translation 作為VAE 的decoder，其以編輯碼作為輸入，將原始的NeRF 修改為一個轉換NeRF。我們在原NeRF 網路隱藏層之間添加了殘差層，這些殘差層以編輯碼作為輸入來調製隱藏層神經元，使得轉換NeRF 既能夠保留原本NeRF 的信息，又可以根據編輯碼來控制轉換3D內容。同時，NeRF-to-NeRF Translation 也作為生成器參與生成對抗訓練。透過生成而非最佳化的方式，使得我們可以一次得到多種轉換結果，顯著提升了 NeRF 轉換效率和結果多樣性。

C. 條件判別器（Conditional Discriminator）

轉換NeRF 的渲染圖片構成了需要判別的生成空間，這些圖片的編輯風格、渲染視角各異，導致生成空間非常複雜。因此我們提供一個 condition 作為判別器的額外資訊。具體而言，判別器在鑑別生成器的渲染圖片

（負樣本）或訓練資料中的編輯圖片 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

（正樣本）時，我們都從訓練資料中再挑選一張相同視角的編輯圖片 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

作為條件，這使得判別器在鑑別正負樣本時不會受到視角因素的干擾。 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

D. 推理（Inference）

在GenN2N 最佳化後，使用者可以從常態分佈中隨機取樣出編輯碼，輸入轉換NeRF 即可產生編輯後的高品質、多重視角一致性的3D NeRF 場景。

實驗

#我們在多種NeRF-to-NeRF 任務上進行了大量的實驗，包括NeRF 文字驅動編輯、著色、超解析度、修復等。實驗結果展示了 GenN2N 卓越的編輯品質、多視角一致性、生成的多樣性和編輯效率。

A. 文字為主的NeRF 編輯

B.NeRF 著色

#C.NeRF 超解析度

#D.NeRF 修正

#比較實驗

我們的方法與各種特定NeRF 任務的SOTA 方法進行了定性和定量對比（包括文字驅動編輯、著色、超解析度和修復等）。結果表明，GenN2N 作為一個通用框架，其表現與特定任務 SOTA 相當或更好，同時編輯結果具有更強的多樣性（如下是 GenN2N 與 Instruct-NeRF2NeRF 在基於文本的 NeRF 編輯任務上的對比）。

A. 文字為主的NeRF 編輯

了解更多實驗、方法內容，請參考論文主頁。

團隊介紹

#論文來自香港科技大學譚平團隊、清華大學3DVICI Lab、上海人工智慧實驗室和上海期智研究院，論文的作者為香港科技大學學生劉襄閱，清華大學學生薛晗，香港科技大學學生羅堃銘，指導老師為清華大學弒力老師和香港科技大學譚平老師。

以上是CVPR 2024高分論文：全新生成式編輯架構GenN2N，統一NeRF轉換任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

4090生成器：与A100平台相比，token生成速度仅低于18%，上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行，并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快？在单个NVIDIARTX4090GPU上运行LLM，PowerInfer的平均token生成速率为13.20tokens/s，峰值为29.08tokens/s，仅比顶级服务器A100GPU低18%，可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT，比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型（LLM）充分发挥其能力，有效的prompt设计方案是必不可少的，为此甚至出现了promptengineering（提示工程）这一新兴领域。在各种prompt设计方案中，思维链（CoT）凭借其强大的推理能力吸引了许多研究者和用户的眼球，基于其改进的CoT-SC以及更进一步的思维树（ToT）也收获了大量关注。近日，苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法：思维图（GoT）。让思维从链到树到图，为LLM构建推理过程的能力不断得到提升，研究者也通

复旦NLP团队发布80页大模型Agent综述，一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期，复旦大学自然语言处理团队（FudanNLP）推出LLM-basedAgents综述论文，全文长达86页，共有600余篇参考文献！作者们从AIAgent的历史出发，全面梳理了基于大型语言模型的智能代理现状，包括：LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时，作者们探讨了Agent相关的前瞻开放问题，对于相关领域的未来发展趋势具有重要价值。论文链接：https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表：

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此，目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言（StructuredGenerationLanguage），称为SGLang，旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计，SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说，SGLang的

大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗，其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据，因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而，与传统软件知识产权保护不同，对预训练模型参数盗用的判断存在以下两个新问题：1）预训练模型的参数，尤其是千亿级别模型的参数，通常不会开源。预训练模型的输出和参数会受到后续处理步骤（如SFT、RLHF、continuepretraining等）的影响，这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布：实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级，推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本，作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通，持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念，采用开源方式对应用层、调度、通信、异构计算（算法）四个层面进行改造，实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管，IBM机器学习专用处理器NorthPole，能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展，其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间，因此能耗极高。在某些情况下，执行一些训练好的系统，智能手机就能轻松胜任。但是，执行的次数太多，能耗也会增加。幸运的是，有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算，以避免重复访问RAM。现在，IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念，并将其与一种非常精简的计算运行

「花果山名场面」有了高清画质版，NTU提出视频超分框架Upscale-A-VideoJan 11, 2024 pm 07:57 PM

扩散模型在图像生成方面取得了显著成功，但将其应用于视频超分辨率仍存在挑战。视频超分辨率要求输出保真度和时间一致性，而扩散模型的固有随机性使这变得复杂。因此，有效地将扩散模型应用于视频超分辨率仍是一个具有挑战性的任务。来自南洋理工大学S-Lab的研究团队提出了一种名为Upscale-A-Video的文本指导潜在扩散框架，用于视频超分。该框架通过两个关键机制确保时间一致性。首先，在局部范围内，它将时间层集成到U-Net和VAE-Decoder中，以保持短序列的一致性。其次，在全局范围内，该框架引入了

See all articles