CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N-일체 포함-php.cn

집

기술 주변기기

일체 포함

CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 19, 2024 pm 09:40 PM

git프로젝트genn2n

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

저희 웹사이트의 AIxiv 칼럼은 학술 및 기술 콘텐츠에 대한 칼럼입니다. 지난 몇 년 동안 당사 웹사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 다루는 2,000개 이상의 콘텐츠가 접수되어 학술 교류 및 보급을 촉진하는 데 도움이 되었습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일 주소는 liyazhou@jiqizhixin.com입니다.

홍콩과기대와 칭화대학교의 연구원들은 텍스트 기반 NeRF 편집과 같은 다양한 NeRF 변환 작업에 적합한 통합 생성 NeRF-NeRF 변환 프레임워크인 "GenN2N"을 제안했습니다. 셰이딩, 초해상도, 복원 등 성능이 매우 좋습니다!

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

논문 주소: https://arxiv.org/abs/2404.02788
논문 홈페이지: https://xiangyueliu.github.io/GenN2N/
Github 주소: https://github.com/Lxiangyue/GenN2N
논문 제목: GenN2N: Generative NeRF2NeRF Translation

최근 몇 년간 NeRF(Neural Radiation Fields)는 그 컴팩트함으로 인해 많은 주목을 받았습니다. , 높은 품질 및 다양성을 갖춘 3D 재구성, 3D 생성 및 새로운 관점 합성 분야가 광범위한 관심을 끌었습니다. 그러나 NeRF 장면이 생성되면 이러한 방법은 결과적인 형상 및 모양에 대한 추가 제어가 부족한 경우가 많습니다. 따라서 NeRF 편집은 최근 주목할 만한 연구 초점이 되었습니다.

현재 NeRF 편집 방법은 일반적으로 NeRF의 텍스트 기반 편집, 초해상도, 복구 및 색상화와 같은 작업별로 다릅니다. 이러한 방법에는 많은 양의 작업별 도메인 지식이 필요합니다. 2D 이미지 편집 분야에서는 보편적인 이미지 간 변환 방법을 개발하는 것이 추세입니다. 예를 들어 다기능 이미지 편집을 지원하기 위해 2D 생성 모델 Stable Difussion이 사용됩니다. 따라서 우리는 기본 2D 생성 모델을 활용하는 범용 NeRF 편집을 제안합니다.

이와 관련된 과제는 NeRF와 2D 이미지 사이의 표현 격차입니다. 특히 이미지 편집기는 종종 서로 다른 관점에 대해 일관되지 않은 여러 편집을 생성하기 때문입니다. 최근 텍스트 기반 NeRF 편집 방법인 Instruct-NeRF2NeRF가 이를 탐구합니다. 멀티뷰 이미지를 점진적으로 렌더링하고, 이러한 이미지를 편집하고, 편집된 이미지를 NeRF로 집계하여 NeRF 장면을 점진적으로 업데이트하는 "렌더링-편집-집합" 프로세스를 채택합니다. 그러나 이 편집 방법은 특정 편집 요구 사항에 대해 많은 최적화를 거친 후에만 특정 편집 결과를 생성할 수 있습니다. 사용자가 만족하지 않으면 반복적인 시도를 반복해야 합니다.

그래서 우리는 다양한 NeRF 편집 작업에 적합한 일반적인 NeRF-NeRF 프레임워크인 "GenN2N"을 제안했습니다. 그 핵심은 편집 프로세스의 다중 솔루션 특성을 특성화하기 위해 생성적 접근 방식을 사용하는 것입니다. 생성 편집을 사용하여 사용자가 선택해야 하는 요구 사항을 충족하는 많은 수의 편집 결과를 쉽게 생성할 수 있습니다.

GenN2N의 핵심 부분에서는 1) 3D VAE-GAN의 생성 프레임워크가 도입되어 VAE를 사용하여 전체 편집 공간을 표현하고 입력 2D 편집 이미지 세트에 해당하는 가능한 모든 3D NeRF 편집 분포를 학습합니다. 2) 편집 결과의 신뢰성을 보장하기 위해 GAN을 사용하여 NeRF의 다양한 뷰 편집에 대한 합리적인 감독을 제공합니다. 2) 대조 학습을 사용하여 편집 콘텐츠와 관점을 분리하여 다양한 관점 간 편집 콘텐츠의 일관성을 보장합니다. , 사용자는 조건 생성 모델에서 여러 개의 편집 코드를 무작위로 샘플링하는 것만으로도 편집 대상에 해당하는 다양한 3D 편집 결과를 생성할 수 있습니다.

다양한 NeRF 편집 작업(ICCV2023 Oral 등)에서 SOTA 방식과 비교했을 때, GenN2N은 편집 품질, 다양성, 효율성 등의 측면에서 기존 방식보다 우수합니다.

방법 소개

먼저 2D 이미지 편집을 수행한 다음 이러한 2D 편집을 3D NeRF로 업그레이드하여 생성적인 NeRF에서 NeRF로의 변환을 달성합니다.

A. Implicit Distill(Latent Distill)

Latent Distill 모듈을 VAE의 인코더로 사용하여 편집된 각 이미지에 대한 암시적 편집 코드를 학습하고 이를 NeRF-NeRF 변환 편집 코드에 전달합니다. 생성된 콘텐츠를 제어합니다. 모든 편집 코드는 더 나은 샘플링을 위해 KL 손실 제약 조건 하에서 양호한 정규 분포를 따릅니다. 편집 내용과 관점을 분리하기 위해 편집 스타일은 동일하지만 관점이 다른 사진의 편집 코드는 유사하게 하고, 편집 스타일은 다르지만 관점이 같은 사진의 편집 코드는 멀도록 장려하는 대조 학습을 신중하게 설계했습니다. 서로 멀리 떨어져 있습니다.

B.NeRF-to-NeRF 변환(Translated NeRF)

우리는 NeRF-to-NeRF Translation을 VAE의 디코더로 사용합니다. 이는 편집 코드를 입력으로 사용하여 원본 NeRF를 수정합니다. 변환된 NeRF의 경우. 우리는 원래 NeRF 네트워크의 숨겨진 레이어 사이에 잔여 레이어를 추가했습니다. 이러한 잔여 레이어는 편집 코드를 입력으로 사용하여 숨겨진 레이어 뉴런을 변조하므로 변환된 NeRF는 원래 NeRF 정보를 유지할 뿐만 아니라 3D 변환도 제어할 수 있습니다. 편집 코드를 기반으로 합니다. 동시에 NeRF-to-NeRF Translation은 생성적 적대 훈련에 참여하기 위한 생성기 역할도 합니다. 최적화가 아닌 생성을 통해 한 번에 여러 변환 결과를 얻을 수 있어 NeRF 변환 효율성과 결과 다양성이 크게 향상됩니다.

C. 조건부 판별기

NeRF로 변환된 렌더링된 이미지는 구별되어야 하는 생성 공간을 구성합니다. 이러한 이미지의 편집 스타일과 렌더링 관점이 다르기 때문에 생성 공간이 매우 복잡해집니다. . 따라서 판별자에 대한 추가 정보로 조건을 제공합니다. 구체적으로, 판별자가 훈련 데이터에서 생성자가 렌더링한 그림 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(음성 샘플) 또는 편집된 그림 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(양성 샘플)을 식별하면 훈련 데이터에서 동일한 관점의 편집된 그림 CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

을 조건으로 선택합니다. 판별자는 양성 샘플과 음성 샘플을 구별할 때 관점 요인의 간섭을 받지 않습니다.

D. 추론

GenN2N 최적화 후 사용자는 정규 분포에서 편집 코드를 무작위로 샘플링하고 변환된 NeRF를 입력하여 뷰포인트에 일관된 고품질 3D NeRF를 생성할 수 있습니다. 장면.

실험

우리는 NeRF 텍스트 기반 편집, 색상화, 초해상도, 인페인팅 등 다양한 NeRF 간 작업에 대한 광범위한 실험을 수행했습니다. 실험 결과는 GenN2N의 뛰어난 편집 품질, 멀티뷰 일관성, 생성된 다양성 및 편집 효율성을 보여줍니다.

A. 텍스트 기반 NeRF 편집

비교 실험

다양한 특정 NeRF 작업에 대한 SOTA 방법과 비교( 텍스트 기반 편집, 색상화, 초해상도 및 인페인팅 등 포함). 결과는 일반 프레임워크인 GenN2N이 작업별 SOTA와 같거나 더 나은 성능을 발휘하는 반면 편집 결과는 더 다양하다는 것을 보여줍니다. (다음은 텍스트 기반 NeRF 편집 작업에서 GenN2N과 Instruct-NeRF2NeRF 간의 비교입니다. ).

A. 텍스트 기반 NeRF 편집

더 많은 실험과 방법은 논문 홈페이지를 참고해주세요.

팀 소개

이 논문은 홍콩 과학 기술 대학의 Tan Ping 팀, Tsinghua University 3DVICI Lab, Shanghai Artificial Intelligence Laboratory 및 Shanghai Qizhi Research Institute의 저자입니다. 논문은 홍콩과기대 학생 Liu, 청화대 학생 Xue Han, 홍콩과기대 학생 Luo Kunming, 그리고 강사는 칭화대 Yi Li 선생님입니다. 홍콩과기대학교의 대학교수이자 교사인 탄핑(Tan Ping).

위 내용은 CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

7 강력한 AI 프롬프트 모든 프로젝트 관리자가 지금 마스터 해야하는 경우May 08, 2025 am 11:39 AM

Chatgpt와 같은 챗봇에서 예시 된 Generative AI는 프로젝트 관리자에게 워크 플로를 간소화하고 프로젝트가 일정과 예산 내에서 유지되도록 강력한 도구를 제공합니다. 그러나 올바른 프롬프트를 제작하는 데 효과적으로 사용됩니다. 정확하고 세부 사항

AI 자체의 도움이되는 도움을 통해 애매한 AGI의 잘못 정의 된 의미 정의May 08, 2025 am 11:37 AM

인공 일반 지능 (AGI)을 정의하는 과제는 중요합니다. AGI 진보에 대한 주장에는 종종 정의 된 연구 방향에 맞게 정의 된 정의와 함께 명확한 벤치 마크가 부족합니다. 이 기사는 정의에 대한 새로운 접근법을 탐구합니다

IBM은 2025 년이 생성 AI에서 Watsonx.data의 역할을 보여줍니다May 08, 2025 am 11:32 AM

IBM WATSONX.DATA : 엔터프라이즈 AI 데이터 스택을 간소화합니다 IBM은 Watsonx.data를 정확하고 확장 가능한 생성 AI 솔루션의 전달을 가속화하기위한 기업을위한 중추 플랫폼으로 위치합니다. 이것은 불만을 단순화하여 달성됩니다

휴머노이드 로봇 기계의 부상이 가까워지고 있습니다.May 08, 2025 am 11:29 AM

AI와 재료 과학의 혁신으로 인해 로봇 공학의 급속한 발전은 새로운 휴머노이드 로봇 시대를 안내 할 준비가되어 있습니다. 수년 동안 산업 자동화는 주요 초점 이었지만 로봇의 기능은 빠르게 exp입니다.

Netflix Revamps Interface-AI 검색 도구와 Tiktok와 같은 디자인 데뷔May 08, 2025 am 11:25 AM

10 년 만에 Netflix 인터페이스의 가장 큰 업데이트 : 더 똑똑하고 개인화 된 다양한 콘텐츠 수용 Netflix는 10 년 만에 사용자 인터페이스의 최대 개정을 발표했으며, 새로운 모습뿐만 아니라 각 쇼에 대한 더 많은 정보를 추가하고, "주변"및보다 유연한 구조와 같은 모호한 개념을 이해할 수있는 더 스마트 한 AI 검색 도구를 소개하여 비디오 게임, 라이브 이벤트, 스포츠 이벤트 및 기타 새로운 유형의 컨텐츠를 더 잘 보여줍니다. 트렌드를 따라 잡기 위해 모바일의 새로운 수직 비디오 구성 요소를 사용하면 팬이 트레일러와 클립을 쉽게 스크롤하거나 전체 쇼를 보거나 다른 사람들과 콘텐츠를 공유 할 수 있습니다. 이것은 무한한 스크롤과 매우 성공적인 짧은 비디오 웹 사이트 ti를 상기시킵니다.

AGI보다 오래 전에 : 당신에게 도전 할 3 개의 AI 이정표May 08, 2025 am 11:24 AM

인공 지능에서 일반 정보 (AGI)에 대한 논의가 커지면 인공 지능이 인간 지능을 능가 할 때 어떤 일이 발생하는지 생각해 보았습니다. 이 순간이 가까운지 또는 멀리 떨어져 있는지 여부는 당신이 물어 보는 사람에 달려 있지만, 그것이 우리가 집중해야 할 가장 중요한 이정표라고 생각하지 않습니다. 어떤 초기 AI 이정표가 모든 사람에게 영향을 미칩니 까? 어떤 이정표가 달성 되었습니까? 내가 생각한 세 가지가 있습니다. 인공 지능은 인간의 약점을 능가합니다 2022 년 영화 "Social Dilemma"에서 Humane Technology Center의 Tristan Harris는 인공 지능이 인간의 약점을 능가했다고 지적했다. 이것이 무엇을 의미합니까? 이것은 인공 지능이 인간을 사용할 수 있음을 의미합니다.