찾다
기술 주변기기일체 포함CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

저희 웹사이트의 AIxiv 칼럼은 학술 및 기술 콘텐츠에 대한 칼럼입니다. 지난 몇 년 동안 당사 웹사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 다루는 2,000개 이상의 콘텐츠가 접수되어 학술 교류 및 보급을 촉진하는 데 도움이 되었습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일 주소는 liyazhou@jiqizhixin.com입니다.


홍콩과기대와 칭화대학교의 연구원들은 텍스트 기반 NeRF 편집과 같은 다양한 NeRF 변환 작업에 적합한 통합 생성 NeRF-NeRF 변환 프레임워크인 "GenN2N"을 제안했습니다. 셰이딩, 초해상도, 복원 등 성능이 매우 좋습니다! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • 논문 주소: https://arxiv.org/abs/2404.02788
  • 논문 홈페이지: https://xiangyueliu.github.io/GenN2N/
  • Github 주소: https://github.com/Lxiangyue/GenN2N
  • 논문 제목: GenN2N: Generative NeRF2NeRF Translation

최근 몇 년간 NeRF(Neural Radiation Fields)는 그 컴팩트함으로 인해 많은 주목을 받았습니다. , 높은 품질 및 다양성을 갖춘 3D 재구성, 3D 생성 및 새로운 관점 합성 분야가 광범위한 관심을 끌었습니다. 그러나 NeRF 장면이 생성되면 이러한 방법은 결과적인 형상 및 모양에 대한 추가 제어가 부족한 경우가 많습니다. 따라서 NeRF 편집은 최근 주목할 만한 연구 초점이 되었습니다.

현재 NeRF 편집 방법은 일반적으로 NeRF의 텍스트 기반 편집, 초해상도, 복구 및 색상화와 같은 작업별로 다릅니다. 이러한 방법에는 많은 양의 작업별 도메인 지식이 필요합니다. 2D 이미지 편집 분야에서는 보편적인 이미지 간 변환 방법을 개발하는 것이 추세입니다. 예를 들어 다기능 이미지 편집을 지원하기 위해 2D 생성 모델 Stable Difussion이 사용됩니다. 따라서 우리는 기본 2D 생성 모델을 활용하는 범용 NeRF 편집을 제안합니다.

이와 관련된 과제는 NeRF와 2D 이미지 사이의 표현 격차입니다. 특히 이미지 편집기는 종종 서로 다른 관점에 대해 일관되지 않은 여러 편집을 생성하기 때문입니다. 최근 텍스트 기반 NeRF 편집 방법인 Instruct-NeRF2NeRF가 이를 탐구합니다. 멀티뷰 이미지를 점진적으로 렌더링하고, 이러한 이미지를 편집하고, 편집된 이미지를 NeRF로 집계하여 NeRF 장면을 점진적으로 업데이트하는 "렌더링-편집-집합" 프로세스를 채택합니다. 그러나 이 편집 방법은 특정 편집 요구 사항에 대해 많은 최적화를 거친 후에만 특정 편집 결과를 생성할 수 있습니다. 사용자가 만족하지 않으면 반복적인 시도를 반복해야 합니다.

그래서 우리는 다양한 NeRF 편집 작업에 적합한 일반적인 NeRF-NeRF 프레임워크인 "GenN2N"을 제안했습니다. 그 핵심은 편집 프로세스의 다중 솔루션 특성을 특성화하기 위해 생성적 접근 방식을 사용하는 것입니다. 생성 편집을 사용하여 사용자가 선택해야 하는 요구 사항을 충족하는 많은 수의 편집 결과를 쉽게 생성할 수 있습니다.

GenN2N의 핵심 부분에서는 1) 3D VAE-GAN의 생성 프레임워크가 도입되어 VAE를 사용하여 전체 편집 공간을 표현하고 입력 2D 편집 이미지 세트에 해당하는 가능한 모든 3D NeRF 편집 분포를 학습합니다. 2) 편집 결과의 신뢰성을 보장하기 위해 GAN을 사용하여 NeRF의 다양한 뷰 편집에 대한 합리적인 감독을 제공합니다. 2) 대조 학습을 사용하여 편집 콘텐츠와 관점을 분리하여 다양한 관점 간 편집 콘텐츠의 일관성을 보장합니다. , 사용자는 조건 생성 모델에서 여러 개의 편집 코드를 무작위로 샘플링하는 것만으로도 편집 대상에 해당하는 다양한 3D 편집 결과를 생성할 수 있습니다.

다양한 NeRF 편집 작업(ICCV2023 Oral 등)에서 SOTA 방식과 비교했을 때, GenN2N은 편집 품질, 다양성, 효율성 등의 측면에서 기존 방식보다 우수합니다.

방법 소개

먼저 2D 이미지 편집을 수행한 다음 이러한 2D 편집을 3D NeRF로 업그레이드하여 생성적인 NeRF에서 NeRF로의 변환을 달성합니다.

A. Implicit Distill(Latent Distill)

Latent Distill 모듈을 VAE의 인코더로 사용하여 편집된 각 이미지에 대한 암시적 편집 코드를 학습하고 이를 NeRF-NeRF 변환 편집 코드에 전달합니다. 생성된 콘텐츠를 제어합니다. 모든 편집 코드는 더 나은 샘플링을 위해 KL 손실 제약 조건 하에서 양호한 정규 분포를 따릅니다. 편집 내용과 관점을 분리하기 위해 편집 스타일은 동일하지만 관점이 다른 사진의 편집 코드는 유사하게 하고, 편집 스타일은 다르지만 관점이 같은 사진의 편집 코드는 멀도록 장려하는 대조 학습을 신중하게 설계했습니다. 서로 멀리 떨어져 있습니다.

B.NeRF-to-NeRF 변환(Translated NeRF)

우리는 NeRF-to-NeRF Translation을 VAE의 디코더로 사용합니다. 이는 편집 코드를 입력으로 사용하여 원본 NeRF를 수정합니다. 변환된 NeRF의 경우. 우리는 원래 NeRF 네트워크의 숨겨진 레이어 사이에 잔여 레이어를 추가했습니다. 이러한 잔여 레이어는 편집 코드를 입력으로 사용하여 숨겨진 레이어 뉴런을 변조하므로 변환된 NeRF는 원래 NeRF 정보를 유지할 뿐만 아니라 3D 변환도 제어할 수 있습니다. 편집 코드를 기반으로 합니다. 동시에 NeRF-to-NeRF Translation은 생성적 적대 훈련에 참여하기 위한 생성기 역할도 합니다. 최적화가 아닌 생성을 통해 한 번에 여러 변환 결과를 얻을 수 있어 NeRF 변환 효율성과 결과 다양성이 크게 향상됩니다.

C. 조건부 판별기

NeRF로 변환된 렌더링된 이미지는 구별되어야 하는 생성 공간을 구성합니다. 이러한 이미지의 편집 스타일과 렌더링 관점이 다르기 때문에 생성 공간이 매우 복잡해집니다. . 따라서 판별자에 대한 추가 정보로 조건을 제공합니다. 구체적으로, 판별자가 훈련 데이터에서 생성자가 렌더링한 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务(음성 샘플) 또는 편집된 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务(양성 샘플)을 식별하면 훈련 데이터에서 동일한 관점의 편집된 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务을 조건으로 선택합니다. 판별자는 양성 샘플과 음성 샘플을 구별할 때 관점 요인의 간섭을 받지 않습니다.

D. 추론

GenN2N 최적화 후 사용자는 정규 분포에서 편집 코드를 무작위로 샘플링하고 변환된 NeRF를 입력하여 뷰포인트에 일관된 고품질 3D NeRF를 생성할 수 있습니다. 장면.

실험

우리는 NeRF 텍스트 기반 편집, 색상화, 초해상도, 인페인팅 등 다양한 NeRF 간 작업에 대한 광범위한 실험을 수행했습니다. 실험 결과는 GenN2N의 뛰어난 편집 품질, 멀티뷰 일관성, 생성된 다양성 및 편집 효율성을 보여줍니다.

A. 텍스트 기반 NeRF 편집 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B. CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务비교 실험 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 다양한 특정 NeRF 작업에 대한 SOTA 방법과 비교( 텍스트 기반 편집, 색상화, 초해상도 및 인페인팅 등 포함). 결과는 일반 프레임워크인 GenN2N이 작업별 SOTA와 같거나 더 나은 성능을 발휘하는 반면 편집 결과는 더 다양하다는 것을 보여줍니다. (다음은 텍스트 기반 NeRF 편집 작업에서 GenN2N과 Instruct-NeRF2NeRF 간의 비교입니다. ).

A. 텍스트 기반 NeRF 편집CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
더 많은 실험과 방법은 논문 홈페이지를 참고해주세요.

팀 소개

이 논문은 홍콩 과학 기술 대학의 Tan Ping 팀, Tsinghua University 3DVICI Lab, Shanghai Artificial Intelligence Laboratory 및 Shanghai Qizhi Research Institute의 저자입니다. 논문은 홍콩과기대 학생 Liu, 청화대 학생 Xue Han, 홍콩과기대 학생 Luo Kunming, 그리고 강사는 칭화대 Yi Li 선생님입니다. 홍콩과기대학교의 대학교수이자 교사인 탄핑(Tan Ping).

위 내용은 CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
SQL의 스키마 란 무엇입니까? 구성 요소, 장점 등SQL의 스키마 란 무엇입니까? 구성 요소, 장점 등Apr 17, 2025 am 09:33 AM

SQL 스키마 이해 : 포괄적 인 가이드 새 건물을위한 청사진을 설계한다고 상상해보십시오. 건축가가 세부 계획을 작성하는 것처럼 SQL Schemas는 데이터베이스 내에서 데이터를 구성하기위한 청사진을 제공합니다. 이 안내서는 SQL 스키마를 설명합니다

에지 장치에서 자체 호스팅 래그 응용 프로그램에지 장치에서 자체 호스팅 래그 응용 프로그램Apr 17, 2025 am 09:32 AM

라즈베리 파이에 강력한 AI 문서 프로세서 배포 : 단계별 가이드 이 기사에서는 Raspberry Pi를 지능형 문서 처리를위한 강력한 도구로 변환하여 Advanced AI의 힘을 활용하는 과정에 대해 자세히 설명합니다. 우리는 COV입니다

ISRO가 데이터 분석을 위해 출시 한 과정 -Anuctics VidhyaISRO가 데이터 분석을 위해 출시 한 과정 -Anuctics VidhyaApr 17, 2025 am 09:31 AM

ISRO의 포괄적 인 LIDAR 데이터 분석 과정 : 무료 교육 기회 ISRO (Indian Space Research Organization)는 LIDAR 기술 및 응용 프로그램에 대한 자세한 프로그램을 포함하여 일련의 무료 데이터 분석 과정을 시작했습니다.

상위 30 개의 중요한 AWS 인터뷰 질문 (2025)상위 30 개의 중요한 AWS 인터뷰 질문 (2025)Apr 17, 2025 am 09:18 AM

경험 수준 (초보자, 준회원, 전문가)으로 분류되는 30 개의 자주 묻는 질문을 다루는이 포괄적 인 가이드를 사용하여 자신감을 가진 AWS 인터뷰를 준비하십시오. 이 안내서는 다음 AWS Inte에 도움이되는 답변을 제공합니다.

가장 많이 사용되는 10 개의 Power BI 차트 -Axaltics Vidhya가장 많이 사용되는 10 개의 Power BI 차트 -Axaltics VidhyaApr 16, 2025 pm 12:05 PM

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

AI의 전문가 시스템AI의 전문가 시스템Apr 16, 2025 pm 12:00 PM

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

최고의 바이브 코더 3 명이 코드 에서이 AI 혁명을 분해합니다.최고의 바이브 코더 3 명이 코드 에서이 AI 혁명을 분해합니다.Apr 16, 2025 am 11:58 AM

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까?활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까?Apr 16, 2025 am 11:45 AM

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.