>기술 주변기기 >일체 포함 >NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

PHPz
PHPz앞으로
2023-04-13 19:31:011393검색

NeRF(Neural Radiance Fields)는 신경 방사선장으로도 알려져 있으며 제안된 이후 빠르게 가장 인기 있는 연구 분야 중 하나로 자리 잡았으며 그 결과는 놀랍습니다. 그러나 NeRF의 직접적인 출력은 컬러 밀도 필드일 뿐이며, 이는 연구자들에게 정보를 거의 제공하지 않는다는 점은 직면해야 할 문제 중 하나입니다. 그 효과는 3D와의 대화형 인터페이스 구성에 직접적인 영향을 미친다는 것입니다. 장면.

하지만 자연어는 3D 장면과 매우 직관적으로 상호 작용합니다. 그림 1의 부엌 장면을 사용하여 수저가 어디에 있는지 묻거나 젓는 데 사용되는 도구가 어디에 있는지 물어봄으로써 부엌에서 물건을 찾을 수 있음을 설명할 수 있습니다. 그러나 이 작업을 완료하려면 모델의 쿼리 기능뿐만 아니라 다양한 규모의 의미론을 통합하는 능력도 필요합니다.

이 기사에서 UC Berkeley 연구진은 새로운 방법을 제안하고 이를 CLIP(Contrastive Language-Image Pre-training)과 같은 모델에 언어를 결합한 LERF(Language Embedded Radiance Fields)라는 이름을 붙였습니다. NeRF는 이러한 유형의 3D 개방형 언어 쿼리를 가능하게 합니다. LERF는 COCO와 같은 데이터 세트를 통해 미세 조정하거나 마스크된 영역 제안에 의존할 필요 없이 CLIP을 직접 사용합니다. LERF는 여러 규모에서 CLIP 임베딩의 무결성을 유지하며 그림 1과 같이 시각적 속성(예: 노란색), 추상 개념(예: 전류), 텍스트 등을 포함한 다양한 언어 쿼리를 처리할 수도 있습니다. .

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

논문 주소: https://arxiv.org/pdf/2303.09553v1.pdf

프로젝트 홈페이지: https://www.lerf.io/

LERF는 언어 프롬프트에 대한 3D 상관 다이어그램을 실시간으로 대화형으로 추출할 수 있습니다. 예를 들어 양고기와 물컵이 있는 테이블에 양고기 또는 물컵을 입력하면 LERF가 관련 3D 지도를 제공할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

복잡한 꽃다발의 경우 LERF는 다음과 같이 정확하게 위치를 지정할 수도 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

주방의 다양한 물체:

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

방법

이 연구에서는 NeRF와 언어 영역을 공동으로 최적화하여 새로운 방법인 LERF를 구축했습니다. LERF는 위치와 물리적 스케일을 입력으로 사용하고 단일 CLIP 벡터를 출력합니다. 훈련 중에 필드는 훈련 보기의 이미지 자르기에서 생성된 CLIP 임베딩을 포함하는 다중 규모 기능 피라미드를 사용하여 감독됩니다. 이를 통해 CLIP 인코더는 다양한 규모의 이미지 컨텍스트를 캡처하여 동일한 3D 위치를 다양한 규모의 언어 임베딩과 연결할 수 있습니다. LERF는 테스트 중에 어떤 규모로든 언어 필드를 쿼리하여 3D 상관 관계 맵을 얻을 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

CLIP 임베딩은 여러 규모의 여러 뷰에서 추출되므로 LERF의 3D CLIP 임베딩을 통해 얻은 텍스트 쿼리의 관련성 맵은 2D CLIP 임베딩을 통해 얻은 것보다 더 지역화되어 있으며 3D 일관성이 있습니다. 여러 뷰를 렌더링하지 않고 3D 필드에서 직접 쿼리할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

LERF에서는 샘플 포인트를 중심으로 볼륨에 언어 임베딩 필드를 학습해야 합니다. 특히 이 필드의 출력은 지정된 볼륨의 이미지 자르기를 포함하는 모든 훈련 보기의 평균 CLIP 임베딩입니다. LERF는 쿼리를 포인트에서 볼륨으로 재구성함으로써 입력 이미지의 거친 부분에서 밀집된 필드를 효과적으로 감독할 수 있으며, 이는 주어진 볼륨 스케일에 따라 픽셀 정렬 방식으로 렌더링될 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

LERF 자체는 일관된 결과를 생성하지만 결과 상관 관계 맵은 때때로 아래 그림 5와 같이 불완전하고 일부 이상값을 포함할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

본 연구에서는 최적화된 언어 분야를 규제하기 위해 병목 현상을 공유함으로써 자기 지도형 DINO를 도입합니다.

아키텍처 측면에서 3D의 언어 임베딩 최적화는 기본 장면 표현의 밀도 분포에 영향을 주어서는 안 됩니다. 따라서 이 연구는 고유 벡터(DINO, CLIP)를 사용하여 두 개의 독립적인 네트워크를 훈련하여 LERF의 귀납적 편향을 포착합니다. 표준 NeRF 출력(색상, 밀도)용도 있습니다.

실험

LERF의 실제 데이터 처리 능력을 입증하기 위해 연구에서는 식료품점, 주방, 서점, 인형 등 13개 장면을 수집했습니다. 그림 3은 LERF의 자연어 처리 능력을 보여주는 5가지 대표적인 시나리오를 선택합니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

그림 3

그림 7은 LERF와 LSeg의 3D 시각적 비교입니다. 교정 그릇의 계란에서 LSeg는 LERF만큼 좋지 않습니다.

그림 8은 제한된 분할 데이터 세트로 훈련된 LSeg에는 자연어를 효과적으로 표현하는 능력이 부족함을 보여줍니다. 대신 그림 7에 표시된 것처럼 훈련 세트 분포 내의 공통 개체에서만 잘 수행됩니다. NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

그러나 LERF 방법은 아직 완벽하지 않습니다. 예를 들어 호박 야채를 보정할 때 다른 야채가 나타납니다. NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

위 내용은 NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제