NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

PHPz

Apr 13, 2023 pm 07:31 PM

자연어

NeRF(Neural Radiance Fields)는 신경 방사선장으로도 알려져 있으며 제안된 이후 빠르게 가장 인기 있는 연구 분야 중 하나로 자리 잡았으며 그 결과는 놀랍습니다. 그러나 NeRF의 직접적인 출력은 컬러 밀도 필드일 뿐이며, 이는 연구자들에게 정보를 거의 제공하지 않는다는 점은 직면해야 할 문제 중 하나입니다. 그 효과는 3D와의 대화형 인터페이스 구성에 직접적인 영향을 미친다는 것입니다. 장면.

하지만 자연어는 3D 장면과 매우 직관적으로 상호 작용합니다. 그림 1의 부엌 장면을 사용하여 수저가 어디에 있는지 묻거나 젓는 데 사용되는 도구가 어디에 있는지 물어봄으로써 부엌에서 물건을 찾을 수 있음을 설명할 수 있습니다. 그러나 이 작업을 완료하려면 모델의 쿼리 기능뿐만 아니라 다양한 규모의 의미론을 통합하는 능력도 필요합니다.

이 기사에서 UC Berkeley 연구진은 새로운 방법을 제안하고 이를 CLIP(Contrastive Language-Image Pre-training)과 같은 모델에 언어를 결합한 LERF(Language Embedded Radiance Fields)라는 이름을 붙였습니다. NeRF는 이러한 유형의 3D 개방형 언어 쿼리를 가능하게 합니다. LERF는 COCO와 같은 데이터 세트를 통해 미세 조정하거나 마스크된 영역 제안에 의존할 필요 없이 CLIP을 직접 사용합니다. LERF는 여러 규모에서 CLIP 임베딩의 무결성을 유지하며 그림 1과 같이 시각적 속성(예: 노란색), 추상 개념(예: 전류), 텍스트 등을 포함한 다양한 언어 쿼리를 처리할 수도 있습니다. .

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

논문 주소: https://arxiv.org/pdf/2303.09553v1.pdf

프로젝트 홈페이지: https://www.lerf.io/

LERF는 언어 프롬프트에 대한 3D 상관 다이어그램을 실시간으로 대화형으로 추출할 수 있습니다. 예를 들어 양고기와 물컵이 있는 테이블에 양고기 또는 물컵을 입력하면 LERF가 관련 3D 지도를 제공할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

복잡한 꽃다발의 경우 LERF는 다음과 같이 정확하게 위치를 지정할 수도 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

주방의 다양한 물체:

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

방법

이 연구에서는 NeRF와 언어 영역을 공동으로 최적화하여 새로운 방법인 LERF를 구축했습니다. LERF는 위치와 물리적 스케일을 입력으로 사용하고 단일 CLIP 벡터를 출력합니다. 훈련 중에 필드는 훈련 보기의 이미지 자르기에서 생성된 CLIP 임베딩을 포함하는 다중 규모 기능 피라미드를 사용하여 감독됩니다. 이를 통해 CLIP 인코더는 다양한 규모의 이미지 컨텍스트를 캡처하여 동일한 3D 위치를 다양한 규모의 언어 임베딩과 연결할 수 있습니다. LERF는 테스트 중에 어떤 규모로든 언어 필드를 쿼리하여 3D 상관 관계 맵을 얻을 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

CLIP 임베딩은 여러 규모의 여러 뷰에서 추출되므로 LERF의 3D CLIP 임베딩을 통해 얻은 텍스트 쿼리의 관련성 맵은 2D CLIP 임베딩을 통해 얻은 것보다 더 지역화되어 있으며 3D 일관성이 있습니다. 여러 뷰를 렌더링하지 않고 3D 필드에서 직접 쿼리할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

LERF에서는 샘플 포인트를 중심으로 볼륨에 언어 임베딩 필드를 학습해야 합니다. 특히 이 필드의 출력은 지정된 볼륨의 이미지 자르기를 포함하는 모든 훈련 보기의 평균 CLIP 임베딩입니다. LERF는 쿼리를 포인트에서 볼륨으로 재구성함으로써 입력 이미지의 거친 부분에서 밀집된 필드를 효과적으로 감독할 수 있으며, 이는 주어진 볼륨 스케일에 따라 픽셀 정렬 방식으로 렌더링될 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

LERF 자체는 일관된 결과를 생성하지만 결과 상관 관계 맵은 때때로 아래 그림 5와 같이 불완전하고 일부 이상값을 포함할 수 있습니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

본 연구에서는 최적화된 언어 분야를 규제하기 위해 병목 현상을 공유함으로써 자기 지도형 DINO를 도입합니다.

아키텍처 측면에서 3D의 언어 임베딩 최적화는 기본 장면 표현의 밀도 분포에 영향을 주어서는 안 됩니다. 따라서 이 연구는 고유 벡터(DINO, CLIP)를 사용하여 두 개의 독립적인 네트워크를 훈련하여 LERF의 귀납적 편향을 포착합니다. 표준 NeRF 출력(색상, 밀도)용도 있습니다.

실험

LERF의 실제 데이터 처리 능력을 입증하기 위해 연구에서는 식료품점, 주방, 서점, 인형 등 13개 장면을 수집했습니다. 그림 3은 LERF의 자연어 처리 능력을 보여주는 5가지 대표적인 시나리오를 선택합니다.

NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

그림 3

그림 7은 LERF와 LSeg의 3D 시각적 비교입니다. 교정 그릇의 계란에서 LSeg는 LERF만큼 좋지 않습니다.

그림 8은 제한된 분할 데이터 세트로 훈련된 LSeg에는 자연어를 효과적으로 표현하는 능력이 부족함을 보여줍니다. 대신 그림 7에 표시된 것처럼 훈련 세트 분포 내의 공통 개체에서만 잘 수행됩니다. NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

그러나 LERF 방법은 아직 완벽하지 않습니다. 예를 들어 호박 야채를 보정할 때 다른 야채가 나타납니다. NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.

위 내용은 NeRF에 자연어가 통합되어 몇 단어만으로 3D 이미지를 생성하는 LERF가 탄생했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI Art vs Human Art : Ghibli 트렌드가 공물입니까 아니면 도난입니까?Apr 25, 2025 am 10:37 AM

이 논쟁은 사진을 AI 생성 스튜디오 지브리 스타일 예술로 변환하는 바이러스 성 트렌드를 비판하는 Instagram 비디오로 시작되었습니다. 비디오 제작자는 이것이 진정한 예술가의 작품을 훼손하는 무례한 단축키 인 도난이라고 주장했다. 그들은 주장했다

Google AI 스튜디오의 초보자 안내서Apr 25, 2025 am 10:32 AM

Google AI Studio의 파워 잠금 해제 : AI Innovation Playground Google AI Studio는 가장 거친 기술 꿈을 현실로 변형시켜 인공 지능 세계로 사용자 친화적 인 게이트웨이를 제공합니다. 이 안내서는 복잡한 기계 l을 시연합니다

미세 조정 LLM을위한 5 개의 저렴한 클라우드 플랫폼Apr 25, 2025 am 10:30 AM

미세 조정 대형 언어 모델 (LLM)은 비싸므로 강력한 GPU 및 실질적인 컴퓨팅 리소스가 필요합니다. 그러나 저렴한 클라우드 플랫폼은 AWS, Google Cloud 및 Azure와 같은 기존 제공 업체에 대한 비용 효율적인 대안을 제공합니다.

Deepseek V3 vs Llama 4 : 어떤 모델이 최고로 지배합니까? - 분석 VidhyaApr 25, 2025 am 10:27 AM

끊임없이 진화하는 대형 언어 모델의 풍경에서 DeepSeek V3 vs Llama 4는 개발자, 연구원 및 AI 애호가 모두에게 가장 인기있는 경기 중 하나가되었습니다. 타오르는 빠른 인베어를 최적화할지 여부

오픈 소스 및 오픈 웨이트 모델은 무엇입니까?Apr 25, 2025 am 10:19 AM

DeepSeek 모델과 Google의 Gemma 3은 "Open"AI 모델 개발의 증가하는 추세를 강조하여 탁월한 추론 기능과 가벼운 설계를 강조합니다. Openai는 다가오는 & Quo와 함께이 생태계에 기여할 준비가되어 있습니다.

다음 프로젝트를위한 상위 13 개 고급 헝겊 기술Apr 25, 2025 am 10:07 AM

AI가 규모에 따라 진정으로 관련된 답변을 생성 할 수 있습니까? 복잡한 다중 회전 대화를 이해하는 방법은 무엇입니까? 그리고 우리는 어떻게 잘못된 사실을 자신있게 뱉지 않도록 하는가? 이것들은 Mo의 도전입니다

LLAMA 4 모델 : Meta AI가 최선을 다하고 있습니다! - 분석 VidhyaApr 25, 2025 am 10:06 AM

메타의 라마 4 : 오픈 소스 AI 발전소의 트리오 Meta AI는 LLAMA 4 배너 : Scout, Maverick 및 Behemoth에서 3 개의 획기적인 대형 언어 모델 (LLM)을 동시에 방출함으로써 AI 환경을 방해했습니다. 이 움직임은 Sh와 대조됩니다

에이전트 작전을위한 상위 10 개 도구Apr 25, 2025 am 10:05 AM

AI 에이전트가 더 복잡한 작업을 수행함에 따라 단순히이를 구축하는 것만으로는 충분하지 않습니다. 성능, 신뢰성 및 효율성을 관리하는 것도 마찬가지로 중요합니다. 그곳에서 에이전트 OPS가 들어오는 곳입니다. 조직이 모니터링, 최적화,

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.