>  기사  >  기술 주변기기  >  옥스포드 대학의 최신 요약 | 대형 언어 모델과 3차원 세계에 대한 최신 리뷰에 대해 이야기해 보세요.

옥스포드 대학의 최신 요약 | 대형 언어 모델과 3차원 세계에 대한 최신 리뷰에 대해 이야기해 보세요.

WBOY
WBOY원래의
2024-06-02 19:41:32339검색

앞서 작성 및 저자의 개인적인 이해

대형 언어 모델(LLM)의 개발로 이들과 3차원 공간 데이터(3D LLM)의 통합이 급속히 발전하여 물리적인 이해의 기초를 제공하고 있습니다. 공간과 물리학은 전례 없는 기능을 제공합니다. 이 문서에서는 3D 데이터 처리, 이해 및 생성에 대한 LLM의 접근 방식에 대한 포괄적인 개요를 제공합니다. 우리는 상황별 학습, 단계적 추론, 개방형 어휘 능력, 광범위한 세계 지식과 같은 LLM의 고유한 장점을 강조하고, 임베디드 인공 지능(AI) 시스템과의 공간 이해 및 상호 작용을 향상시킬 수 있는 잠재력을 강조합니다. 우리 연구에서는 포인트 클라우드부터 NeRF(Neural Rendering Fields)까지 다양한 3D 데이터 표현을 다루고 있습니다. 3D 장면 이해, 자막, 질문 답변, 대화 등의 작업을 위한 LLM과 공간 추론, 계획 및 탐색을 위한 LLM 기반 에이전트와의 통합을 분석합니다. 또한 이 논문에서는 다른 관련 3D 및 언어 결합 접근 방식을 간략하게 검토하여 상당한 진전을 보여 주지만 3D LLM의 잠재력을 최대한 활용해야 할 필요성을 강조합니다. 따라서 이 토론 문서를 통해 우리는 복잡한 3D 세계를 이해하고 상호 작용하는 데 있어 3D LLM의 기능을 탐색하고 확장하기 위한 향후 연구 경로를 계획하는 것을 목표로 합니다.

오픈 소스 링크: https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

관련 배경

이 섹션에서는 3차원 표현, 대형 언어 모델(LLM) 및 2차원 시각적 언어 모델(VLM) 및 비전 기반 모델(VFM).

3D 표현

세계를 설명하고 모델링하고 이해하기 위해 3D 표현을 선택하는 것은 3D LLM의 현재 진행 상황을 이해하는 데 도움이 되는 중요한 주제입니다. 컴퓨터 비전의 기초 연구 분야이기도 합니다. 이 분야는 딥 러닝, 컴퓨팅 리소스 및 3D 데이터 가용성의 발전으로 인해 최근 엄청난 성장을 경험했습니다. 현재 사용되는 가장 일반적인 3차원 표현을 간략하게 소개합니다.

포인트 클라우드: 3차원 모양을 공간의 데이터 점 집합으로 표현하고 각 점의 위치를 ​​3차원 데카르트 좌표계에 저장합니다. 위치를 저장하는 것 외에도 각 지점에 대한 기타 정보(예: 색상, 일반)를 저장할 수 있습니다. 포인트 클라우드 기반 방법은 저장 공간이 적지만 표면 토폴로지 정보가 부족한 것으로 알려져 있습니다. 포인트 클라우드를 얻는 일반적인 소스로는 LiDAR 센서, 구조광 스캐너, 비행 시간 카메라, 스테레오 뷰, 사진 측량 등이 있습니다.

복셀 그리드: 2차원 공간의 픽셀 표현과 유사하게 3차원 공간의 단위 큐브로 구성됩니다. 각 복셀은 점유 정보(이진 또는 확률적)를 최소한으로 인코딩하지만 부호 있는 거리 함수(SDF) 또는 잘린 부호 있는 거리 함수(TSDF)에서와 같이 표면까지의 거리를 추가로 인코딩할 수 있습니다. 그러나 고해상도 디테일이 필요한 경우 메모리 공간이 과도해질 수 있습니다.

다각형 메쉬: 복잡한 3차원 모양을 간결하게 묘사할 수 있는 꼭지점과 표면으로 구성된 표현입니다. 그러나 구조화되지 않고 차별화할 수 없는 특성으로 인해 엔드투엔드 차별화 가능한 파이프라인을 달성하기 위해 신경망과 통합하는 데 어려움이 있습니다. 경사 근사법을 기반으로 하는 방법과 같은 이 문제에 대한 일부 솔루션은 손으로 만든 경사 계산만 사용할 수 있습니다. 미분 가능한 래스터라이저와 같은 다른 솔루션을 사용하면 콘텐츠가 흐려지는 등 부정확한 렌더링 결과가 발생할 수 있습니다.

최근 몇 년 동안 기하학적 요소에 의존하는 전통적인 표현과 달리 신경 장면 3D 연구 커뮤니티에 대한 관심이 높아지고 있습니다. 신경 장면은 공간 좌표에서 장면 속성(예: 점유, 색상, 강도 등)으로의 매핑이지만, 물질 그리드와 달리 신경 장면의 매핑은 학습된 함수(일반적으로 다층 퍼셉트론)입니다. 이러한 방식으로 신경 장면은 기하학적이고 연속적이며 미분 가능한 3D 모양과 장면 표현을 학습하는 능력을 암시적으로 학습합니다.

신경망 세트는 암시적 표면 표현에 중점을 둡니다. 점유 네트워크는 3D 점 위치와 포인트 클라우드, 저해상도 복셀 또는 이미지의 특징을 사용하여 점유 확률을 추정하는 신경망으로 표시되는 연속 3D 점유 함수의 모양을 인코딩합니다. 한편 심층 SDF 네트워크는 신경망을 사용하여 3D 좌표와 기울기로부터 SDF를 추정합니다. NeuS 및 NeuS2와 같은 최근 방법은 정적 및 동적 타겟 모두에 대한 표면 재구성 충실도와 효율성을 향상시키는 것으로 나타났습니다.

NeRF(Neural Radiation Fields)라는 또 다른 방법 그룹은 3D 세계에 대한 강력한 사실적 렌더링 기능을 보여주었습니다. 이러한 방법은 위치 인코딩 기술을 사용하여 장면 세부 정보를 인코딩하고 MLP를 활용하여 카메라 광선의 휘도 값(색상 및 불투명도)을 예측합니다. 그러나 공간의 모든 샘플링 지점(빈 공간의 샘플링 지점 포함)의 색상 및 점유 세부 정보를 추론하기 위한 MLP의 필요성에는 상당한 계산 리소스가 필요합니다. 따라서 실시간 애플리케이션에 대한 NeRF의 계산 오버헤드를 줄이려는 강력한 인센티브가 있습니다.

하이브리드 표현은 NeRF 기술과 전통적인 볼륨 기반 방법을 결합하여 고품질 실시간 렌더링을 촉진합니다. 예를 들어, 복셀 그리드 또는 다중 해상도 해시 그리드를 신경망과 결합하면 NeRF 훈련 및 추론 시간이 크게 단축됩니다.

3D 가우스 산란은 각 점이 해당 점 주변 공간 영역에서 방출되는 방사선을 이방성 3D 가우스 "방울"로 나타내는 추가 정보를 포함하는 점 구름의 변형입니다. 이러한 3D 가우스는 일반적으로 SfM 포인트 클라우드에서 초기화되고 미분 가능 렌더링을 사용하여 최적화됩니다. 3D 가우시안 산란(Gaussian Scattering)은 광선 추적 대신 효율적인 래스터화를 활용하여 NeRF 계산의 일부만으로 최첨단의 새로운 뷰 합성을 가능하게 합니다.

LLM

기존의 자연어 처리(NLP)는 시스템이 텍스트를 이해, 생성 및 조작할 수 있도록 설계된 광범위한 작업을 포함합니다. NLP에 대한 초기 접근 방식은 규칙 기반 시스템, 통계 모델, 순환 신경망과 같은 초기 신경 아키텍처와 같은 기술에 의존했습니다. 최근 도입된 LLM(Large Language Model)은 Transformer 아키텍처를 채택하고 대규모 텍스트 코퍼스(Large Text Corpus)에서 학습되어 전례 없는 성능을 달성하며 해당 분야에 새로운 열풍을 일으키고 있습니다. 이 기사의 초점은 3차원 LLM이므로 여기에서는 LLM에 대한 관련 배경 지식을 제공합니다. LLM을 심층적으로 탐구하기 위해 해당 지역의 최근 설문 조사를 참조합니다.

LLM 구조

LLM의 맥락에서 "인코더-디코더" 및 "디코더 전용" 아키텍처는 주로 NLP 작업에 사용됩니다.

  • 인코더-디코더 아키텍처;
  • 디코더 전용 아키텍처;
  • 토큰화: 토큰화는 입력 텍스트를 언어 모델의 기본 데이터 단위인 토큰 시퀀스로 분해하는 전처리 방법입니다. 토큰의 수는 제한되어 있으며 각 토큰은 단어, 하위 단어 또는 단일 문자에 해당할 수 있습니다. 추론 중에 입력 텍스트는 일련의 토큰으로 변환되어 모델에 공급됩니다. 모델은 출력 토큰을 예측한 다음 출력 토큰을 다시 텍스트로 변환합니다. 토큰화는 모델의 텍스트 인식에 영향을 미치기 때문에 언어 모델의 성능에 큰 영향을 미칩니다. 단어 수준 토큰화, 하위 단어 토큰화(예: 바이트 쌍 인코딩, WordPiece, PencePiece) 및 문자 수준 토큰화와 같은 다양한 토큰화 기술이 사용됩니다.

LLM Emergent Abilities

LLM과 기존 비LLM 방법의 주요 차이점 중 하나는 대형 모델에서는 사용할 수 있지만 소형 모델에는 없는 응급 기능입니다. "긴급 기능"이라는 용어는 LLM의 규모와 복잡성이 확장됨에 따라 발생하는 새로운 복잡한 기능을 의미합니다. 이러한 역량을 통해 사람들은 자연어를 깊이 이해하고 생성하며, 특별한 훈련 없이도 다양한 분야의 문제를 해결하고, 상황별 학습을 통해 새로운 업무에 적응할 수 있습니다. 다음에서는 LLM 범위 내에서 몇 가지 공통적이고 새로운 기능을 소개합니다.

상황별 학습은 명시적인 재교육이나 미세 조정 없이 프롬프트에 제공된 상황을 기반으로 새로운 작업이나 쿼리를 이해하고 응답하는 LLM의 능력을 말합니다. 랜드마크 논문(GPT-2/GPT-3)은 멀티샷 접근 방식의 상황별 학습을 보여줍니다. 즉, 모델에 프롬프트에서 여러 작업 예제가 제공되고 사전 명시적 교육 없이 다양한 예제를 처리하도록 요청됩니다. GPT-4와 같은 최첨단 LLM은 프롬프트에 제공된 컨텍스트를 기반으로 복잡한 지침을 이해하고 간단한 번역부터 코드 생성 및 창의적 글쓰기에 이르기까지 광범위한 작업을 수행하는 등 탁월한 상황별 학습 기능을 보여줍니다. .

LLM의 추론은 종종 "사고 사슬" 프롬프트라고도 하며 복잡한 문제나 문제를 처리할 때 중간 단계나 추론 경로를 생성하는 모델을 포함합니다. 이러한 접근 방식을 통해 LLM은 작업을 더 작고 관리 가능한 부분으로 나누어 보다 구조화되고 이해하기 쉬운 솔루션 프로세스를 촉진합니다. 이를 달성하기 위해 교육에는 다양한 문제 해결 작업, 논리 퍼즐, 불확실성 하에서 추론을 시뮬레이션하도록 설계된 데이터 세트가 포함된 데이터 세트가 포함됩니다. 현재 최첨단 LLM은 일반적으로 모델 크기가 60B~100B 매개변수보다 클 때 고급 추론 기능을 나타냅니다.

지시 준수는 모델이 명령을 이해하고 실행하는 능력, 또는 사용자가 지정한 명령을 실행하는 능력을 말합니다. 여기에는 명령 구문 분석, 의도 이해, 적절한 응답 또는 작업 생성이 포함됩니다. 이 능력을 새로운 작업에 적용하는 데 사용되는 방법에는 올바른 응답 또는 작업과 쌍을 이루는 다양한 지침이 포함된 데이터 세트의 지침 적응이 필요할 수 있습니다. 지도 학습, 인간 피드백을 통한 강화 학습, 대화형 학습과 같은 기술은 성능을 더욱 향상시킬 수 있습니다.

LLM 미세 조정

3D LLM의 맥락에서 LLM은 사전 훈련된 상태에서 직접 사용되거나 새로운 다중 모드 작업에 적응하도록 미세 조정됩니다. 그러나 LLM의 전체 매개변수를 미세 조정하면 관련 매개변수 수가 많아 상당한 계산 및 메모리 문제가 발생합니다. 따라서 전체 모델을 재교육하는 대신 상대적으로 작은 모델 매개변수 하위 집합만 업데이트하여 LLM을 특정 작업에 적용하는 데 PEFT(매개변수 유효 미세 조정)가 점점 인기를 얻고 있습니다. 다음 섹션에는 LLM에서 사용되는 네 가지 일반적인 PEFT 방법이 나열되어 있습니다.

Low-Rank Adaptation(LoRA) 및 변형은 낮은 순위 행렬을 통해 매개변수를 업데이트합니다. 수학적으로 미세 조정 중 LoRA의 순방향 통과는 h=W0x+BAx로 표현될 수 있습니다. W0는 LLM의 고정 가중치이고, BA는 미세 조정 단계에서 업데이트된 새로 도입된 행렬 a와 B에 의해 매개변수화된 하위 행렬입니다. 이 접근 방식에는 몇 가지 분명한 이점이 있습니다. 미세 조정 과정에서는 B와 A만 최적화되므로 기울기 계산 및 매개변수 업데이트와 관련된 계산 오버헤드가 크게 줄어듭니다. 미세 조정이 완료되고 가중치가 병합되면 방정식 h = (W0 + BA) x와 같이 원래 모델에 비해 추가 추론 비용이 없습니다. 또한 여러 LoRA 인스턴스를 저장할 수 있으므로 다양한 작업을 위해 여러 LLM 복사본을 저장할 필요가 없으므로 스토리지 공간이 줄어듭니다.

Layer Freeze: 훈련 중에 다른 레이어를 업데이트하는 동안 사전 훈련된 모델의 선택한 레이어를 고정합니다. 이는 일반적으로 작업의 성격과 모델 아키텍처에 따라 모델 입력 또는 출력에 더 가까운 레이어에 적용됩니다. 예를 들어, 3D-LLM 접근 방식에서는 입력 및 출력 임베딩을 제외한 모든 레이어를 고정하여 작업별 데이터 세트에 대한 과적합 위험을 완화하고 사전 훈련된 일반 지식을 유지하며 최적화해야 하는 매개변수를 줄일 수 있습니다.

Prompt Tuning 프롬프트에서 LLM의 프레임워크를 설정하고 모델 매개변수를 조정하는 기존의 미세 조정과 비교하여 모델 입력을 조정하여 LLM이 특정 작업을 수행하도록 안내합니다. 수동 큐 엔지니어링은 가장 직관적인 방법이지만 숙련된 큐 튜닝 엔지니어가 최상의 큐를 찾는 것이 어려울 수 있습니다. 또 다른 접근 방식은 자동화된 팁 생성 및 최적화입니다. 널리 사용되는 방법은 예를 들어 하드 프롬프트라고 하는 정확한 최상의 입력 프롬프트 텍스트를 검색하는 것입니다. 또는 최적화 방법을 사용하여 힌트(소프트 힌트) 삽입을 최적화할 수 있습니다.

적응형 미세 조정레이어나 모듈을 추가하거나 제거하여 특정 작업에 맞게 모델 아키텍처를 사용자 정의하세요. 여기에는 시각적 정보 및 텍스트 데이터와 같은 새로운 데이터 형식의 통합이 포함될 수 있습니다. 적응형 미세 조정의 핵심 아이디어는 사전 훈련된 모델의 레이어 사이에 삽입된 작은 신경망 모듈을 활용하는 것입니다. 적응형 미세 조정 중에는 이러한 어댑터 모듈의 매개변수만 업데이트되고 원래 모델 가중치는 변경되지 않습니다.

2D 비전-언어 모델

시각 언어 모델은 텍스트와 이미지/비디오 간의 관계를 캡처 및 활용하고 두 양식 간의 대화형 작업을 수행할 수 있도록 설계된 모델 제품군입니다. 대부분의 VLM에는 Transformer 기반 아키텍처가 있습니다. 주의 모듈을 활용하여 시각적 콘텐츠와 텍스트 콘텐츠가 서로 조정되어 상호 작용을 달성합니다. 다음 단락에서는 판별 및 생성 작업에 VLM을 적용하는 방법을 간략하게 소개합니다.

차별 작업에는 데이터의 특정 특징을 예측하는 작업이 포함됩니다. CLIP 및 ALIGN과 같은 VLM은 이미지 분류에서 보이지 않는 데이터에 대한 제로샷 전송 가능성 측면에서 탁월한 성능을 보여주었습니다. 두 모델 모두 시각적 인코더와 텍스트 인코더라는 두 가지 모듈을 포함합니다. 이미지와 해당 카테고리가 주어지면 CLIP과 ALIGN은 "{이미지 카테고리}의 사진" 문장의 이미지 임베딩과 텍스트 임베딩 간의 유사성을 최대화하여 학습됩니다. 제로샷 전달성은 추론 중에 "{이미지 카테고리}"를 가능한 후보로 대체하고 이미지와 가장 일치하는 문장을 검색함으로써 달성됩니다. 이 두 작품은 수많은 후속 작품에 영감을 주어 이미지 분류의 정확성을 더욱 향상시켰습니다. 이러한 모델은 객체 감지, 이미지 분할, 문서 이해, 비디오 인식 등 다른 작업에 사용할 학습된 지식을 추출할 수도 있습니다.

작업 생성 VLM을 활용하여 입력 데이터에서 텍스트 또는 이미지를 생성합니다. 대규모 훈련 데이터를 활용함으로써 단일 VLM은 종종 이미지 캡션 및 VQA(시각적 질문 답변)와 같은 여러 이미지-텍스트 생성 작업을 수행할 수 있습니다. 주목할만한 예로는 SimVLM, BLIP, OFA 등이 있습니다. BLIP-2, Flamingo 및 LLaVA와 같은 보다 강력한 VLM은 입력 이미지를 기반으로 다중 회전 대화 및 추론을 처리할 수 있습니다. 확산 모델의 도입으로 텍스트-이미지 생성도 연구 커뮤니티의 초점이 되었습니다. 확산 모델은 다수의 이미지-텍스트 쌍을 학습함으로써 텍스트 입력을 기반으로 고품질 이미지를 생성할 수 있습니다. 이 기능은 비디오, 3D 장면 및 동적 3D 타겟 생성까지 확장됩니다. 작업 생성 외에도 텍스트 프롬프트를 통해 기존 이미지를 편집할 수도 있습니다.

Vision Foundation 모델

Vision Foundation 모델(VFM)은 사전 훈련된 LLM을 미러링하여 다양한 다운스트림 작업에 직접 배포할 수 있을 만큼 다양하고 표현력이 풍부한 이미지 표현을 추출하도록 설계된 대규모 신경망입니다. 다운스트림 NLP 작업의 역할. 주목할만한 예 중 하나는 자율 감독 교사-학생 교육 모델을 사용하는 DINO입니다. 학습된 표현은 이미지 분류와 의미 이미지 매칭 모두에서 좋은 결과를 얻습니다. DINO의 주의 가중치는 관찰된 장면의 의미 구성 요소에 대한 분할 마스크로 사용될 수도 있습니다. iBOT 및 DINOv2와 같은 후속 작업에서는 MIM(Masked Image Modeling) 손실을 도입하여 표현이 더욱 향상되었습니다. SAM은 의미 마스크가 있는 11억 개의 이미지로 구성된 데이터 세트에서 훈련된 변환기 기반 이미지 분할 모델이며 강력한 제로샷 전송 기능을 보여줍니다. DINO(Zhang et al.)(DINO(Caron et al.)와 혼동하지 말 것)는 객체 감지를 위해 DETR과 유사한 아키텍처와 하이브리드 쿼리 선택을 채택합니다. 후속 작업인 Grounding DINO에서는 정확성을 높이기 위해 텍스트 감독 기능을 도입했습니다. Stable Diffusion은 깨끗하거나 인위적으로 노이즈가 있는 이미지에서 단일 확산 단계를 실행하고 중간 특징 또는 주의 마스크를 추출하여 "실제" 이미지의 특징 추출기로도 사용되는 텍스트-이미지 생성기입니다. 이러한 기능은 최근 확산 모델에 사용되는 훈련 세트의 크기와 다양성, 그리고 이미지 간 제로샷 대응과 같은 확산 기능의 관찰된 창발 속성으로 인해 분할 및 이미지 매칭 작업에 활용되었습니다.

Task

3D 자막(3D → 텍스트)

  • 객체 수준 자막
  • 장면 수준 자막
  • 3D 고밀도 자막

3D 접지(3D + 텍스트 → 3D 포지션)

  • 단일 객체 접지
  • 다중 객체 접지

3D 대화(3D + 텍스트 → 텍스트)

  • 3D 질문 답변(3D-QA)
  • 3D 기반 질문 답변(3D-SQA)
  • 3D 대화

3.4 3D 구현 에이전트(3D + 텍스트 → 액션)

  • 3D 작업 계획
  • 3D 탐색
  • 3D 조작

3.5 텍스트-3D 생성(텍스트 → 3D)

  • 3D 개체 생성
  • 3D 장면 생성
  • 3D 편집

LLMS를 사용한 3D 작업

3D 장면 이해 작업이 널리 연구되었습니다. 장면 이해의 핵심은 지정된 3차원 환경에서 모든 객체를 식별하고 분류하는 것인데, 이를 의미론적 이해 또는 인스턴스 수준 이해라고 합니다. 이 단계는 보다 미묘한 해석을 구축하기 위한 기초를 형성하므로 매우 중요합니다. 이어서, 더 높은 수준의 장면 이해는 공간적 장면 그래프의 구성과 대상 관계의 의미론을 의미하는 공간적 이해에 중점을 둡니다. 한 단계 더 나아가면 어포던스, 장면 변화 등 잠재적인 상호 작용을 예측하고 기능, 미적 스타일 등 장면의 더 넓은 맥락을 이해할 수 있습니다. 3D 데이터는 또한 3D 데이터를 얻고 레이블을 지정하는 데 상대적으로 높은 비용, 균일하게 조밀하지 않거나 그리드와 정렬되지 않은 희박한 3D 데이터 구조, 다중(폐쇄될 수 있음)을 조정해야 하는 필요성 등 2D에는 존재하지 않는 고유한 과제를 제시합니다. ) 관점. 이를 위해 연구자들은 언어의 힘을 활용하여 3D 세계에 의미론과 관계를 삽입했습니다. LLM(대형 언어 모델)을 3D 데이터와 통합하려는 최근의 노력은 LLM의 고유한 강점, 즉 제로샷 학습, 상황별 학습, 단계적 추론 및 광범위한 세계 지식을 활용하여 다단계 이해 및 상호 작용을 달성할 수 있다는 가능성을 보여주었습니다.

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

LLM은 3D 장면 정보를 어떻게 처리합니까?

기존 LLM은 입력 및 출력으로 텍스트로 제한되므로 3D 정보를 수집하는 기능이 모든 3D-LLM 방법의 주요 초점이 됩니다. 일반적인 아이디어는 LLM이 이러한 3D 입력을 이해하고 처리할 수 있도록 3D 객체 또는 장면 정보를 언어 공간에 매핑하는 것입니다. 특히 여기에는 일반적으로 두 가지 단계가 포함됩니다. (i) 사전 훈련된 3D 인코더를 사용하여 해당 3D 표현을 처리하여 원시 3D 기능을 생성합니다. (ii) 정렬 모듈을 사용하여 이러한 3D 기능을 LLM이 태그를 처리할 수 있는 3D로 변환합니다. 설명된 토큰화 프로세스와 유사합니다. 그런 다음 사전 훈련된 LLM은 출력을 생성할 때 이러한 정렬된 3D 마커를 사용할 수 있습니다.

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

앞서 언급했듯이 3D 표현의 다양성을 고려하면 3D 기능을 얻는 방법에는 여러 가지가 있습니다. 표 1의 "3D 형상" 열에 표시된 대로 포인트 클라우드는 단순성과 사전 훈련된 다양한 3D 인코더와의 호환성으로 인해 가장 일반적이므로 다중 작업 및 다중 모드 학습 방법에 널리 사용됩니다. 2D 특징 추출에 대한 연구가 성숙해졌기 때문에 다중 뷰 이미지도 자주 사용됩니다. 즉, 3D 특징 추출에는 2D에서 3D 리프팅 방식으로의 추가적인 리프팅 방식만 필요하다는 의미입니다. 깊이 카메라를 사용하여 쉽게 얻은 RGB-D 데이터는 탐색 및 이해를 위한 시점 관련 정보를 추출하기 위해 3D 임베디드 에이전트 시스템에서 자주 사용됩니다. 3D 장면 그래프는 개체의 존재와 관계를 모델링하고 장면에 대한 높은 수준의 정보를 캡처하는 데 적합한 보다 추상적인 3D 표현입니다. 3D 장면 분류 및 계획 작업에 자주 사용됩니다. NeRF는 현재 3D-LLM 방법에서 덜 사용됩니다. 우리는 이것이 암시적 특성으로 인해 피드포워드 신경망과의 토큰화 및 통합이 더 어려워지기 때문이라고 믿습니다.

3D 작업 성능 향상을 위한 LLM

대량의 데이터로 훈련된 LLM은 세상에 대한 상식적인 지식을 얻는 것으로 입증되었습니다. 3D 장면에 대한 이해를 높이고 여러 3D 작업에 대한 파이프라인을 재구성하기 위해 LLM의 세계 지식과 추론 능력의 잠재력이 탐구되었습니다. 이 섹션에서는 LLM을 사용하여 3D 시각적 언어 작업에서 기존 방법의 성능을 향상시키는 방법에 중점을 둡니다. LLM을 3D 작업에 적용할 때 지식 확대와 추론 확대 방법이라는 두 그룹으로 용도를 나눌 수 있습니다. 지식 증강 방법은 LLM에 내장된 방대한 세계 지식을 활용하여 3D 작업 성능을 향상시킵니다. 이는 상황에 맞는 통찰력을 제공하고, 지식 격차를 해소하거나, 3D 환경에 대한 의미론적 이해를 향상시킬 수 있습니다. 또는 추론을 향상하는 방법은 세계 지식에 의존하지 않고 LLM의 기능을 활용하여 추론을 단계별로 수행함으로써 더 복잡한 3D 문제에 대해 더 나은 일반화 기능을 제공합니다. 다음 두 섹션에서는 이러한 각 방법을 설명합니다.

  • 지식 강화 접근 방식: LLM 세계 지식을 활용하는 방법에는 여러 가지가 있습니다. Chen 등은 RGB-D 이미지의 3D 공간 분류를 위해 LLM을 사용했습니다. 여기서, LLM에 내장된 지식은 방에 포함된 객체 카테고리 정보를 기반으로 방 카테고리를 결정하는 데 사용됩니다. 첫째, 이 접근 방식은 Matterport3D 데이터에서 장면 그래프를 생성합니다. 여기에는 영역 및 개체에 대한 노드는 물론 방 노드에 연결된 개체 노드가 포함됩니다. 다음으로 주요 개체를 선택하여 각 객실 유형에 대한 쿼리를 구성합니다. 선택한 개체에서 추출된 LLM 점수에 대한 설명으로, 가장 높은 점수가 방 레이블을 예측합니다. 크기나 위치 등의 공간정보도 제공할 수 있습니다.
  • 추론 강화 접근 방식: LLM의 추론 기능은 세계 지식 외에도 다른 3D 작업, 특히 상세한 기하학과 여러 개체가 있는 복잡한 3D 장면의 기본 비전을 처리하는 데 도움이 됩니다. 이 경우 개체에 대한 텍스트 설명에는 개체의 모양과 주변 항목과의 공간적 관계가 포함되어야 합니다. 일반적인 접지 방법은 자세한 텍스트 설명을 이해할 수 없기 때문에 이러한 상황에서 어려운 경우가 많습니다. LLM-Grounder, Transcribe3D 및 Zero-shot 3DVG는 LLM의 추론 기능을 활용하여 텍스트 설명을 분석하고 기존 접지 도구 상자를 사용하여 객체를 찾는 일련의 지침을 생성함으로써 이 문제를 해결합니다.

3D 다중 작업 학습을 위한 LLM

많은 작업이 LLM의 지침 따르기 및 상황별 학습 기능을 사용하여 여러 3D 작업을 언어 공간으로 통합하는 데 중점을 둡니다. 다양한 작업을 나타내기 위해 다양한 텍스트 프롬프트를 사용함으로써 이러한 연구는 LLM을 통합된 대화 인터페이스로 만드는 것을 목표로 합니다. LLM을 사용하여 다중 작업 학습을 구현하려면 일반적으로 3D 텍스트 데이터 쌍 구성부터 시작하여 몇 가지 주요 단계가 필요합니다. 이러한 쌍을 이루려면 작업 지침을 텍스트 형식으로 작성하고 각 작업에 대한 출력을 정의해야 합니다. 다음으로 3D 데이터(일반적으로 포인트 클라우드 형태)가 3D 인코더에 공급되어 3D 특징을 추출합니다. 그런 다음 정렬 모듈은 (i) 여러 수준(객체 수준, 관계 수준 및 장면 수준)에서 3D 기능을 LLM의 텍스트 임베딩과 정렬하고 (ii) 3D 기능을 LLM 해석 가능한 토큰으로 변환하는 데 사용됩니다. 마지막으로 단일 단계 또는 다단계 3D 언어 정렬 교육 및 다중 작업 지침 미세 조정과 같은 적절한 교육 전략을 선택해야 합니다.

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

이 섹션의 나머지 부분에서는 이러한 측면을 자세히 살펴보겠습니다. 또한 이 섹션에서 검토한 각 방법의 범위와 기능을 표 2에 요약합니다.

  • 다중 작업 학습을 위한 데이터: 표 2와 같이 작업을 자막, 기본, 질문 답변(QA) 및 특정 에이전트 작업(예: 계획, 탐색 및 운영)의 네 가지 범주로 분류합니다. 따라서 각 작업의 텍스트 출력은 미리 정의된 형식을 따릅니다. 자막 및 QA 작업의 경우 출력은 일반 텍스트이며 특정 형식으로 제한되지 않습니다. 기본 작업의 출력은 일반적으로 참조 개체의 중심 좌표와 해당 3D 크기인 3D 경계 상자입니다. 일반적으로 포인트와 크기의 값은 0-255 범위 내에 속하도록 정규화되며, 이는 LLM이 예측해야 하는 토큰 범위를 제한합니다. 계획의 경우 모델은 작업을 수행하기 위한 일련의 단계를 텍스트 형식으로 출력하는 반면, 탐색의 경우 출력은 일련의 공간 좌표입니다. 작업의 경우 출력은 작업의 텍스트 순서입니다. 기존 방법은 이러한 지침에 따라 다중 작업 명령을 미세 조정하는 데이터 세트를 구축합니다.
  • 여러 3D 작업을 위한 LLM 교육: 여러 3D 작업을 위한 LLM 교육의 첫 번째 단계는 의미 있는 3D 기능을 얻는 것입니다. 여기서 추출 방법은 3D 장면 유형에 따라 다릅니다. 단일 객체 포인트 클라우드의 경우 포인트 LLM, Chat-3D 및 GPT4Point는 포인트 BERT를 사용하여 3D 객체 특징을 추출합니다. 실내 장면의 경우 LEO는 특징 추출을 위해 PointNet++를 사용하고, Chat-3D v2 및 3DMIT는 장면을 분할하고 Uni-3D를 사용하여 분할된 각 부분에 대한 특징을 추출합니다. 동시에 MultiPLY는 추출된 객체 특징을 장면 그래프에 통합하여 전체 장면을 표현합니다. 3D-LLM 및 장면 LLM은 2D 다중 뷰 이미지의 기능을 3D 표현으로 전환합니다. 3D-LLM은 Mask2Former 또는 SAM에서 2D 의미론적 특징을 추출합니다. Scene LLM은 ConceptFusion을 따라 글로벌 정보와 로컬 세부 정보를 융합하여 픽셀별 CLIP 기능을 포인트별 3D 기능으로 매핑합니다. 실외 3D 장면의 경우 LiDAR LLM은 VoxelNet을 사용하여 3D 복셀 특징을 추출합니다.

3D 다중 모드 인터페이스로서의 LLM

3D 다중 작업 학습자를 탐색하는 것 외에도 일부 최근 연구에서는 다양한 양식의 정보를 결합하여 모델의 기능을 더욱 향상시키고 새로운 상호 작용을 가능하게 했습니다. 텍스트 및 3D 장면 외에도 다중 모드 3D LLM은 장면의 2D 이미지, 오디오 또는 터치 정보를 입력으로 포함할 수도 있습니다.

대부분의 작품은 다양한 양식에 걸쳐 공통의 표현 공간을 구축하는 것을 목표로 합니다. 일부 기존 작업은 이미 텍스트, 이미지 또는 오디오를 공통 공간에 매핑하는 사전 학습된 인코더를 제공하므로 일부 작업에서는 3D 임베딩을 다른 양식 장치에 대한 사전 학습된 인코더의 임베딩 공간과 정렬하는 3D 인코딩을 학습하기로 선택합니다. JM3D-LLM은 포인트 클라우드의 임베딩 공간을 SLIP의 텍스트 이미지 임베딩 공간과 정렬하는 3D 포인트 클라우드 인코더를 학습합니다. 포인트 클라우드의 이미지 시퀀스를 렌더링하고 훈련 중에 계층적 텍스트 트리를 구축하여 세부적인 정렬을 달성합니다. 또한 Point Bind는 유사한 3D 인코더를 학습하고 이를 ImageBind와 정렬하여 이미지, 텍스트, 오디오 및 포인트 클라우드의 임베딩 공간을 통합합니다. 이를 통해 다양한 작업 헤드를 사용하여 다양한 모드 간 검색, 분류 및 생성과 같은 다양한 작업을 처리할 수 있습니다. 그러나 주목할만한 제한은 3D 인코더가 수백만 개의 포인트가 있는 대규모 장면을 처리하는 데 계산 비용이 많이 들기 때문에 이 접근 방식은 소규모 개체 수준 장면에만 적합하다는 것입니다. 또한 CLIP과 같은 대부분의 사전 훈련된 다중 모달 인코더는 단일 개체 장면용으로 설계되었으며 여러 개체와 로컬 세부 정보가 있는 대규모 장면에는 적합하지 않습니다.

반면, 대규모 장면에서는 여러 모드를 통합하기 위해 더욱 세밀한 디자인이 필요합니다. ConceptFusion은 대규모 장면의 각 구성 요소 이미지에 대한 글로벌 정보와 로컬 세부 정보를 융합하는 향상된 기능 맵을 구축합니다. 이는 텍스트 및 오디오를 포함한 다양한 양식에 이미 맞춰진 사전 훈련된 특징 추출기를 사용하여 달성됩니다. 그런 다음 전통적인 SLAM 방법을 사용하여 기능 맵을 장면의 포인트 클라우드에 매핑합니다. MultiPLY는 ConceptGraph와 유사한 표현을 사용합니다. 장면의 모든 주요 개체를 식별하고 각 개체의 전역 임베딩을 얻은 다음 마지막으로 장면 그래프를 작성합니다. 결과 표현은 Llama의 임베딩 공간에 맞춰 정렬된 장면 임베딩입니다. 오디오, 온도, 촉각을 포함한 다른 양식의 임베딩도 선형 투영을 사용하여 동일한 공간에 매핑할 수 있습니다. 모든 삽입은 토큰화되어 즉시 LLM으로 전송됩니다. 객체 수준 장면에 대한 방법과 비교할 때 대규모 장면을 처리할 수 있는 방법은 처음부터 새로운 인코더를 학습하는 대신 사전 훈련된 인코더를 사용하여 모달 격차를 해소함으로써 비용을 절감합니다.

체화된 에이전트를 위한 LLM

LLM의 계획, 도구 사용 및 의사 결정 기능을 사용하여 3D 콘크리트 에이전트를 만들 수 있습니다. 이러한 기능을 통해 LLM은 3D 환경 탐색, 개체와의 상호 작용, 특정 작업 수행에 적합한 도구 선택 등 지능적인 결정을 내릴 수 있습니다. 이 섹션에서는 3D 콘크리트 에이전트가 계획, 탐색 및 운영 작업을 수행하는 방법을 설명합니다.

  • 3D 작업 계획: 특정 에이전트의 경우 "작업 계획"은 주어진 작업 설명 및 3D 환경에서 특정 작업을 수행하기 위한 단계를 생성하는 기능을 의미합니다. 계획의 정확성이 후속 임무 수행에 직접적인 영향을 미치기 때문에 임무 계획은 항해 및 조종 임무의 전제조건인 경우가 많습니다. LEO 및 LLM 플래너는 LLM을 활용하여 단계별 계획을 생성하고 환경 인식에 따라 동적으로 조정합니다. LEO는 현재 장면 구성을 기반으로 한 장면 인식 계획을 강조하는 반면, LLM Planner는 GPT3를 사용하여 계획을 높은 수준의 하위 목표와 낮은 수준의 작업으로 나누고 작업 실행 중 에이전트에 문제가 발생하면 다시 계획을 세웁니다. 3D-VLA는 생성된 세계 모델을 통해 3D 인식, 추론 및 행동을 결합합니다. 생성 모델을 활용하여 대상 이미지 및 포인트 클라우드와 같은 미래 상태 표현을 예측함으로써 계획 기능을 향상시키는 데 중점을 둡니다.
  • 3D 탐색: 3D 탐색은 일반적으로 시각적 입력 및 음성 지침을 기반으로 3D 환경에서 자체적으로 이동하고 위치를 지정하는 내장 에이전트의 기능을 의미합니다. 설명된 각 방법(LEO, Agent3D Zero, LLM Planner 및 NaviLLM)은 3D 탐색을 다른 방식으로 구현합니다. LEO는 차량 중심의 2D 이미지와 대상 중심의 3D 포인트 클라우드 및 텍스트 지침을 처리합니다.
  • 3D 객체 조작: 3D 콘크리트 에이전트의 맥락에서 조작은 객체 이동부터 부품 조립이나 문 열기와 같은 복잡한 시퀀스에 이르기까지 객체와 물리적으로 상호 작용하는 능력을 의미합니다. LLM이 운영 작업을 수행할 수 있도록 하는 데 사용되는 핵심 아이디어는 작업 시퀀스를 토큰화하는 것입니다. LLM이 특정 동작을 출력하려면 먼저 LLM이 작업 및 3D 장면 컨텍스트를 기반으로 해당 동작을 생성할 수 있도록 하는 동작 토큰을 정의해야 합니다. CLIPort나 로봇 팔의 동작 계획 모듈과 같은 플랫폼은 이러한 토큰화된 작업을 에이전트가 수행하는 물리적 작업으로 변환합니다.

3D 생성을 위한 LLM

전통적으로 3D 모델링은 진입 장벽이 높은 복잡하고 시간 집약적인 프로세스였으며 현실적인 결과를 얻으려면 형상, 질감 및 조명에 세심한 주의가 필요했습니다. 이 섹션에서는 LLM과 3D 생성 기술의 통합을 자세히 살펴보고 언어가 장면에서 상황에 맞는 객체를 생성하는 방법을 제공하고 3D 콘텐츠 생성 및 조작을 위한 혁신적인 솔루션을 제공하는 방법을 보여줍니다.

  • 객체 수준 생성: Shape GPT는 모양별 3D VQ-VAE를 사용하여 3D 모양을 개별 "모양 단어" 마커로 양자화합니다. 이를 통해 텍스트 및 이미지와 함께 모양 데이터를 T5 언어 모델에 대한 다중 모드 입력에 통합할 수 있습니다. 이 다중 모드 표현을 통해 T5는 텍스트-모양 생성 및 모양 편집/완성과 같은 모드 간 상호 작용을 배울 수 있습니다. GPT4Point는 2-스트림 접근 방식을 사용합니다. 포인트 클라우드 지오메트리는 포인트 QFormer를 통해 텍스트와 정렬됩니다. 그런 다음 텍스트 이해와 텍스트 입력에 맞는 고품질 3D 객체 생성을 위해 결합된 LLM 및 확산 경로에 공급됩니다.
  • 장면 규모 생성: Holodeck과 ​​GALA-3D는 다단계 파이프라인을 사용하여 초기의 대략적인 3D 장면 레이아웃을 텍스트에서 상세하고 사실적인 3D 환경으로 점진적으로 개선합니다. Holodeck은 특수 모듈을 사용하여 GPT-4의 공간 추론 및 레이아웃/스타일 권장 사항을 기반으로 기본 레이아웃을 생성하고 재료를 선택하며 문 및 창과 같은 요소를 통합합니다. 그런 다음 GPT-4의 텍스트 설명과 일치하는 역방향 자산으로 레이아웃을 채웁니다. 최적화 프로그램은 현실적인 대상 레이아웃과 상호 작용을 장려하기 위해 GPT-4에서 얻은 공간 관계 제약 조건에 따라 이러한 대상을 배열합니다.
  • 절차적 생성 및 조작: LLMR, 3D-GPT 및 SceneCraft는 대화형 3D 세계 생성 및 자연어에서 코드 생성을 위한 특수 구성 요소/에이전트가 포함된 모듈식 아키텍처를 채택합니다. LLMR은 Unity에서 장면을 구축하기 위한 코드를 생성하고, 수정을 위한 기존 장면 대상과 속성을 이해하고, 명령을 실행하는 데 필요한 기능을 식별하고, 최종 코드 품질을 평가하는 데 사용되는 다양한 구성 요소로 구성됩니다. 마찬가지로 3D-GPT에는 지침을 해석하고 필요한 생성 기능을 결정하고, 자세한 모델링 속성으로 설명을 강화하고, 풍부한 설명을 Blender API용 Python 코드로 변환하기 위한 구성 요소가 있습니다. 종합적으로 이러한 접근 방식은 명령 해석, 기능 매핑 및 강력한 코드 생성을 처리하기 위한 LLM 구성 요소의 작업 분해 및 전문화를 보여줍니다.

VLMS를 사용한 3D 작업

공개 어휘 3D 장면 이해

공개 어휘 3D 장면 이해는 사전 정의된 카테고리 레이블 대신 자연어 설명을 사용하여 장면 요소를 식별하고 설명하는 것을 목표로 합니다. OpenScene은 공유 기능 공간에서 CLIP의 텍스트 및 이미지 픽셀 임베딩과 함께 포함된 3D 장면 포인트의 밀집된 기능을 예측하기 위해 제로샷 접근 방식을 채택하여 작업 인식 교육 및 개방형 어휘 쿼리를 통해 객체, 재료, 어포던스, 활동 및 활동을 식별할 수 있습니다. 객실 유형. CLIP-FO3D는 유사한 접근 방식을 따르며 CLIP을 수정하여 포인트 클라우드에 투영된 3D 장면에서 조밀한 픽셀 특징을 추출한 다음 증류를 통해 3D 모델을 훈련하여 CLIP 지식을 전달합니다. 의미론적 추상화는 CLIP에서 연관 그래프를 추상 대상 표현으로 추출하여 새로운 의미론, 어휘 및 도메인으로 일반화합니다. Open Fusion은 SEEM 시각적 언어 모델을 TSDF 3D 매핑과 결합하여 실시간 개방형 어휘 장면 생성 및 쿼리를 위해 지역 기반 임베딩 및 신뢰도 맵을 활용합니다.

텍스트 기반 3D 생성

여기에서는 2D VLM을 활용한 텍스트-3D 생성 방법과 미분 렌더링 텍스트-이미지 확산 모델을 사용한 안내를 조사합니다. DreamFields, CLIP-Mesh, CLIP-Forge 및 Text2Mesh와 같은 초기 작업에서는 CLIP 기반 제로샷 3D 생성을 탐색했습니다.

DreamFusion은 사전 훈련된 2D 확산 모델의 평가에 따라 모든 각도의 렌더링을 매우 사실적으로 보이게 만들어 3D 표현의 매개변수를 최적화하는 SDS(Score Distriction Sampling)를 도입합니다. SDS를 통해 NeRF 표현을 최적화하기 위해 텍스트-이미지 Imagen 모델을 사용합니다. Magic3D는 2단계 프레임워크를 제안합니다. 즉, 저해상도 확산 사전 및 희소 3D 해시 메시를 사용하여 거친 모델을 생성한 다음 효율적인 미분 가능 렌더러 및 고해상도 잠재 확산 모델을 사용하여 질감이 있는 3D 메시 모델을 최적화합니다. Fantasia3D는 하이브리드 DMET 표현과 공간적으로 다양한 BRDF를 사용하여 형상과 모양을 풀어냅니다. ProlificDreamer는 충실도와 다양성을 높이기 위해 3D 매개변수를 무작위 변수로 처리하는 입자 기반 프레임워크인 변이 분별 증류(VSD)를 도입합니다. Dream3D는 명시적인 3D 모양 사전 및 텍스트-이미지 확산 모델을 활용하여 텍스트 기반 3D 합성을 향상시킵니다. MVDream은 개인화 생성을 위해 소량의 샷 데이터를 학습할 수 있는 다중 뷰 일관성 확산 모델을 채택합니다. Text2NeRF는 NeRF 표현과 사전 훈련된 텍스트-이미지 확산 모델을 결합하여 언어를 기반으로 다양한 실내/실외 3D 장면을 생성합니다. 기하학과 모양을 동시에 생성하는 것 외에도 일부 연구에서는 주어진 기하학만을 기반으로 텍스처를 합성할 수 있는 가능성도 탐구했습니다.

3D 비전 및 언어를 위한 엔드투엔드 아키텍처

대규모 3D 텍스트 데이터세트로 사전 훈련된 Transformer 모델은 시각적 양식과 언어 양식을 연결하는 강력한 공동 표현을 학습합니다. 3D VisTA는 self-attention을 사용하여 3D 시각적 데이터와 텍스트 데이터를 공동으로 모델링하여 마스크된 언어/대상 모델링 및 장면 텍스트 매칭과 같은 목표를 위한 효과적인 사전 학습을 달성하는 Transformer 모델입니다. UniT3D는 PointGroup 3D 감지 백본, BERT 텍스트 인코더 및 다중 모드 융합 모듈과 결합된 통합 Transformer 방법을 사용하여 합성된 3D 언어 데이터를 공동으로 사전 학습합니다. SpatialVLM은 대규모 합성 3D 공간 추론 데이터 세트에서 VLM을 공동으로 훈련하는 다양한 전략을 채택하여 3D 공간 시각적 질문 응답 작업의 성능을 향상하고 로봇 사고 체인 추론과 같은 애플리케이션을 지원합니다. Multi CLIP은 3D 장면 인코더를 사전 훈련하여 장면 기능을 CLIP의 텍스트 및 이미지 임베딩과 정렬합니다. 이는 CLIP의 지식을 전달하여 시각적 질문 답변과 같은 작업에 대한 3D 이해를 향상시키는 것을 목표로 합니다. ㅋㅋㅋ

표현 선택은 3D 시각 언어 모델의 성능에 큰 영향을 미칩니다. 현재 포인트 클라우드는 단순성과 신경망 호환성으로 인해 실내(예: 메쉬의 정점) 및 실외(예: LiDAR 포인트 클라우드) 환경을 나타내는 데 주로 사용됩니다. 그러나 정확하고 풍부한 공간 모델에 중요한 세부 정보를 포착하는 데 어려움을 겪고 있습니다. 공간 정보와 언어 사이의 격차를 보다 효과적으로 메우는 새로운 3D 장면 표현을 개발하면 새로운 수준의 이해와 상호 작용이 가능해집니다. 추출된 언어 및 의미 임베딩을 사용하는 등 언어 및 의미 정보를 3D 표현으로 인코딩하는 혁신적인 방법을 찾아 이러한 두 양식 간의 격차를 해소하는 데 도움을 줄 수 있습니다. 3D 데이터 처리와 LLM의 계산 요구 사항 모두 중요한 과제를 안고 있습니다. 3D 환경의 복잡성과 언어 모델의 크기가 증가함에 따라 확장성은 여전히 ​​문제로 남아 있습니다. 적응성과 계산 효율성을 위해 설계된 LLM 아키텍처의 발전은 개선을 위한 기준을 크게 넓힐 수 있으며 3D 작업에서 다중 모드 LLM의 기능을 종합적으로 평가하고 개선하는 데 중요합니다. 특히 3차원 추론에서 현재 벤치마크의 제한된 범위는 공간 추론 능력 평가와 3차원 의사결정/상호작용 시스템 개발을 방해합니다. 또한 현재 사용되는 측정항목은 3D 환경에서 LLM의 기능을 완전히 포착하지 못합니다. 다양한 3D 작업의 성능을 보다 정확하게 측정하려면 작업별 지표를 개발하는 것이 중요합니다. 마지막으로, 현재 장면 이해 벤치마크의 세분성이 너무 단순하여 복잡한 3D 환경에 대한 심층적인 이해가 제한됩니다. 보다 다양한 작업 세트가 필요합니다.

3D 작업에서 다중 모드 LLM의 기능을 완전히 평가하고 개선하려면 벤치마크를 개선하는 것이 중요합니다. 특히 3차원 추론에서 현재 벤치마크의 제한된 범위는 공간 추론 능력 평가와 3차원 의사결정/상호작용 시스템 개발을 방해합니다. 또한 현재 사용되는 측정항목은 3D 환경에서 LLM의 기능을 완전히 포착하지 못합니다. 다양한 3D 작업의 성능을 보다 정확하게 측정하려면 작업별 지표를 개발하는 것이 중요합니다. 마지막으로, 현재 장면 이해 벤치마크의 세분성이 너무 단순하여 복잡한 3D 환경에 대한 심층적인 이해가 제한됩니다. 보다 다양한 작업 세트가 필요합니다.

3D 이해를 위해 LLM을 사용할 때는 안전 및 윤리적 영향을 고려해야 합니다. LLM은 부정확하고 안전하지 않은 정보를 환각적으로 출력하여 중요한 3D 응용 프로그램에서 잘못된 결정을 내릴 수 있습니다. 게다가 LLM은 예측할 수 없고 설명하기 어려운 방식으로 실패하는 경우가 많습니다. 또한 훈련 데이터에 존재하는 사회적 편견을 물려받아 실제 3D 장면에서 예측을 할 때 특정 그룹에 불이익을 줄 수도 있습니다. 보다 포괄적인 데이터 세트를 생성하는 전략, 편향 감지 및 수정을 위한 강력한 평가 프레임워크, 환각을 최소화하는 메커니즘을 사용하여 결과의 ​​책임성과 공정성을 보장하는 등 LLM을 3D 환경에서 신중하게 사용하는 것이 중요합니다.

결론

이 문서에서는 LLM과 3D 데이터의 통합에 대한 심층적인 탐색을 제공합니다. 이 설문 조사에서는 3D 데이터 처리, 이해 및 생성에 있어 LLM의 방법, 적용 및 새로운 기능을 체계적으로 검토하여 다양한 3D 작업에 대한 LLM의 혁신적인 잠재력을 강조합니다. 3차원 환경에서 공간 이해와 상호 작용을 강화하는 것부터 내장형 인공 지능 시스템의 기능을 향상시키는 것까지 LLM은 이 분야를 발전시키는 데 핵심적인 역할을 합니다.

주요 연구 결과에는 텍스트 정보와 공간 해석 사이의 격차를 줄이는 데 도움이 되는 제로샷 학습, 고급 추론, 광범위한 세계 지식과 같은 LLM의 고유한 장점을 식별하는 것이 포함됩니다. 이 문서에서는 다양한 작업에 대해 LLM과 3D 데이터의 통합을 보여줍니다. LLM을 통해 다른 3D 시각적 언어 방법을 탐색하면 3D 세계에 대한 이해를 심화하기 위한 풍부한 연구 전망이 드러납니다.

또한 설문 조사에서는 데이터 표현, 모델 확장성, 계산 효율성과 같은 중요한 과제를 강조하며 이러한 장애물을 극복하는 것이 3D 응용 프로그램에서 LLM의 잠재력을 완전히 실현하는 데 중요하다는 것을 보여줍니다. 요약하면, 이 설문조사는 LLM을 사용하는 3D 작업의 현재 상태에 대한 포괄적인 개요를 제공할 뿐만 아니라 향후 연구 방향의 기반을 마련합니다. 복잡한 3D 세계를 이해하고 상호 작용하는 LLM의 기능을 탐색하고 확장하여 공간 지능 분야에서 더욱 발전할 수 있는 기반을 마련하려면 협업이 필요합니다.

위 내용은 옥스포드 대학의 최신 요약 | 대형 언어 모델과 3차원 세계에 대한 최신 리뷰에 대해 이야기해 보세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.