>기술 주변기기 >일체 포함 >너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

WBOY
WBOY원래의
2024-06-25 17:17:191138검색

**4M** 또는 **UnifiedIO**와 같은 현재 멀티모달 및 멀티태스킹 기본 모델은 유망한 결과를 보여줍니다. 그러나 다양한 입력을 받아들이고 다양한 작업을 수행하는 기본 능력은 훈련받은 양식 및 작업의 수(대개 적은)에 의해 제한됩니다.

이를 바탕으로 EPFL(École Polytechnique Fédérale de Lausanne)의 연구원과 Apple은 공동으로 수십 개의 행동 교육에서 **광범위** 다양한 **고급** 모든 대 모든 모달 단일 모델을 개발했습니다. 다양한 양식을 활용하고 대규모 다중 모드 데이터 세트와 텍스트 말뭉치에 대한 협업 교육을 수행합니다.

학습 프로세스의 핵심 단계는 이미지와 같은 신경망 **특징 맵**, 벡터, 인스턴스 분할 또는 인간 포즈와 같은 구조화된 데이터인지 여부에 관계없이 다양한 양식에 대해 개별 **토큰화**를 수행하는 것입니다. 텍스트로 표현될 수 있는 데이터입니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

  • 논문 주소: https://arxiv.org/pdf/2406.09406

  • 논문 홈페이지 https://4m.epfl.ch/

  • 논문 제목: 4M-21: An Any 수십 가지 작업 및 양식에 대한 모든 비전 모델

이 연구에 따르면 단일 모델 교육은 기존 모델보다 최소 **3배** 많은 작업/**양식**을 완료할 수 있으며, 성능이 저하되지 않습니다. 또한, 이 연구는 더욱 세밀하고 제어 가능한 다중 모드 데이터 생성 기능도 달성합니다.

이 연구는 다중 모드 마스크 사전 훈련 체계를 기반으로 하며 수십 가지의 매우 다양한 양식에 대한 훈련을 통해 모델 기능을 향상시킵니다. 본 연구에서는 양식별 개별 토크나이저를 사용하여 인코딩함으로써 다양한 양식에 대한 단일 통합 모델을 훈련할 수 있습니다.

간단히 말하면, 이 연구는 여러 주요 차원에서 기존 모델의 기능을 확장합니다.

  • 양식: 기존 최고의 임의-임의 모델의 7개 양식에서 21개의 다른 양식으로 교차 모드 검색, 제어 가능한 생성 가능 , 강력한 기본 성능을 제공합니다. 단일 비전 모델이 성능 저하나 기존의 다중 작업 학습 없이 다양한 방식으로 수십 개의 다양한 작업을 해결할 수 있는 것은 이번이 처음입니다.

  • 다양성: 사람의 포즈, SAM 인스턴스, 메타데이터 등과 같은 보다 구조화된 데이터에 대한 지원을 추가합니다.

  • 토큰화: 전역 이미지 임베딩, 인간 포즈, 의미론적 인스턴스와 같은 양식별 방법을 사용하여 다양한 양식의 개별 토큰화를 연구합니다.

  • 확장: 모델 크기를 3B 매개변수로 확장하고 데이터 세트를 0.5B 샘플로 확장합니다.

  • 협력 교육: 시각과 언어에 대한 협력 교육을 동시에 제공합니다.

방법 소개

본 연구에서는 4M 사전 훈련 방식(이 연구도 EPFL과 Apple에서 나와 작년에 발표됨)을 사용했는데, 이는 다중으로 효과적으로 확장할 수 있는 일반적인 방법임이 입증되었습니다. - 양식.

구체적으로 이 문서에서는 모델 및 데이터 세트의 크기를 확장하고, 모델 교육에 관련된 양식의 유형 및 수를 늘리고, 여러 데이터 세트를 공동으로 사용하여 아키텍처 및 다중 모드 마스크 교육 목표를 변경하지 않고 유지합니다. 모델의 성능과 적응성을 향상시킵니다.

모달리티는 아래 그림과 같이 RGB, 기하학, 의미, 가장자리, 기능 맵, 메타데이터 및 텍스트 카테고리로 구분됩니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

토큰화

토큰화에는 주로 다양한 양식과 작업을 시퀀스 또는 개별 토큰으로 변환하여 표현 공간을 통합하는 것이 포함됩니다. 연구원들은 그림 3과 같이 다양한 토큰화 방법을 사용하여 다양한 특성을 가진 모드를 구분합니다. 요약하자면, 이 기사에서는 ViT 토크나이저, MLP 토크나이저, 텍스트 토크나이저를 포함한 세 가지 토크나이저를 사용합니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

아키텍처 선택 측면에서 이 기사에서는 Transformer 기반의 4M 인코더-디코더 아키텍처를 채택하고 새로운 양식에 적응하기 위해 추가 모달 임베딩을 추가합니다.

실험 결과

다음으로 이 논문은 4M-21의 다중 모드 기능을 보여줍니다.

다중 모드 생성

반복적 디코딩 토큰을 기반으로 4M-21을 사용하여 모든 훈련 양식을 예측할 수 있습니다. 그림 2에서 볼 수 있듯이 이 논문은 주어진 입력 양식에서 일관된 방식으로 모든 양식을 생성할 수 있습니다. 너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

게다가 이 연구는 다른 양식의 하위 집합에서 조건부 및 무조건적으로 모든 훈련 양식을 생성할 수 있으므로 그림 4와 같이 세분화된 다중 모드 생성을 수행하는 여러 가지 방법을 지원합니다. 예를 들어 다중 모드 편집을 수행합니다. . 또한 4M-21은 T5-XXL 임베딩과 일반 자막 모두에서 향상된 텍스트 이해를 보여 기하학적으로나 의미적으로 건전한 생성을 가능하게 합니다(그림 4, 오른쪽 상단).

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

다중 모드 검색

그림 5에 표시된 것처럼 4M-21은 다른 양식을 쿼리로 사용하여 RGB 이미지 또는 기타 양식을 검색하는 등 원래 DINOv2 및 ImageBind 모델에서는 불가능했던 검색 기능을 잠금 해제합니다. . 또한 4M-21은 여러 양식을 결합하여 전역 임베딩을 예측할 수 있으므로 오른쪽에 표시된 것처럼 검색을 더 효과적으로 제어할 수 있습니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

기본 제공

4M-21은 그림 6과 같이 기본적으로 다양한 일반적인 비전 작업을 수행할 수 있습니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

표 1은 DIODE 표면 법선 및 깊이 추정, COCO 의미론 및 인스턴스 분할, 3DPW 3D 인간 자세 추정 등을 평가합니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

전이 실험

또한 이 기사에서는 B, L, XL의 세 가지 크기 모델도 훈련했습니다. 그런 다음 해당 인코더는 다운스트림 작업으로 전송되고 단일 모드(RGB) 및 다중 모드(RGB + 깊이) 설정에서 평가됩니다. 모든 전송 실험은 디코더를 폐기하고 대신 작업별 헤드를 훈련합니다. 결과는 표 2에 나와 있습니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

마지막으로 이 논문에서는 NYUv2에서 다중 모드 전송, Hypersim 의미론적 분할 및 ARKitScenes에서 3D 객체 감지를 수행합니다. 표 3에서 볼 수 있듯이 4M-21은 선택적 깊이 입력을 최대한 활용하고 기준선을 크게 향상시킵니다.

너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시

위 내용은 너무 완벽해요! Apple, 21가지 모드를 지원하는 새로운 비주얼 모델 4M-21 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.