집 >기술 주변기기 >일체 포함 >HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다.

HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다.

PHPz원래의: 2024-06-12 22:18:00808검색

현재 Multimodal Large Model(MLLM)은 여러 시각적 작업에 대한 강력한 인지 이해 능력을 입증했습니다.

그러나 대부분의 다중 모드 대형 모델은 단방향 이미지 이해로 제한되어 이해된 내용을 다시 이미지로 매핑하기가 어렵습니다.

예를 들어 모델은 사진 속에 어떤 물체가 있는지 쉽게 알 수 있지만 사진 속 물체를 정확하게 식별할 수는 없습니다.

측위 기능 부족은 이미지 편집, 자율 주행, 로봇 제어 등 다운스트림 분야에서 다중 모드 대형 모델의 적용을 직접적으로 제한합니다.

이 문제에 대응하여 홍콩 대학의 연구원과 ByteDance 상용화 팀은 새로운 패러다임을 제안했습니다. Groma -

지역 이미지 인코딩을 통해 다중 모드 대형 모델의 지각 위치 지정 기능을 향상시킵니다.

포지셔닝을 통합한 후 Groma는 텍스트 콘텐츠와 이미지 영역을 직접 연결할 수 있어 대화의 상호작용성과 방향성이 크게 향상됩니다. 이 방법은 원래 의미를 바꾸지는 않지만 표현을 약간만 조정합니다.

HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다.

핵심 아이디어

다중 모드 대형 모델에 개체를 찾는 기능, 즉 "의미 있는 단어"를 얻기 위해 텍스트 콘텐츠를 이미지 영역과 연결하는 기능을 제공하는 방법은 현재 주요 연구 핫스팟입니다. 다중 모드 대형 모델의 목표는 이미지와 해당 텍스트 설명이 주어졌을 때 설명에 해당하는 이미지 내 영역을 찾을 수 있는 것입니다. 이 작업을 이미지-텍스트 정렬 문제라고 합니다. 이 문제를 해결하기 위한 일반적인 접근 방식은 대규모 언어 모델을 미세 조정하여 객체 좌표를 직접 출력하는 것입니다. 그러나 이 방법에는 많은 한계가 있습니다.

텍스트 자체에 대해 사전 학습된 대규모 언어 모델은 공간을 이해하는 능력이 없으며, 적은 양의 데이터에만 의존하여 개체를 정확하게 찾는 것이 어렵습니다. 미세 조정.

2. 위치 지정 작업은 입력 이미지의 해상도에 대한 요구 사항이 높지만, 해상도를 높이면 대규모 다중 모드 모델의 계산량이 크게 늘어납니다.

대규모 언어 모델의 출력 형식은 분할과 같은 미세 위치 지정 작업을 처리하는 데 적합하지 않습니다.

이러한 고려 사항을 바탕으로 Groma는 위치 지정을 다중 모달 대형 모델의 비전 토크나이저로 이전할 것을 제안했습니다. 비전 토크나이저는 잠재적인 객체를 발견하고 위치를 확인한 다음 인식을 위해 이를 대형 언어 모델에 전달합니다.

동시에 이 디자인은 외부 전문가 모델 HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다. (예: SAM)

없이 비전 토크나이저 자체의 공간 이해 능력을 최대한 활용하여 위치 지정을 지원하므로 외부 모델.

구체적으로 Groma는 전역 이미지 인코딩을 기반으로 위치 지정 기능을 구현하기 위해 지역 코딩을 도입합니다. 아래 그림과 같이 Groma는 먼저 Region Proposer를 사용하여 잠재적 개체를 찾은 다음 Region Encoder를 사용하여 위치한 영역을 하나씩 찾습니다. 지역 토큰으로 인코딩됩니다.

대형 언어 모델은 지역 토큰의 의미론적 의미를 기반으로 해당 지역을 결정하고, 지역 토큰을 출력에 삽입하여 시각적으로 기반이 있는 대화를 달성함으로써 하이퍼링크와 같은 효과를 얻을 수 있습니다.

마찬가지로 사용자가 지정한 영역도 Region Encoder를 통해 해당 지역 토큰으로 인코딩되어 사용자 명령에 삽입될 수 있으므로 다중 모드 모델이 지정된 영역에 집중하여 방향성 답변을 생성할 수 있습니다.

위치 확인의 견고성과 정확성을 향상시키기 위해 Groma는 800만 개 이상의 데이터 HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다. (SA1B 포함)

를 사용하여 지역 제안자를 사전 훈련합니다. 따라서 그것이 생성하는 제안에는 일반적인 객체뿐만 아니라 객체의 구성 요소 및 더 넓은 배경과 같은 요소도 포함됩니다.

또한 분리된 설계 덕분에 Groma는 Region Proposer/Encoder 입력에 고해상도 피처 맵을 사용하고 대규모 모델 입력에 저해상도 피처 맵을 사용할 수 있어 위치 결정 성능을 잃지 않고 계산량을 줄일 수 있습니다.

실험 결과

Groma는 기존 접지 벤치마크에서 MiniGPT-v2 및 Qwen-VL을 능가하는 성능을 입증했습니다.

동시에 그로마는 멀티모달 대형 모델에 공통적으로 적용되는 VQA 벤치마크(LLaVA-COCO)에서 대화 및 추론 능력을 검증했습니다. HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다.

시각적 비교에서도 그로마는 회상률이 높고 환각이 적은 것으로 나타났습니다.

또한 Groma는 대화 기능과 포지셔닝 기능을 통합한 추천 대화와 기반 채팅도 지원합니다.

대형 언어 모델의 강력한 인지 추론 기능 덕분에 다중 모드 대형 모델은 시각적 이해 작업에서 뛰어난 성능을 발휘합니다.

그러나 감지 세분화, 깊이 추정 등과 같은 일부 전통적인 비전 작업은 시각적 인식 기능에 더 많이 의존하며, 이는 정확히 대규모 언어 모델이 부족한 부분입니다.

Groma는 이 문제에 대한 새로운 솔루션을 제공합니다. 즉, 지각과 인지를 인식을 담당하는 비전 토크나이저와 인지를 담당하는 대규모 언어 모델로 분리하는 것입니다.

이러한 형태의 인식이 먼저 이루어지고 인식되는 방식은 인간의 시각적 프로세스에 더 부합할 뿐만 아니라 대규모 언어 모델을 재교육하는 데 따른 계산 오버헤드도 방지합니다.

5월 15일, ByteDance는 다중 모드 기능을 제공하고 다운스트림이 Doubao APP, Kouzi 및 Jimeng과 같은 50개 이상의 비즈니스를 지원하며 Volcano 엔진을 통해 기업 고객에게 공개되는 자체 개발 Doubao 대형 모델을 발표했습니다. 기업이 효율성을 향상하고 지능형 혁신을 가속화하도록 돕습니다. 현재 Doubao APP는 중국 시장에서 가장 많은 사용자를 보유한 AIGC 애플리케이션이 되었습니다. ByteDance는 최고의 인재와 최첨단 기술에 대한 투자를 지속적으로 늘리고 업계 최고의 기술적 과제와 어려움에 참여하고 있습니다.

프로젝트 웹사이트:
https://www.php.cn/link/07a81d45ff030b63fe2a0f375b779f09
문서 링크:
https://www.php.cn/link/ b82b80956cfbe75101bd223fe6319dec
오픈 소스 코드:
https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764

위 내용은 HKU Byte는 인간의 인식을 먼저 시뮬레이션한 다음 인지를 시뮬레이션하여 사진 속 객체를 정확하게 찾는 다중 모드 대형 모델의 새로운 패러다임을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Token github https AIGC

성명：

이전 기사：칭화대학교와 Zhipu AI 오픈 소스 GLM-4: 자연어 처리의 새로운 혁명 시작다음 기사：칭화대학교와 Zhipu AI 오픈 소스 GLM-4: 자연어 처리의 새로운 혁명 시작