13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 'Jiutian' 출시-일체 포함-php.cn

집

기술 주변기기

일체 포함

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 'Jiutian' 출시

王林

Dec 04, 2023 pm 02:14 PM

ai기차

다중 모드 대형 언어 모델에서 시각적 정보 추출이 부족한 문제를 해결하기 위해 하얼빈 공과대학(심천)의 연구진은 이중 계층 지식 강화 다중 모드 대형 언어 모델인 JiuTian-LION을 제안했습니다.

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

다시 작성해야 하는 내용은 다음과 같습니다. 논문 링크: https://arxiv.org/abs/2311.11860

GitHub: https://github.com/rshaojimmy/JiuTian

프로젝트 홈페이지: https://rshaojimmy.github.io/Projects/JiuTian-LION

기존 작업과 비교하여 JiuTian은 처음으로 이미지 수준의 이해 작업과 지역 수준의 포지셔닝 작업 간의 내부 갈등을 분석했습니다. , 그리고 두 작업의 상호 개선을 달성하기 위해 Segmented Instruction Fine-tuning 전략과 하이브리드 어댑터를 제안했습니다.

세밀한 공간 인식과 높은 수준의 의미론적 시각적 지식을 주입함으로써 Jiutian은 이미지 설명, 시각적 문제 및 시각적 위치 파악을 포함한 17가지 시각적 언어 작업에서 상당한 성능 향상을 달성했습니다(예: 시각적 공간 추론에서 최대 5개) ) % 성능 향상), 13개 평가 과제에서 국제 최고 수준에 도달했습니다. 성능 비교는 그림 1에 나와 있습니다.

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

그림 1: 다른 MLLM과 비교하여 Jiutian은 대부분의 작업에서 최적의 성능을 달성했습니다.

JiuTian-LION

대형 언어 모델(LLM) 다중 모드 인식 기능을 제공하여 일부 작업에서는 다중 모드 대형 언어 모델(MLLM)을 생성하기 시작했으며 많은 시각적 언어 작업에서 획기적인 진전을 이루었습니다. 그러나 기존 MLLM은 주로 CLIP-ViT

와 같이 이미지-텍스트 쌍에 대해 사전 훈련된 시각적 인코더를 사용합니다. 이러한 시각적 인코더의 주요 작업은 이미지 수준에서 대략적인 이미지-텍스트 모달 정렬을 학습하는 것입니다. 포괄적인 시각적 인식 및 정보 추출 기능이 부족하여 세밀한 시각적 이해를 수행할 수 없습니다

대부분 이러한 시각적 정보 추출 부족과 이해 부족의 문제는 시각적 위치 편향, 공간 추론 부족, 공간 추론 부족으로 이어질 것입니다. MLLM에 대한 이해는 그림 2

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

그림 2와 같이 객체 환상과 같은 결함이 많습니다. JiuTian-LION은 이중 계층 시각적 지식으로 강화된 다중 모드 대형 언어 모델입니다

기존 다중 모드 대형 언어 모델(MLLM)과 비교하여 Jiutian은 세분화된 공간 인식 시각적 지식과 높은 수준의 의미론적 시각적 증거를 주입하여 MLLM의 시각적 이해 능력을 효과적으로 향상시키고 보다 정확한 텍스트 응답을 생성하며 MLLM의 환각 현상

이층 시각 지식 강화 다중 모달 대형 언어 모델-JiuTian-LION

시각 정보 추출 및 이해에 있어 MLLM의 단점을 해결하기 위해 연구자들은 A를 제안했습니다. JiuTian-LION이라는 이중 계층 시각적 지식 강화 MLLM 방법이 제안되었습니다. 구체적인 방법 프레임워크는 그림 3에 나와 있습니다.

이 방법은 주로 세밀한 공간 인식 시각적 지식의 점진적 통합(세밀한 공간 인식 시각적 지식의 점진적 통합)과 높은 수준의 두 가지 측면에서 MLLM을 향상시킵니다. 소프트 프롬프트 하의 소프트웨어 높은 수준의 의미론적 시각적 증거에 대한 소프트 프롬프트.

구체적으로 연구진은 이미지 수준 이해 작업과 지역 수준 위치 파악 작업 간의 내부 갈등을 해결하기 위해 분할된 명령 미세 조정 전략을 제안했습니다. 그들은 MLLM에 세분화된 공간 인식 지식을 점진적으로 주입합니다. 동시에 MLLM에 높은 수준의 의미론적 시각적 증거로 이미지 레이블을 추가하고 소프트 프롬프트 방법을 사용하여 잘못된 레이블이 가져올 수 있는 부정적인 영향을 완화했습니다. JiuTian-LION 모델 프레임워크 다이어그램은 다음과 같습니다.

이 작업은 분할된 훈련 전략을 사용하여 먼저 Q-Former 및 Vision Aggregator-MLP 분기를 기반으로 이미지 수준 이해 및 지역 수준 포지셔닝 작업을 학습한 다음 라우팅 메커니즘이 있는 하이브리드 어댑터를 사용하여 다양한 작업을 동적으로 융합합니다. 최종 훈련 단계에서 두 가지 작업에 대한 분기형 지식 개선 모델을 수행합니다.

이 작업도 RAM을 통해 이미지 라벨을 상위 의미 시각적 증거로 추출한 다음, 상위 의미 주입 효과를 향상시키기 위한 소프트 프롬프트 방법을 제안합니다.

세밀한 공간 인식 시각적 증거를 점진적으로 융합합니다. Knowledge

이미지 수준 이해 작업(이미지 설명 및 시각적 질문 답변 포함)과 지역 수준 현지화 작업(지시 표현 이해, 지시 표현 생성 등)에 대한 단일 단계 혼합 교육을 직접 수행할 때 MLLM은 두 작업 간에 내부 충돌이 발생하므로 모든 작업에서 전반적인 성능이 향상될 수 없습니다.

연구원들은 이러한 내부 갈등이 주로 두 가지 문제로 인해 발생한다고 믿습니다. 첫 번째 문제는 지역 수준의 모달 정렬 사전 훈련이 부족하다는 것입니다. 현재 지역 수준 포지셔닝 기능을 갖춘 대부분의 MLLM은 사전 훈련을 위해 많은 양의 관련 데이터를 사용합니다. 그렇지 않으면 이미지 수준을 사용하기가 어렵습니다. 제한된 훈련 자원을 기반으로 한 모달 정렬. 지역 수준 작업에 대한 시각적 기능 적응.

또 다른 문제는 이미지 수준 이해 작업과 지역 수준 현지화 작업 간의 입출력 패턴 차이입니다. 후자는 모델이 객체 좌표에 대한 특정 짧은 문장( 13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시 형식)을 추가로 이해해야 합니다. . 위의 문제를 해결하기 위해 연구자들은 분할된 명령 미세 조정 전략과 라우팅 메커니즘을 갖춘 하이브리드 어댑터를 제안했습니다.

그림 4에서 볼 수 있듯이 연구원들은 단일 단계 명령 미세 조정 프로세스를 세 단계로 나눕니다.

ViT, Q-Former 및 이미지 수준 어댑터를 사용하여 이미지 수준 이해 작업을 학습합니다. 글로벌 시각 지식, Vision Aggregator, MLP 및 지역 수준 어댑터를 사용하여 세밀한 공간 인식 시각 지식으로 지역 수준 포지셔닝 작업을 학습합니다. 가지. 표 3은 단일 단계 훈련에 비해 분할된 명령 미세 조정 전략의 성능 이점을 보여줍니다

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

그림 4: 소프트 주입을 위한 분할된 명령 미세 조정 전략

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

프롬프트 높은 수준의 의미론적 시각적 증거를 다시 작성해야 합니다

연구원은 MLLM의 전체 시각적 인식 이해 능력을 더욱 향상시키기 위해 이미지 레이블을 높은 수준의 의미론적 시각적 증거에 대한 효과적인 보완재로 사용할 것을 제안했습니다

구체적으로는 먼저 RAM을 통해 이미지의 태그를 추출한 다음 "에 따라 다음 태그를 사용하거나 부분적으로 사용할 수 있습니다."라는 특정 명령 템플릿을 사용하여 이미지 태그를 래핑합니다. 이 명령 템플릿의 ""는 학습 가능한 소프트 프롬프트 벡터로 대체됩니다.

템플릿의 "사용 또는 부분 사용"이라는 특정 문구와 결합된 소프트 힌트 벡터는 모델이 잘못된 라벨의 잠재적인 부정적인 영향을 완화하도록 안내할 수 있습니다.

실험 결과

연구원들은 이미지 캡션, 시각적 질문 답변(VQA), 교육적 표현 이해(REC)를 포함한 17개의 작업 벤치마크 세트에 대한 평가를 수행했습니다.

실험 결과 Jiutian은 13개 평가 세트에서 국제 선두 수준에 도달한 것으로 나타났습니다. 특히 InstructBLIP 및 Shikra와 비교하여 Jiutian은 각각 이미지 수준 이해 작업과 지역 수준 위치 지정 작업에서 포괄적이고 일관된 성능 향상을 달성했으며 VSR(시각적 공간 추론) 작업에서 최대 5% 향상을 달성할 수 있습니다.

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

그림 5에서 볼 수 있듯이 다양한 시각적 언어 다중 모달 작업에서 Jiutian과 다른 MLLM의 기능에는 차이가 있습니다. 이는 Jiutian이 세밀한 시각적 이해 및 시각적 공간 추론 기능에서 더 나은 성능을 발휘하며 다음을 수행할 수 있음을 나타냅니다. 덜 환각적인 텍스트 응답으로 출력하려면

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

다시 작성된 내용은 다음과 같습니다. 다섯 번째 그림은 Jiutian Large Model, InstructBLIP 및 Shikra

의 기능 차이에 대한 정성 분석을 보여줍니다.그림 6 샘플 분석 , Jiutian 모델은 이미지 수준과 지역 수준의 시각 언어 작업 모두에서 뛰어난 이해 및 인식 능력을 가지고 있음을 보여줍니다.

13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 Jiutian 출시

여섯 번째 사진: 더 많은 예시 분석을 통해 이미지 관점과 지역 수준의 시각적 이해 측면에서 Jiutian 대형 모델의 역량을 입증합니다

요약

(1) 이 작업은 새로운 다중 모드 대형 언어 모델을 제안합니다 - Jiutian: 이중 계층 시각적 지식으로 강화된 다중 모드 대형 언어 모델입니다.

(2) 이 작품은 이미지 설명, 시각적 질문 답변, 수업 표현 이해 등 17개의 시각적 언어 작업 벤치마크 세트에서 평가되었으며, 그 중 13개의 평가 세트가 현재 최고 성능을 달성했습니다.

(3) 본 연구에서는 이미지 수준의 이해와 지역 수준의 현지화 작업 간의 내부 갈등을 해결하고 두 작업 간의 상호 개선을 달성하기 위한 세분화된 지시 미세 조정 전략을 제안합니다

(4) 이 작업은 이미지 수준 이해와 지역 수준 포지셔닝 작업을 성공적으로 통합하여 여러 수준에서 시각적 장면을 포괄적으로 이해합니다. 미래에는 이 포괄적인 시각적 이해 기능을 구현된 지능형 장면에 적용하여 로봇이 더 효율적이고 지능적으로 수행할 수 있도록 지원할 수 있습니다. 효과적인 의사결정을 내리기 위해 현재 환경을 이해합니다.

위 내용은 13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 'Jiutian' 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.