


13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 'Jiutian' 출시
다중 모드 대형 언어 모델에서 시각적 정보 추출이 부족한 문제를 해결하기 위해 하얼빈 공과대학(심천)의 연구진은 이중 계층 지식 강화 다중 모드 대형 언어 모델인 JiuTian-LION을 제안했습니다.
다시 작성해야 하는 내용은 다음과 같습니다. 논문 링크: https://arxiv.org/abs/2311.11860
GitHub: https://github.com/rshaojimmy/JiuTian
프로젝트 홈페이지: https://rshaojimmy.github.io/Projects/JiuTian-LION
기존 작업과 비교하여 JiuTian은 처음으로 이미지 수준의 이해 작업과 지역 수준의 포지셔닝 작업 간의 내부 갈등을 분석했습니다. , 그리고 두 작업의 상호 개선을 달성하기 위해 Segmented Instruction Fine-tuning 전략과 하이브리드 어댑터를 제안했습니다.
세밀한 공간 인식과 높은 수준의 의미론적 시각적 지식을 주입함으로써 Jiutian은 이미지 설명, 시각적 문제 및 시각적 위치 파악을 포함한 17가지 시각적 언어 작업에서 상당한 성능 향상을 달성했습니다(예: 시각적 공간 추론에서 최대 5개) ) % 성능 향상), 13개 평가 과제에서 국제 최고 수준에 도달했습니다. 성능 비교는 그림 1에 나와 있습니다.
그림 1: 다른 MLLM과 비교하여 Jiutian은 대부분의 작업에서 최적의 성능을 달성했습니다.
JiuTian-LION
대형 언어 모델(LLM) 다중 모드 인식 기능을 제공하여 일부 작업에서는 다중 모드 대형 언어 모델(MLLM)을 생성하기 시작했으며 많은 시각적 언어 작업에서 획기적인 진전을 이루었습니다. 그러나 기존 MLLM은 주로 CLIP-ViT
와 같이 이미지-텍스트 쌍에 대해 사전 훈련된 시각적 인코더를 사용합니다. 이러한 시각적 인코더의 주요 작업은 이미지 수준에서 대략적인 이미지-텍스트 모달 정렬을 학습하는 것입니다. 포괄적인 시각적 인식 및 정보 추출 기능이 부족하여 세밀한 시각적 이해를 수행할 수 없습니다
대부분 이러한 시각적 정보 추출 부족과 이해 부족의 문제는 시각적 위치 편향, 공간 추론 부족, 공간 추론 부족으로 이어질 것입니다. MLLM에 대한 이해는 그림 2
그림 2와 같이 객체 환상과 같은 결함이 많습니다. JiuTian-LION은 이중 계층 시각적 지식으로 강화된 다중 모드 대형 언어 모델입니다
기존 다중 모드 대형 언어 모델(MLLM)과 비교하여 Jiutian은 세분화된 공간 인식 시각적 지식과 높은 수준의 의미론적 시각적 증거를 주입하여 MLLM의 시각적 이해 능력을 효과적으로 향상시키고 보다 정확한 텍스트 응답을 생성하며 MLLM의 환각 현상
이층 시각 지식 강화 다중 모달 대형 언어 모델-JiuTian-LION
시각 정보 추출 및 이해에 있어 MLLM의 단점을 해결하기 위해 연구자들은 A를 제안했습니다. JiuTian-LION이라는 이중 계층 시각적 지식 강화 MLLM 방법이 제안되었습니다. 구체적인 방법 프레임워크는 그림 3에 나와 있습니다.
이 방법은 주로 세밀한 공간 인식 시각적 지식의 점진적 통합(세밀한 공간 인식 시각적 지식의 점진적 통합)과 높은 수준의 두 가지 측면에서 MLLM을 향상시킵니다. 소프트 프롬프트 하의 소프트웨어 높은 수준의 의미론적 시각적 증거에 대한 소프트 프롬프트.
구체적으로 연구진은 이미지 수준 이해 작업과 지역 수준 위치 파악 작업 간의 내부 갈등을 해결하기 위해 분할된 명령 미세 조정 전략을 제안했습니다. 그들은 MLLM에 세분화된 공간 인식 지식을 점진적으로 주입합니다. 동시에 MLLM에 높은 수준의 의미론적 시각적 증거로 이미지 레이블을 추가하고 소프트 프롬프트 방법을 사용하여 잘못된 레이블이 가져올 수 있는 부정적인 영향을 완화했습니다. JiuTian-LION 모델 프레임워크 다이어그램은 다음과 같습니다. 이 작업은 분할된 훈련 전략을 사용하여 먼저 Q-Former 및 Vision Aggregator-MLP 분기를 기반으로 이미지 수준 이해 및 지역 수준 포지셔닝 작업을 학습한 다음 라우팅 메커니즘이 있는 하이브리드 어댑터를 사용하여 다양한 작업을 동적으로 융합합니다. 최종 훈련 단계에서 두 가지 작업에 대한 분기형 지식 개선 모델을 수행합니다. 이 작업도 RAM을 통해 이미지 라벨을 상위 의미 시각적 증거로 추출한 다음, 상위 의미 주입 효과를 향상시키기 위한 소프트 프롬프트 방법을 제안합니다. 세밀한 공간 인식 시각적 증거를 점진적으로 융합합니다. Knowledge 이미지 수준 이해 작업(이미지 설명 및 시각적 질문 답변 포함)과 지역 수준 현지화 작업(지시 표현 이해, 지시 표현 생성 등)에 대한 단일 단계 혼합 교육을 직접 수행할 때 MLLM은 두 작업 간에 내부 충돌이 발생하므로 모든 작업에서 전반적인 성능이 향상될 수 없습니다. 연구원들은 이러한 내부 갈등이 주로 두 가지 문제로 인해 발생한다고 믿습니다. 첫 번째 문제는 지역 수준의 모달 정렬 사전 훈련이 부족하다는 것입니다. 현재 지역 수준 포지셔닝 기능을 갖춘 대부분의 MLLM은 사전 훈련을 위해 많은 양의 관련 데이터를 사용합니다. 그렇지 않으면 이미지 수준을 사용하기가 어렵습니다. 제한된 훈련 자원을 기반으로 한 모달 정렬. 지역 수준 작업에 대한 시각적 기능 적응. 또 다른 문제는 이미지 수준 이해 작업과 지역 수준 현지화 작업 간의 입출력 패턴 차이입니다. 후자는 모델이 객체 좌표에 대한 특정 짧은 문장( 그림 4에서 볼 수 있듯이 연구원들은 단일 단계 명령 미세 조정 프로세스를 세 단계로 나눕니다. ViT, Q-Former 및 이미지 수준 어댑터를 사용하여 이미지 수준 이해 작업을 학습합니다. 글로벌 시각 지식, Vision Aggregator, MLP 및 지역 수준 어댑터를 사용하여 세밀한 공간 인식 시각 지식으로 지역 수준 포지셔닝 작업을 학습합니다. 가지. 표 3은 단일 단계 훈련에 비해 분할된 명령 미세 조정 전략의 성능 이점을 보여줍니다 그림 4: 소프트 주입을 위한 분할된 명령 미세 조정 전략 프롬프트 높은 수준의 의미론적 시각적 증거를 다시 작성해야 합니다 연구원은 MLLM의 전체 시각적 인식 이해 능력을 더욱 향상시키기 위해 이미지 레이블을 높은 수준의 의미론적 시각적 증거에 대한 효과적인 보완재로 사용할 것을 제안했습니다 구체적으로는 먼저 RAM을 통해 이미지의 태그를 추출한 다음 " 템플릿의 "사용 또는 부분 사용"이라는 특정 문구와 결합된 소프트 힌트 벡터는 모델이 잘못된 라벨의 잠재적인 부정적인 영향을 완화하도록 안내할 수 있습니다. 연구원들은 이미지 캡션, 시각적 질문 답변(VQA), 교육적 표현 이해(REC)를 포함한 17개의 작업 벤치마크 세트에 대한 평가를 수행했습니다. 실험 결과 Jiutian은 13개 평가 세트에서 국제 선두 수준에 도달한 것으로 나타났습니다. 특히 InstructBLIP 및 Shikra와 비교하여 Jiutian은 각각 이미지 수준 이해 작업과 지역 수준 위치 지정 작업에서 포괄적이고 일관된 성능 향상을 달성했으며 VSR(시각적 공간 추론) 작업에서 최대 5% 향상을 달성할 수 있습니다. 그림 5에서 볼 수 있듯이 다양한 시각적 언어 다중 모달 작업에서 Jiutian과 다른 MLLM의 기능에는 차이가 있습니다. 이는 Jiutian이 세밀한 시각적 이해 및 시각적 공간 추론 기능에서 더 나은 성능을 발휘하며 다음을 수행할 수 있음을 나타냅니다. 덜 환각적인 텍스트 응답으로 출력하려면 다시 작성된 내용은 다음과 같습니다. 다섯 번째 그림은 Jiutian Large Model, InstructBLIP 및 Shikra 의 기능 차이에 대한 정성 분석을 보여줍니다.그림 6 샘플 분석 , Jiutian 모델은 이미지 수준과 지역 수준의 시각 언어 작업 모두에서 뛰어난 이해 및 인식 능력을 가지고 있음을 보여줍니다. 여섯 번째 사진: 더 많은 예시 분석을 통해 이미지 관점과 지역 수준의 시각적 이해 측면에서 Jiutian 대형 모델의 역량을 입증합니다 (1) 이 작업은 새로운 다중 모드 대형 언어 모델을 제안합니다 - Jiutian: 이중 계층 시각적 지식으로 강화된 다중 모드 대형 언어 모델입니다. (2) 이 작품은 이미지 설명, 시각적 질문 답변, 수업 표현 이해 등 17개의 시각적 언어 작업 벤치마크 세트에서 평가되었으며, 그 중 13개의 평가 세트가 현재 최고 성능을 달성했습니다. (3) 본 연구에서는 이미지 수준의 이해와 지역 수준의 현지화 작업 간의 내부 갈등을 해결하고 두 작업 간의 상호 개선을 달성하기 위한 세분화된 지시 미세 조정 전략을 제안합니다 (4) 이 작업은 이미지 수준 이해와 지역 수준 포지셔닝 작업을 성공적으로 통합하여 여러 수준에서 시각적 장면을 포괄적으로 이해합니다. 미래에는 이 포괄적인 시각적 이해 기능을 구현된 지능형 장면에 적용하여 로봇이 더 효율적이고 지능적으로 수행할 수 있도록 지원할 수 있습니다. 효과적인 의사결정을 내리기 위해 현재 환경을 이해합니다. 형식)을 추가로 이해해야 합니다. . 위의 문제를 해결하기 위해 연구자들은 분할된 명령 미세 조정 전략과 라우팅 메커니즘을 갖춘 하이브리드 어댑터를 제안했습니다.
실험 결과
요약
위 내용은 13개의 시각적 언어 과제를 완료하세요! Harbin Institute of Technology, 성능이 5% 향상된 다중 모드 대형 모델 'Jiutian' 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Dreamweaver Mac版
시각적 웹 개발 도구

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.
