진행 상황 추적 링크(Awesome-MLLM, 실시간 업데이트): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
최근 지난 몇 년 동안 LLM(대형 언어 모델)에 대한 대규모 연구(예: GPT-3, LLaMa, ChatGPT, GPT-4)가 상당한 진전을 이루었으며 이러한 모델은 다양한 자연어 처리(NLP) 작업에서 뛰어난 성능을 보여주었습니다.
LLM은 방대한 데이터에 대한 사전 학습을 통해 풍부한 지식과 강력한 추론 능력을 얻었습니다. 일부 사용자 지침을 입력하기만 하면 이러한 모델은 지침을 구문 분석하고 추론을 수행하며 사용자의 기대에 맞는 답변을 제공할 수 있습니다.
LLM의 몇 가지 일반적인 기능은 다음과 같습니다.
다중 언어 모델
대규모 언어 모델이 NLP 분야에서 큰 발전을 이루었음에도 불구하고, 해당 모델과 기술은 다중 모드 분야에서 덜 탐구되고 있으며 전통적인 시각 언어에는 여전히 광범위한 한계가 있습니다. 문화적 유연성 부족, 추론 능력 부족 등의 한계가 있습니다.이를 위해 최근 많은 학자들이 새로운 방향인 MLLM(Multimodal Large Language Models)에 관심을 돌렸습니다.
주요 아이디어는 LLM을 "두뇌"로 사용하여 입력된 다중 모드 정보를 통합, 추론, 분석 및 결정함으로써 인간이 할당한 작업을 완료하는 것입니다.
일반 인공 지능 개발의 관점에서 볼 때, MLLM은 LLM에 비해 한 단계 더 발전했으며 다음과 같은 장점이 있습니다.
· 세계. 인간은 다양한 감각을 갖고 있으며 종종 보완적이고 시너지 효과가 있는 여러 양식으로부터 정보를 받습니다. 따라서 다중 모드 정보를 사용하면 일반적으로 복잡한 작업을 더 잘 이해하고 완료할 수 있습니다.
· 더욱 강력하고 사용자 친화적인 인터페이스.
다중 모드 입력을 지원하여 사용자는 보다 유연한 방식으로 정보를 전달할 수 있습니다.· 더욱 폭넓은 작업 지원.
LLM은 일반적으로 NLP 관련 작업만 완료할 수 있는 반면 MLLM은 다중 양식에 액세스하여 더 많은 작업을 완료할 수 있습니다.시스템 설계 관점에서 MLLM은 두 가지 범주로 나눌 수 있습니다.
· 다중 모달 입력을 지원하는 인지 추론 시스템인 LLM
· 추론기인 LLM 기획자/스케줄러/의사결정자를 위한 도구 협업 시스템입니다.
전자는 일반적으로 다중 모드 정보를 훈련 가능한 다중 모드 변환 인터페이스를 통해 LLM이 직접 수신하고 처리할 수 있는 형태로 변환하므로 LLM은 이러한 다중 모드 정보와 사용자를 기반으로 인지를 수행할 수 있습니다. 지시와 추론.
후자는 일반적으로 LLM을 플래너/스케줄러/의사 결정자[1]로 사용하여 사용자가 전달한 복잡한 작업을 더 간단한 하위 작업으로 분해하고 이를 적절한 모델/도구에 파견한 다음 최종적으로 결과를 통합하여 출력합니다.
우리는 MLLM의 핵심 기술과 구현 방법에 초점을 맞춘 또 다른 관점을 채택하고 관련 작업을 조사 및 요약한 후 MLLM을 다음 범주로 나누었습니다.
· 다중 모드 명령 미세 조정 다중 모드 명령 튜닝
· LLM 기반 시각적 추론
아래에서는 이러한 유형의 작업에 대해 간략하게 소개합니다.다중 모드 명령어 튜닝다중 모드 명령어 미세 조정의 기본 방법은 통합 템플릿을 사용하여 모든 유형의 데이터를 통합하고 작업 요구 사항을 명령어 형식으로 설명하여 다중 모드 명령어 데이터를 구성하는 것입니다. MLLM을 미세 조정하기 위한 데이터입니다.
훈련 및 테스트 중 지침 형식의 일관성으로 인해 LLM은 강력한 의미론적 이해 및 추론 기능을 활용하여 다른 작업에 보다 유연하게 일반화하고 강력한 제로샷 학습 기능을 얻을 수 있습니다. 다중 모드 명령 데이터의 기본 형태는 (명령, 다중 모드 입력, 응답) 트리플렛으로 요약할 수 있습니다.
이런 종류의 데이터를 얻는 직관적인 방법은 벤치마크 데이터 세트를 변환하는 것입니다. 아래 그림 1과 같이 이미지 캡션을 사용합니다.
그림 1 . 명령 데이터 예
원본 캡션 데이터 샘플에는 그림과 텍스트 설명(Ground Truth)이 포함되어 있습니다. 이 데이터-GT 쌍 데이터는 자연스럽게 명령 데이터 부분의 다중 모드 입력 및 답변을 구성합니다.
명령 부분은 해당 작업에 대한 설명으로, 일반적으로 수동으로 작성하거나 GPT를 호출하여 생성됩니다.
다중 모드 지침을 미세 조정할 때 MLLM은 다중 모드 입력을 변환하여 LLM으로 보냅니다. LLM은 다중 모드 정보 및 지침 텍스트를 기반으로 답변을 예측합니다.
Multimodal In-Context Learning다중 상황 학습의 핵심 아이디어는 유추를 통해 학습하는 것입니다. 예를 들어, 우리가 공부할 때 일반적으로 접하게 되는 형태는 다음과 같습니다.
예제 문제를 공부하면서 새로운 문제에 직면했을 때 비례적인 문제를 통해 기본 아이디어와 방법을 배워 새로운 문제를 해결할 수 있습니다. 문제.
또한 예시 질문은 답변 형식을 표준화할 수도 있으며, 이는 예상 요구 사항을 충족하는 정답을 얻는 데 더 도움이 됩니다.
그림 2. 다중 모달 컨텍스트 데이터 예, 모델이 3x7
의 계산 결과를 예측하도록 하기 위해 예를 사용함
사고 체인은 일련의 중간 추론 단계[2]입니다. 다중 모드 사고 체인의 기본 아이디어는 모델이 중간 단계를 단계별로 출력하는 방법을 학습하고 최종적으로 아래 그림 3과 같이 최종 답을 추론하는 것입니다.
그림 3 . 다중 모드 사고 체인 데이터 예
답을 직접 출력하는 것과 비교하여 사고 체인:
·은 인간의 추론 습관과 더 일치합니다. 이전 추론 단계와 결과를 기반으로 점차 최종 답변
· 복잡한 추론 작업에 적합합니다. 복잡한 문제를 단계별로 해결하여 답변의 정확성을 높이세요.
LLM을 의사 결정 및 추론 메커니즘으로 사용하고 다양한 다중 모드 모델 및 도구를 호출하고 출력을 통합하여 최종 답을 얻습니다. 작업을 완료하는 방법에 따라 일반적으로 단일 바퀴 모델과 다중 바퀴 모델로 나눌 수 있습니다.
단일 라운드 모델의 기본 아이디어는 LLM이 작업을 완료하기 위해 다양한 모델/도구를 조정하는 기획자, 스케줄러 및 의사 결정자 역할을 한다는 것입니다. 일반적으로 다음 기능을 완료해야 합니다 [1]:
·플래너: 복잡한 작업을 해결 가능한 하위 작업으로 분해
· 스케줄러: 하위 작업을 적절한 모델/도구로 디스패치합니다. · 의사결정자:
하위 작업 관리 실행 순서, 하위 작업 결과를 통합하여 최종 답변을 얻습니다. 멀티 라운드 모델은 반복의 아이디어를 기반으로 하며 최종 답을 얻을 만큼 자신감이 생길 때까지 계속해서 시각적 인지를 축적합니다. 이 과정에서 LLM은 이전 단계(제기된 질문과 획득한 시각적 인지 정보)를 통합하여 최종 답변이 출력될 수 있는지 여부를 결정해야 합니다[3].
관련 논문은 다음을 참조하세요.
위 내용은 'Multimodal LLM'에 대한 최신 소개! 데이터와 절차는 포장되어 직접 가져옵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!