首頁 >科技週邊 >人工智慧 >「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

PHPz轉載: 2023-06-09 22:58:371059瀏覽

进展跟踪链接（Awesome-MLLM，实时更新）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

近年来，大型语言模型Large Language Models（LLM）的研究取得了显著的进展（例如GPT-3，LLaMa，ChatGPT，GPT-4），这些模型在各项自然语言处理（NLP）任务上展现了出色的性能。

通过在海量数据上预训练，LLM获得了丰富的知识以及强大的推理能力。只需要输入一些用户指令，这些模型就可以解析指令、进行推理并给出符合用户预期的回答。

LLM具有的一些典型能力包括：

· 执行训练时未见过的新任务；
· 通过少量样例完成新任务；
· 通过推理链条执行复杂的推理任务；
· 协调各种模型与工具完成复合任务。

这些能力背后蕴含着众多关键思想和技术，包括指令微调（Instruction Tuning），上下文学习（In-Context Learning）和思维链（Chain of Thought）等。

多模态大型语言模型

尽管大语言模型在NLP领域取得了长足的发展，相应的模型与技术在多模态领域则较少探索，且传统视觉-语言模型仍存在着泛化性不足以及缺乏推理能力等局限。

为此，近期众多学者将注意力转向一个新兴的方向：多模态大型语言模型Multimodal Large Language Models（MLLM）。

其主要思想是以LLM作为「大脑」对输入的多模态信息进行整合、推理、分析和决断，从而完成人类交付的任务。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

从发展通用人工智能的视角看，相比于LLM，MLLM又向前迈进了一步，且具有以下优点：

· 更符合人类认知世界的习惯。人类具有多种感官，接受多种模态信息，这些信息常常是互补的、协同作用的。因此，使用多模态信息一般可以更好地认知与完成复杂任务；

· 更加强大与用户友好(User-Friendly)的接口。通过支持多模态输入，用户可以通过更加灵活的方式传达信息；

· 更广泛的任务支持。LLM通常只能完成NLP相关任务，而MLLM通过接入多模态可以完成更多任务。

从系统设计的角度来看，MLLM可以分为两类：

· LLM作为推理器的、支持多模态输入的认知推理系统；

· LLM作为规划器/调度器/决策器的多工具协作系统。

前者一般通过可训练的多模态转换接口将多模态信息转化为LLM可以直接接收、处理的形态，使LLM可以基于这些多模态信息以及用户指令进行认知与推理。

後者通常以LLM作為規劃器/調度器/決策器[1]，將使用者交付的複雜任務分解為更簡單的子任務，並派發給適當的模型/工具，最後整合結果並輸出。

我們採取另一種視角，聚焦於MLLM背後的關鍵技術與實作方式，對相關工作進行了研究與總結，將MLLM劃分為以下幾類：

· 多模態指令微調（Multimodal Instruction Tuning）

· 多模態上下文學習（Multimodal In-Context Learning）

#· 多模態思考鏈（Multimodal Chain-of-Thought）

· LLM輔助的視覺推理（LLM-Aided Visual Reasoning）

#下面我們將對這幾類工作進行簡要介紹。

多模態指令微調（Multimodal Instruction Tuning）

多模態指令微調的基本做法是使用統一的模板將各類數據統一起來，並以指令的形式描述任務需求，形成多模態指令數據，再使用這種數據去微調MLLM。

由於訓練與測試時的指令形式具有一致性，LLM可以憑藉其強大的語義理解和推理能力，更靈活地泛化到其他任務，獲得強大的零樣本學習能力。

多模態指令資料的基本形式可以概括為（指令，多模態輸入，回答）三元組。

一種直覺的獲得這種資料的方式是改造基準（Benchmark）資料集，我們以影像描述（Image Captioning）為例，如下圖1所示：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

圖1. 多模態指令資料範例

##原本的Caption數據樣本包括一張圖片和一段文字描述（Ground Truth），這種數據-GT的配對數據自然構成了指令數據的多模態輸入和回答部分。

指令部分則為對應任務的描述，一般由人工編寫或呼叫GPT產生。

在進行多模態指令微調時，MLLM轉換多模態輸入並送入LLM中，LLM基於多模態資訊與指令文字預測答案。

多模態上下文學習（Multimodal In-Context Learning）

多模態上下文學習的核心思想是從類比中學習。例如，我們在學習時一般接觸到的形式如下：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

透過學習例題，我們在遇到新的問題時，可以透過類比例題學習基本思想與方法，從而解決新的問題。

此外，例題還能規範我們的回答格式，更有利於得到正確的、符合預期要求的答案。

如下圖2所示，透過範例讓模型預測3x7的計算結果。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

圖2. 多模態上下文資料範例，透過範例讓模型預測3x7的計算結果

多模態思考鏈（Multimodal Chain-of-Thought）

思考鏈即一系列中間推理步驟[2]。多模態思考鏈的基本思想是使模型學會逐步輸出中間步驟，最後推論出最終答案，如下圖3所示：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

#圖3. 多模態思維鏈資料範例

比起直接輸出答案的方式，思維鏈：

· 更符合人類推理習慣：基於先前的推理步驟與結果，逐步導向最終答案；· 適用於複雜的推理任務，將複雜問題分步求解，提高回答的準確性。

LLM輔助的視覺推理（LLM-Aided Visual Reasoning）利用LLM作為決策與推理機構，呼叫各種多模態模型與工具並整合輸出，得到最後的答案。依完成任務的方式一般可分為單輪模型與多輪模型。

單輪模型的基本概念是由LLM作為規劃器、調度器和決策器協調各個模型/工具完成任務，一般需要完成以下職能[1]:

· 規劃器：

將複雜任務分解為可解的子任務；

· 調度器：

將子任務派發給適當的模型/工具；

「多模態LLM」最新介紹！數據、論文集直接打包帶走

· 決策器：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

管理子任務執行順序，整合子任務結果得到最終答案。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

多輪模型是基於迭代的思想，不斷累積視覺認知，直到足夠自信得到最終答案。在這個過程中，LLM需要整合先前的步驟 (提出的問題與已獲得的視覺認知資訊)，判斷是否可以輸出最終答案[3]。「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

相關論文詳見：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

################################### #############################

以上是「多模態LLM」最新介紹！數據、論文集直接打包帶走的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：AI產業研發：生成式文字後即將爆發生成式音訊？下一篇：AI產業研發：生成式文字後即將爆發生成式音訊？

看更多