首頁 >科技週邊 >人工智慧 >劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

PHPz
PHPz轉載
2024-03-25 20:50:47488瀏覽

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器



  • 論文鏈接:https://arxiv.org/abs/2402.08327
  • DEMO 連結:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443 /
  • 專案首頁連結:https://preflmr.github.io/
  • 論文標題:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers

## 背景

##雖然多模態大模型(如GPT4-Vision、Gemini等)展示了強大的通用圖文理解能力,但在處理需要專業知識的問題時表現不如人意。即使是GPT4-Vision,也無法有效回答知識密集問題(如圖一所示),這給許多企業級應用帶來了挑戰。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

GPT4-Vision 可以透過 PreFLMR 多模態知識擷取器來獲得相關知識,並產生準確的答案。圖中展示了模型的實際輸出結果。

檢索增強生成(RAG,Retrieval-Augmented Generation)為解決這個問題提供了一個簡單有效的方法,讓多模態大模型在某個領域變得像「領域專家」一樣。其運作原理如下:首先,利用輕量級知識檢索器(Knowledge Retriever)從專業資料庫(如Wikipedia或企業知識庫)中檢索相關的專業知識;接著,大型模型將這些知識與問題一起作為輸入,輸出準確的答案。多模態知識擷取器的知識「回想能力」直接影響大型模型在回答推理問題時是否能獲得準確的專業知識。

近期,

劍橋大學資訊工程係人工智慧實驗室完整開源了首個預訓練、通用多模態後期交互知識檢索器PreFLMR (Pre- trained Fine-grained Late-interaction Multi-modal Retriever)。相較於以往常見的模型,PreFLMR 有以下特點:

PreFLMR是一款通用預訓練模型,能有效解決文字檢索、影像檢索和知識檢索等多個子任務。經過百萬級多模態資料的預訓練,該模型在多個下游檢索任務中表現出色。另外,作為一款優秀的基礎模型,PreFLMR 經過針對私有資料的微調後,能夠迅速發展成為優秀的領域專用模型。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖2:PreFLMR 模型同時在多項任務上取得極佳的多模態檢索表現,是一個極強的預訓練基底模型。

2. 傳統的密集文字檢索(Dense Passage Retrieval, DPR)只使用一個向量表徵問詢(Query)或文件(Document)。劍橋團隊在 NeurIPS 2023 發表的 FLMR 模型證明了 DPR 的單向量表徵設計會導致細粒度資訊損失,導致 DPR 在需要精細資訊匹配的檢索任務上表現不佳。尤其是在多模態任務中,使用者的問詢(Query)包含複雜場景訊息,壓縮​​至一維向量極大地抑制了特徵的表達能力。 PreFLMR 繼承並改進了 FLMR 的結構,使其在多模態知識檢索中有得天獨厚的優勢。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖3:PreFLMR 在字元層級(Token level)上編碼問詢(Query,左側1、2 、3)和文件(Document,右側4),相較於將所有資訊壓縮至一維向量的DPR 系統有資訊細粒度上的優勢。

3.PreFLMR 能夠根據使用者輸入的指令(例如「提取能用於回答以下問題的文檔」 或「提取與圖中物品相關的文檔」),從龐大的知識庫中提取相關的文檔,幫助多模態大模型大幅提昇在專業知識問答任務上的表現。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器


#

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖4:PreFLMR 可以同時處理圖片提取文件、根據問題提取文件、根據問題和圖片一起提取文件的多模態問詢任務。

劍橋大學團隊開源了三個不同規模的模型,模型的參數量由小到大分別為:PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M )、PreFLMR_ViT-G (2B),供使用者依實際情況選取。

除了開源模型PreFLMR 本身,該專案還在該研究方向上做出了兩個重要貢獻:

  1. 該項目同時開源了一個訓練和評估通用知識檢索器的大規模資料集,Multi-task Multi-modal Knowledge Retrieval Benchmark (M2KR),包含10 個在學界中被廣泛研究的檢索子任務和總計超過百萬的檢索對。
  2. 在論文中,劍橋大學團隊比較了不同大小、不同表現的影像編碼器和文字編碼器,總結了擴大參數和預訓練多模態後期互動知識檢索系統的最佳實踐,為未來的通用檢索模型提供經驗性的指導。

下文將簡單介紹 M2KR 資料集,PreFLMR 模型和實驗結果分析。

M2KR 資料集

為了大規模預訓練和評估通用多模態檢索模型,作者彙編了十個公開的資料集並將其轉換為統一的問題- 文檔檢索格式。這些資料集的原本任務包括圖像描述(image captioning),多模態對話(multi-modal dialogue)等等。下圖展示了其中五個任務的問題(第一行)和對應文件(第二行)。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖5:M2KR 資料集中的部分知識擷取任務

PreFLMR 檢索模型

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖6:PreFLMR 的模型結構。問詢(Query)被編碼為 Token-level 的特徵。 PreFLMR 對問詢矩陣中的每一個向量,找到文檔矩陣中的最近向量併計算點積,然後對這些最大點積求和得到最後的相關度。

PreFLMR 模型基於發表於 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 並進行了模型改進和 M2KR 上的大規模預訓練。相較於 DPR,FLMR 和 PreFLMR 以由所有的 token 向量組成的矩陣對文件和問詢進行表徵。 Tokens 包含文字 tokens 和投射到文字空間中的圖像 tokens。後期交互(late interaction)是一種高效率計算兩個表徵矩陣之間相關性的演算法。具體做法為:對問詢矩陣中的每一個向量,找到文件矩陣中的最近向量並計算點積。然後對這些最大點積求和得到最後的相關度。這樣,每個 token 的表徵都可以明確地影響最終的相關性,以此保留了 token-level 的細粒度(fine-grained)訊息。由於專門的後期互動檢索引擎,PreFLMR 在 40 萬份文件中提取 100 個相關文件僅需 0.2 秒,這極大地提高了 RAG 場景中的可用性。

PreFLMR 的預先訓練包含以下四個階段:

  • 文字編碼器預訓練:首先,在MSMARCO(一個純文字知識檢索資料集)上預先訓練一個後期交互文文檢索模型作為PreFLMR 的文字編碼器。
  • 圖片 - 文字投射層預訓練#:其次,在 M2KR 上訓練圖像 - 文字投射層並凍結其它部分。此階段只使用經過投射的圖像向量進行檢索,旨在防止模型過度依賴文字資訊。
  • 持續預訓練:然後,在E-VQA,M2KR 中的一個高品質知識密集型視覺問答任務上持續訓練文字編碼器和圖像- 文字投射層。此階段旨在提升 PreFLMR 的精細知識檢索能力。
  • 通用檢索訓練:最後,在整個 M2KR 資料集上訓練所有權重,只凍結影像編碼器。同時,將問詢文字編碼器和文件文字編碼器的參數解鎖進行分別訓練。此階段旨在提高 PreFLMR 的通用檢索能力。

同時,作者展示了 PreFLMR 可以在子資料集(如 OK-VQA、Infoseek)上進一步微調以在特定任務上獲得更好的檢索效能。

實驗結果與縱向擴展

最佳檢索結果:表現最好的PreFLMR 模型使用ViT-G 作為影像編碼器和ColBERT -base-v2 作為文字編碼器,總計二十億參數。它在 7 個 M2KR 檢索子任務(WIT,OVEN,Infoseek, E-VQA,OKVQA 等)上取得了超越基線模型的表現。

扩展视觉编码更加有效:作者发现将图像编码器 ViT 从 ViT-B(86M)升级到 ViT-L(307M)带来了显著的效果提升,但是将文本编码器 ColBERT 从 base(110M)扩展到 large(345M)导致表现下降并造成了训练不稳定问题。实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。同时,使用多层 Cross-attention 进行图像 - 文本投射的效果与使用单层相同,因此图像 - 文本投射网络的设计并不需要过于复杂。

PreFLMR 让 RAG 更加有效:在知识密集型视觉问答任务上,使用 PreFLMR 进行检索增强大大提高了最终系统的表现:在 Infoseek 和 EVQA 上分别达到了 94% 和 275% 的效果提升,经过简单的微调,基于 BLIP-2 的模型能够击败千亿参数量的 PALI-X 模型和使用 Google API 进行增强的 PaLM-Bison Lens 系统。

结论

剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练,PreFLMR 在多项检索子任务中展现出强劲的表现。M2KR 数据集,PreFLMR 模型权重和代码均可以在项目主页 https://preflmr.github.io/ 获取。

拓展资源

  • FLMR paper (NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc672cf9872-Abstract-Conference.html 
  • 代码库:https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
  • 英文版博客:https://www.jinghong-chen.net/preflmr-sota-open-sourced-multi/
  • FLMR 简介:https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

以上是劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除