首頁  >  文章  >  科技週邊  >  劍橋、騰訊AI Lab等提出大語言模型PandaGPT:一個模型統一六種模態

劍橋、騰訊AI Lab等提出大語言模型PandaGPT:一個模型統一六種模態

WBOY
WBOY轉載
2023-06-05 12:19:51799瀏覽

來自劍橋、NAIST 和騰訊AI Lab 的研究者近期發布了一項名為PandaGPT 的研究成果,這是一種將大型語言模型與不同模態對齊、綁定以實現跨模態指令跟隨能力的技術。 PandaGPT 可以完成諸如生成詳細的圖像描述、根據影片編寫故事以及回答關於音訊的問題等複雜任務。它可以同時接收多模態輸入,並自然地​​組合它們的語義。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

  • #專案首頁: https://panda-gpt.github.io/
  • #程式碼: https://github.com/yxuansu/PandaGPT
  • 論文: http ://arxiv.org/abs/2305.16355
  • 線上Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态


#為了實現圖像& 視訊、文字、音訊、熱力圖、深度圖、IMU 讀數六種模態下的指令跟隨能力,PandaGPT 將ImageBind 的多模態編碼器與Vicuna 大型語言模型結合(如上圖所示)。

為了使ImageBind 的多模態編碼器和Vicuna 的大型語言模型的特徵空間對齊,PandaGPT 使用了組合LLaVa 和Mini-GPT4 發布的共160k 基於圖像的語言指令跟隨資料作為訓練資料。每個訓練實例包括一張圖像和相應一組多輪對話。

為了避免破壞ImageBind 本身的多模態對齊性質和減少訓練成本,PandaGPT 只更新了以下模組:

  1. 在ImageBind 的編碼結果上新增一個線性投影矩陣,將ImageBind 產生的表示轉換後插入到Vicuna 的輸入序列中;
  2. 在Vicuna 的注意力模組上添加了額外的LoRA 權重。兩者參數總數約佔 Vicuna 參數的 0.4%。訓練函數為傳統的語言建模目標。值得注意的是,訓練過程中僅對模型輸出對應部分進行權重更新,且不對使用者輸入部分進行計算。整個訓練過程在 8×A100 (40G) GPUs 上完成訓練需要約 7 小時。

值得強調的是,目前的PandaGPT 版本只使用了對齊的圖像- 文字資料進行訓練,但是繼承了ImageBind 編碼器的六種模態理解能力(影像/ 視訊、文字、音訊、深度度、熱圖和IMU)和它們之間的對齊屬性,從而具備在所有模態之間跨模態能力。

在實驗中,作者展示了PandaGPT 對不同模態的理解能力,包括基於圖像/ 視頻的問答,基於圖像/ 視頻的創意寫作,基於視覺和聽覺信息的推理等等,以下是一些例子:

#圖片:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

##音訊:剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

影片:剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

###############

與其他多模態語言模型相比,PandaGPT 最突出的特點是它能夠理解並將不同模態的訊息自然地組合在一起。

視訊音訊:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态


圖片音訊:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

總結

    作者們也總結了目前PandaGPT 的許多問題以及未來的發展方向。儘管 PandaGPT 在處理多種模態及其組合方面具有驚人的能力,但仍有多種方法可以極大程度的提升 PandaGPT 的性能。
  1. PandaGPT 可以透過使用其他模態對齊資料來進一步提升影像以外模態的理解能力,例如利用ASR 和TTS 資料來進行音訊- 文字模態的模態理解和指令跟隨能力。
  2. 文字以外的其他模態僅使用了一個 embedding 向量進行表示,導致語言模型無法理解文字以外模型的細微資訊。更多關於細粒度特徵提取的研究,如跨模態注意力機制,可能有助於提高性能。
  3. PandaGPT 目前僅允許將文字以外的模態資訊用作輸入。未來該模型有潛力將整個 AIGC 統一到同一個模型之中,即一個模型同時完成圖像 & 視訊生成、語音合成、文字生成等任務。
  4. 需要新的基準測試來評估多模態輸入的組合能力。
PandaGPT 也可能表現出有語言模型的一些常見缺陷,包括幻覺、毒性和刻板印象。

###最後,作者強調,PandaGPT 只是一個研究原型,暫時還不足以直接應用於生產環境。 ######

以上是劍橋、騰訊AI Lab等提出大語言模型PandaGPT:一個模型統一六種模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除