搜尋
首頁科技週邊人工智慧280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

近段时间来,AI 对话助手在语言任务上取得了不小的进展。这种显著的进步不只是基于 LLM 强大的泛化能力,还应该归功于指令调优。这涉及到在一系列通过多样化和高质量指令的任务上对 LLM 进行微调。

借助指令调优获得零样本性能的一个潜在原因是,它内化了上下文。这很重要,特别是当用户输入跳过常识性的上下文时。通过纳入指令调优,LLM 获得了对用户意图的高度理解,即使在以前未见过的任务中也能表现出更好的零样本能力。

然而,一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的多模式指令跟随数据集。比如,LLaVAInstruct-150K 数据集(也被称为 LLaVA)就是一个常用的视觉 - 语言指令跟随数据集,它是使用 COCO 图像、指令和从 GPT-4 中获得的基于图像说明和目标边界框的响应构建的。但 LLaVA-Instruct-150K 具有三个局限性:有限的视觉多样性;使用图片作为单一视觉数据;上下文信息仅包含语言形态。

为了推动 AI 对话助手突破这些限制,来自新加坡南洋理工大学、微软雷蒙德研究院的学者们提出了多模态上下文指令调优数据集 MIMIC-IT,这是一个包含 280 万条多模态上下文指令 - 相应对的数据集,涵盖各种现实生活场景。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

论文地址:https://arxiv.org/pdf/2306.05425.pdf

此外,为了高效地生成指令 - 响应对,研究者还介绍了「Sythus」,这是一个受 self-instruct 方法启发的指令 - 响应注释的自动化 pipeline。Sythus 采用系统信息、视觉注释和上下文中的例子来指导语言模型(GPT-4 或 ChatGPT)根据视觉语境生成指令 - 响应对,针对视觉语言模型的三个基本能力:感知、推理和规划。此外,英文的指令和响应被译成七种语言,以支持多种语言的使用。

特别值得注意的是,研究者在 MIMIC-IT 上训练了基于 OpenFlamingo 的多模态模型「Otter」。通过 ChatGPT、人类两个方面的评估,Otter 的多模态能力超越了近期的其他视觉 - 语言模型。

在一系列 Demo 中,研究者展示了 Otter 的多模态问答能力:

Q:接下来出哪张牌?

A:八筒。这样你就能留着四条和五条,等着凑成顺子。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

Q:我想着陆了,怎么操作?

A:按一次左下按钮,左转,要着陆时拉右边的手刹。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

Q:接下来怎么办?

A:把球传到中路,跑到球门,寻找进球机会。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

接下来,让我们看看研究细节。

MIMIC-IT 資料集

MIMIC-IT 資料集包括 280 萬個多模態指令 - 回應對,涵蓋了基本能力:感知、推理和計劃。每個指令都伴隨著多模態的對話背景,使在 MIMIC-IT 上訓練的 VLM 能夠在互動式指令中表現出很好的熟練度,並能進行零樣本的概括。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

比起LLaVA,MIMIC-IT 的特性包括:

(1) 多樣化的視覺場景,包含了一般場景、自我中心視角場景和室內RGB-D 影像等不同資料集的影像和影片;

(2) 多個圖像(或一個視訊)作為視覺資料;

(3) 多模態的上下文訊息,包括多個指令- 響應對和多個圖像或視訊;

(4) 支援八種語言,包括英文、中文、西班牙文、日文、法文、德文、韓文和阿拉伯文。

下圖進一步展示了二者的指令- 回應對對比(黃色方框為LLaVA):

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

如表1 所示,MIMIC-IT 的資料來源來自七個資料集:COCO、Spot-the-diff (SD)、ScanNetV2 (SN)、VisualStorytelling (VIST) 、DenseCaption /Activity caption(DC)、TVCaption(TVC)和Ego4D(E4D)。 「上下文」這一列的「lang.」表示語言,「vis.」表示視覺。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

Sythus:自動化指令- 回應對產生pipeline

同時,研究者提出了Sythus(圖3),這是一個自動化pipeline,用於產生多種語言的高品質指令- 響應對。在 LLaVA 提出的框架基礎上,研究者利用 ChatGPT 來產生基於視覺內容的指令 - 回應對。為了確保產生的指令 - 回應對的質量,該 pipeline 將系統資訊、視覺註釋和上下文中的樣本作為 ChatGPT 的 prompt。系統資訊定義了所產生的指令 - 響應對的預期語氣和風格,而視覺註釋則提供了基本的圖像信息,如邊界框和圖像描述。上下文中的樣本幫助 ChatGPT 在語境中學習。

由於核心集的品質會影響後續的資料收集過程,研究者採用了一個冷啟動策略,在大規模查詢之前加強上下文中的樣本。在冷啟動階段,採用啟發式方法,僅透過系統資訊和視覺註釋來 prompt ChatGPT 收集上下文中的樣本。這個階段只有在確定了令人滿意的上下文中的樣本後才結束。在第四步,一旦獲得指令- 回應對,pipeline 會將它們擴展為中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韓文(ko)和阿拉伯語(ar)。進一步的細節,可參考附錄 C,具體的任務 prompt 可以在附錄 D 中找到。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

經驗性評估

隨後,研究者展示了MIMIC-IT 資料集的各種應用以及在其上訓練的視覺語言模型(VLM) 的潛在能力。首先,研究者介紹了使用 MIMIC-IT 資料集開發的上下文指令調優模型 Otter。而後,研究者探索了在 MIMIC-IT 資料集上訓練 Otter 的各種方法,並討論了可以有效使用 Otter 的眾多場景。

圖 5 是 Otter 在不同場景下的回應實例。由於在 MIMIC-IT 資料集上進行了訓練,Otter 能夠為情境理解和推理、上下文樣本學習、自我中心的視覺助手服務。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

最後,研究者在一系列基準測試中對 Otter 與其他 VLM 的表現進行了比較分析。

ChatGPT 評估

#下表2 展示了研究者利用MMAGIBench 架構[43] 對視覺語言模型的感知和推理能力進行廣泛的評估。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

人類評估

Multi-Modality Arena [32] 使用Elo 評級系統來評估VLM 回應的有用性和一致性。圖 6 (b) 顯示 Otter 展示了卓越的實用性和一致性,在最近的 VLM 中獲得了最高的 Elo 評級。

少樣本上下文學習基準評估

#Otter 基於OpenFlamingo 進行微調,OpenFlamingo 是一種專為多模態上下文學習而設計的架構。使用 MIMIC-IT 資料集進行微調後,Otter 在 COCO 字幕 (CIDEr) [27] 少樣本評估(見圖 6 (c))上的表現明顯優於 OpenFlamingo。正如預期的那樣,微調也帶來了零樣本評估的邊際性能增益。

280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了

#圖 6:ChatGPT 影片理解的評估。

討論

缺陷。雖然研究者已經迭代改進了系統訊息和指令 - 回應範例,但 ChatGPT 容易出現語言幻覺,因此它可能會產生錯誤的回應。通常,更可靠的語言模型需要 self-instruct 資料產生。

未來工作。未來,研究者計劃支援更多具體 AI 資料集,例如 LanguageTable 和 SayCan。研究者也考慮使用更值得信賴的語言模型或生成技術來改進指令集。

以上是280萬條多模態指令-響應對,八種語言通用,首個涵蓋視訊內容的指令資料集MIMIC-IT來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。