多模態大模型最全綜述來了!
由微軟7位華人研究員撰寫,足足119頁——
它從目前已經完善的和還處於最前沿的兩類多模態大模型研究方向出發,全面總結了五個具體研究主題:
- 視覺理解
- 視覺生成
- 統一視覺模型
- LLM加持的多模態大模型
- 多模態agent
並且專注於一個現象:
多模態基礎模型已經從專用走向通用。
Ps. 這也是為什麼論文開頭作者就直接畫了一個哆啦A夢的圖像。
誰適合閱讀這份綜述(報告)?
用微軟的原話來說:
只要你有興趣學習多模態基礎模型的基礎知識和最新進展,無論你是專業研究員還是在校學生,這個內容都非常適合你
一起來看看~
一文摸清多模態大模型現狀
這五個具體主題中的前兩個是目前已經成熟的領域,而後三個則屬於前沿領域
1、視覺理解
這部分的核心問題是如何預訓練一個強大的圖像理解backbone。
如下圖所示,根據用於訓練模型的監督訊號的不同,我們可以將方法分為三類:
標籤監督、語言監督(以CLIP為代表)和只有影像的自監督。
其中最後一個表示監督訊號是從影像本身挖掘出來的,流行的方法包括對比學習、非對比學習和masked image建模。
除了這些方法之外,文章還進一步討論了多模態融合、區域級和像素級影像理解等類別的預訓練方法
#也列出了以上這些方法各自的代表作品。
2、視覺生成
這個主題是AIGC的核心,不限於影像生成,還包括影片、3D點雲圖等等。
而且它的用處不止於藝術、設計等領域——還非常有助於合成訓練數據,直接幫助我們實現多模態內容理解和生成的閉環。
在這部分,作者重點討論了產生與人類意圖嚴格一致的效果的重要性和方法(重點是圖像生成)。
具體則從空間可控生成、基於文本再編輯、更好地遵循文本提示和生成概念定制(concept customization)四個方面展開。
在本節的結尾,作者也分享了他們對目前研究趨勢和即將展開的研究方向的觀點
為了更好地遵循人類的意圖並使上述四個方向都能夠更加靈活和可替代,我們需要開發一個通用的文生成模型
列舉了四個方向的各自代表作如下:
#3、統一視覺模型
這部分內容探討了建構統一視覺模型所面臨的挑戰:
需要進行改寫的內容是:首先,輸入類型不同;
需要進行改寫的內容是:其次,不同的任務需要採用不同的細粒度,並且輸出也要求採用不同的格式;
#資料也面臨挑戰,除了建模之外
例如不同類型的標籤註釋成本差異很大,收集成本比文字資料高得多,這導致視覺資料的規模通常比文字語料庫小得多。
不過,儘管挑戰多多,作者指出:
CV領域對於開發通用、統一的視覺系統的興趣是越來越高漲,還衍生出來三類趨勢:
一是從閉集(closed-set)到開集(open-set),它可以更好地將文字和視覺匹配起來。
從特定任務到通用能力的轉變最重要的原因是為每個新任務開發一個新模型的成本太高
三是從靜態模型到可提示模型,LLM可以採用不同的語言和上下文提示作為輸入,並在不進行微調的情況下產生使用者想要的輸出。我們要打造的通用視覺模型應該具有相同的情境學習能力。
4、LLM加持的多模態大模型
本節全面探討多模態大模型。
先是深入研究背景和代表實例,並討論OpenAI的多模態研究進展,確定該領域現有的研究空白。
接下來作者詳細檢視了大語言模型中指令微調的重要性。
再接著,作者探討了多模態大模型中的指令微調工作,包括原理、意義和應用。
最後,我們還將涉及一些多模態模型領域中的高階主題,以便更深入地了解,其中包括:
更多超越視覺和語言的模態、多模態的上下文學習、參數高效訓練以及Benchmark等內容。
5、多模態agent
所謂多模態agent,就是一種將不同的多模態專家與LLM連結起來解決複雜多模態理解問題的辦法。
這部分,作者主要先帶大家回顧了這種模式的轉變,總結方法與傳統方法的根本差異。
以MM-REACT為例,我們將詳細介紹這種方法的具體運作方式
我們進一步總結瞭如何建構多模態代理的全面方法,以及它在多模態理解方面的新興能力。同時,我們也介紹瞭如何輕鬆地擴展這種能力,包括最新、最強大的LLM和潛在的數百萬種工具
當然,最後也是一些高階主題討論,包括如何改進/評估多多模態agent,由它建成的各種應用程式等。
作者介紹
這份報告共有7位作者
發起人和整體負責人為Chunyuan Li 。
他是微軟雷德蒙首席研究員,博士畢業於杜克大學,最近研究興趣為CV和NLP中的大規模預訓練。
他負責了開頭介紹和結尾總結以及「利用LLM訓練的多模態大模型」這章的撰寫。 重寫後的內容:他負責撰寫了文章的開頭介紹和結尾總結,以及關於「利用LLM訓練的多模態大模型」這一章的部分
核心作者共有4位:
- Zhe Gan
目前已進入Apple AI/ML工作,負責大規模視覺和多模態基礎模型研究。先前是Microsoft Azure AI的首席研究員,北大本碩畢業,杜克大學博士畢業。
- Zhengyuan Yang
他是微軟的高級研究員,畢業於羅徹斯特大學並獲得了ACM SIGMM傑出博士獎等榮譽。他本科就讀於中國科學技術大學
- Jianwei Yang
#微軟雷德蒙研究院深度學習小組首席研究員。佐治亞理工學院博士畢業。
- Linjie Li(女)
#Microsoft Cloud & AI電腦視覺組研究員,普渡大學碩士畢業。
他們分別負責了剩下四個主題章節的撰寫。
綜述網址:https://arxiv.org/abs/2309.10020
#以上是多模態大模型最全綜述來了! 7位微軟研究員大力合作,5大主題,成文119頁的詳細內容。更多資訊請關注PHP中文網其他相關文章!

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键,要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注,掩盖了人工智能可能加剧环境退化的方式,通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术,同时承认其大量消耗能源,引领人工智能潮流的科技公司需要探索人工智能对环境影响的

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来;从条形统计图中很容易看出各种数量的多少。条形统计图分为:单式条形统计图和复式条形统计图,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“,2022年5月,加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集,但光照真实模拟环境生成的合成数据推动的无监督域适应(UDA,Unsupervised Domain Adaptation)方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成(adversarial d

数据通信中的信道传输速率单位是bps,它表示“位/秒”或“比特/秒”,即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数,也称“比特率”。比特率表示单位时间内传送比特的数目,用于衡量数字信息的传送速度;根据每帧图像存储时所占的比特数和传输比特率,可以计算数字图像信息传输的速度。

数据分析方法有4种,分别是:1、趋势分析,趋势分析一般用于核心指标的长期跟踪;2、象限分析,可依据数据的不同,将各个比较主体划分到四个象限中;3、对比分析,分为横向对比和纵向对比;4、交叉分析,主要作用就是从多个维度细分数据。

在日常开发中,对数据进行序列化和反序列化是常见的数据操作,Python提供了两个模块方便开发者实现数据的序列化操作,即 json 模块和 pickle 模块。这两个模块主要区别如下:json 是一个文本序列化格式,而 pickle 是一个二进制序列化格式;json 是我们可以直观阅读的,而 pickle 不可以;json 是可互操作的,在 Python 系统之外广泛使用,而 pickle 则是 Python 专用的;默认情况下,json 只能表示 Python 内置类型的子集,不能表示自定义的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境