首頁  >  文章  >  科技週邊  >  人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

王林
王林轉載
2023-05-09 14:34:09636瀏覽

最近,中國人民大學高瓴人工智慧學院盧志武教授、孫浩長聘副教授、以及院長文繼榮教授作為共同通訊作者在國際綜合期刊《自然·通訊》(英文名:Nature Communications,簡稱Nat Commun )上發表題為「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究論文,文章第一作者為博士生費楠益。該工作嘗試利用多模態基礎模型邁向通用人工智慧,並將對各種 AI 領域(如神經科學和醫療健康)產生廣泛的影響。本文是這篇論文的解讀。

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

 

  • #論文連結:https://www.nature.com/articles /s41467-022-30761-2
  • 程式碼連結:https://github.com/neilfei/brivl-nmi

#人工智慧的基本目標是模仿人類的核心認知活動,如知覺、記憶、推理等。雖然許多人工智慧演算法或模型在各個研究領域都取得了巨大的成功,但是受限於大量標註數據的獲取或是沒有足夠的計算資源支撐在大規模數據上的訓練,大多數的人工智能研究還是只局限於單一認知能力的習得。

為了克服這些限制並向通用人工智慧邁出一步,我們以人類大腦處理多模態資訊為靈感(如圖1a),開發了一個多模態(視覺語言)基礎模型,也即預訓練模型。此外,為了讓模型獲得強大的泛化能力,我們提出訓練資料中的圖片與文字應遵循弱語義相關假設(如圖1b),而不是圖片區域與單字的精細匹配(強語義相關),因為強語意相關假設將導致模型失去人們在為圖片配文時所隱含的複雜情緒和思考。

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖 1:基於弱語意相關假設的 BriVL 模型。 a. 我們的 BriVL 模型和人腦在處理視覺語言訊息上的比較。 b. 建模弱語意相關資料和建模強語意相關資料的比較。

透過在爬取自網路的大規模圖文對資料上進行訓練,我們得到的多模態基礎模型展現出強大的泛化能力和想像能力。我們相信,我們的工作向通用人工智慧邁出了重要的一步(雖然可能很小),並將對各種 AI 領域(如神經科學和醫療健康)產生廣泛的影響。

方法

我們開發了一個大規模多模態基礎模型在海量的多模態資料上進行自監督訓練,並把它取名為BriVL (Bridging-Vision-and-Language)。

首先,我們使用了一個從網路建立的大規模多來源圖文資料集,稱為弱語意相關資料集(WSCD)。 WSCD 收集了來自網路上多個來源的中文圖像文字對,包括新聞、百科和社群媒體。我們只過濾掉了 WSCD 中的色情和敏感數據,沒有對原始數據進行任何形式的編輯和修改,以保持其自然的數據分佈。總的來說,WSCD 有大約 6.5 億個圖文對,涵蓋了許多主題,如運動、日常生活和電影。

其次,對於我們的網路架構,由於圖像和文字之間不一定存在細粒度的區域單字匹配,我們丟掉了耗時的目標偵測器,採用簡單的雙塔架構,因此能夠透過兩個獨立的編碼器對圖像和文字輸入進行編碼(如圖2)。雙塔結構在推理過程中具有明顯的效率優勢,因為候選集的特徵可以在查詢前計算和索引,滿足現實世界應用的即時要求。第三,隨著大規模分散式訓練技術和自監督學習的發展,用海量的未標註的多模態資料訓練模型成為可能。

具體來說,為了對圖文對的弱相關性進行建模,並學習一個統一的語義空間,我們基於單模態對比學習方法 MoCo 設計了一個跨模態對比學習演算法。如圖 2 所示,我們的 BriVL 模型使用了 momentum 機制,用來在不同的訓練批次中動態維護負樣本隊列。透過這種方式,我們會有一個比較大的負樣本數量(對比學習至關重要),同時使用一個相對較小的 batch 大小以減少 GPU 的記憶體佔用(即 GPU 資源節約)。 

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖 2:用於大規模多模態預訓練的 BriVL 模型示意圖。

主要結果

神經網路視覺化

#當我們聽到文字或描述性的句子時,腦海中就會出現一些場景。那對於我們的 BriVL,它在如此大量的弱相關圖文對上進行預訓練以後,我們就很好奇當給出文本時,它會想像到什麼。

具體來說,我們首先輸入一段文本,透過 BriVL 的文本編碼器獲得其文本嵌入。然後我們隨機初始化一個雜訊影像,並透過影像編碼器得到其特徵嵌入。由於輸入的影像是隨機初始化的,它的特徵與輸入文字的特徵必定不一致。因此,我們定義了匹配兩個特徵嵌入的目標,並透過反向傳播來更新輸入影像。最終得到的影像能清楚地顯示 BriVL 對輸入文字的想像。這裡我們不使用任何額外的模組或數據,預先訓練好的 BriVL 也在整個視覺化過程中被凍結。

我們先介紹 BriVL 對一些高階語意概念的想像能力(如圖 3)。可以看到,儘管這些概念非常抽象,但視覺化還是能夠顯示出它們的具體形態(例如,「自然」:像草一樣的植物;「時間」:鐘錶;「科學」:一張戴著眼鏡的臉和一個錐形瓶;「夢境」:雲,一座通往門的橋,以及夢境般的氛圍)。這種將抽象概念概括為一系列具體物體的能力表明了我們的多模態預訓練只使用弱語義相關資料的有效性。 

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖 3:BriVL 模型對抽象概念的想像。

在圖 4 中,我們展示了 BriVL 對句子的想像。 BriVL 對「烏雲背後有陽光」 的想像不僅從字面上體現了烏雲背後的陽光,而且似乎還顯示出海上的危險情況(左邊有船一樣的物體和波浪),表達了這句話的隱含意思。在 “生如夏花” 的視覺化中,我們可以看到一個花叢。接下來的兩個場景更複雜的文本輸入都來自中國古詩,其語法也與訓練集中的絕大多數文本完全不同。看起來BriVL 也能很好地理解它們:對於“竹外桃花三兩枝”,我們可以看到有竹子和粉紅色的花;對於“白日依山盡,黃河入海流”,我們可以看到山上的樹木遮掩著夕陽,前面河流上有一艘小船。總的來說,我們發現即使在複雜句子的提示下,BriVL 依然具有強大的想像能力。 

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖 4:BriVL 模型對中文句子的想像。

在圖 5 中,幾個類似的文本被用於 BriVL 的神經網路視覺化。對於“有森林的山脈”,圖像中有更多的綠色區域;對於“有石頭的山脈”,圖像中有更多的岩石;對於“有雪的山脈”,中間樹木周圍的地面都是白色或藍色;對於“有瀑布的山脈”,可以看到藍色的水落下來,甚至還有一些水蒸汽。這些視覺化結果證明了 BriVL 能對山脈的修飾詞進行準確的理解和想像。 

#

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

圖 5:BriVL 模型對 「有… 的山脈」 的想像。

文生成圖

神經網路視覺化非常直接,但有時會很難解釋。因此我們開發了另一種視覺化 / 可解釋性方法,使 BriVL 的想像內容可以更好地被我們人類理解。具體來說,我們利用 VQGAN 在 BriVL 的指導下來產生影像,因為在 ImageNet 資料集上預先訓練的 VQGAN 非常善於生成逼真的影像。我們首先隨機得到一個 token 序列,並從預先訓練好的 VQGAN 中獲得一個生成影像。接著,我們將產生的圖像輸入到 BriVL 的圖像編碼器中,同時將一段文字輸入到文字編碼器中。最後,我們定義圖像和文字嵌入之間需要匹配的目標,並透過反向傳播來更新初始的 token 序列。與神經網路視覺化一樣,VQGAN 和 BriVL 在生成過程中都被凍結。為了比較,我們也展示了 OpenAI 的 CLIP 模型取代 BriVL 來產生的圖像。

我們先選擇了四個文字輸入,分別在圖 6 和圖 7 展示了 CLIP 和我們 BriVL 的文生成圖結果。 CLIP 和 BriVL 都能很好地理解文本,然而我們也觀察到兩個主要的差異。第一,卡通風格的元素會在 CLIP 產生的影像中出現,而 BriVL 產生的影像則更真實自然。第二,CLIP 傾向於簡單地把元素放在一起,而 BriVL 產生的影像在全域上更統一。第一個差異可能是由於 CLIP 和 BriVL 使用的訓練資料不同。我們訓練資料中的圖像是從網路上抓取的(大部分是真實的照片),而在 CLIP 的訓練資料中可能有一定數量的卡通圖像。第二個差異可能是由於 CLIP 使用的圖文對具有很強的語意相關性(透過單字過濾),而我們使用的則是弱相關數據。這意味著在多模態預訓練期間,CLIP 更有可能學到具體物體和單字 / 詞組之間的對應關係,而 BriVL 則試圖將每張圖像與給定的文本作為一個整體來理解。

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖6:CLIP(w/ ResNet-50x4)借助VQGAN 實作文生成圖的例子。  

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖7:我們的BriVL 借助VQGAN 實作文生成圖的例子。

我們也考慮了一個更具挑戰性的任務,即根據多個連貫的句子來產生一系列的影像。如圖 8 所示,雖然每張圖片都是獨立生成的,但我們可以看到,四張圖片在視覺上是連貫的,風格也是一樣的。這顯示了 BriVL 模型的另一個優點:儘管影像中的環境和背景很難在相關文本中明確提及,但在我們的大規模多模態預訓練中,它們並沒有被忽略。 

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖 8:我們的 BriVL 借助 VQGAN 進行一系列連貫內容生成的範例。

#

在圖9 中,我們選擇了一些人類很少見到的概念/ 場景(如「熊熊燃燒的大海」 和「發光的森林」),甚至是那些在現實生活中不存在的概念/ 場景(如「賽博龐克風格的城市」 和「雲端的城堡」)。這證明了 BriVL 的優越性能不是來自於對預訓練資料的過擬合,因為這裡輸入的概念 / 場景在現實生活中甚至不存在(當然極大可能就不在預訓練資料集中)。此外,這些產生的例子再次驗證了在弱語義相關資料上預訓練 BriVL 的優勢(因為細粒度的區域單字對齊會損害 BriVL 的想像能力)。

人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧

#圖9:更多BriVL 的文生成圖結果,其中的概念/ 場景都是人類不常看到甚至是現實生活中不存在的。

此外,我們也將BriVL 應用於遙感影像零樣本分類、中文新聞零樣本分類、視覺問答等多個下游任務,均取得一些有趣的結果,具體請見我們的論文原文。

結論與討論

我們開發了一個名為BriVL 的大規模多模態基礎模型,該模型在6.5 億的弱語義相關圖文上進行了訓練。我們透過神經網路視覺化和文生成圖直觀地展示了對齊的圖文嵌入空間。此外,在其他下游任務上的實驗也顯示了 BriVL 的跨領域學習 / 遷移能力以及多模態學習相對於單模態學習的優勢。特別地,我們發現 BriVL 似乎獲得了一定地想像和推理能力。我們相信這些優勢主要來自於 BriVL 所遵循的弱語意相關假設。也就是說,透過挖掘弱相關圖文對中複雜的人類情感和思想,我們的 BriVL 變得更加認知。

我們相信,我們向通用人工智慧邁出的這一步,不僅會對人工智慧領域本身產生廣泛的影響,也會對各個 AI 領域產生影響。對於人工智慧的研究,基於我們 GPU 資源節約型的多模態預訓練框架,研究人員可以輕鬆地將 BriVL 擴展到更大的量級和更多的模態,以獲得更通用的基礎模型。在大規模多模態基礎模型的幫助下,研究人員也更容易探索新的任務(尤其是那些沒有足夠人類標註的樣本)。對於 AI 領域,由於其強大的泛化能力,基礎模型可以快速適應特定的工作環境。例如,在醫療保健領域,多模態基礎模型可以充分利用病例的多模態資料來提高診斷的準確性;在神經科學領域,多模態基礎模型甚至可能可以幫助找出多模態資訊如何在人腦中融合的機制,因為人工神經網路比人類大腦中的真實神經系統更容易研究。

儘管如此,多模態基礎模型仍面臨一些風險和挑戰。基礎模型可能會學到對某些事情的偏見和成見,這些問題應該在模型訓練前仔細處理,並在下游應用中進行監控和解決。此外,隨著基礎模型掌握越來越多的能力,也要小心它被心懷不軌的人濫用,避免對社會產生負面影響。此外,在基礎模型地未來研究上,也存在一些挑戰:如何發展更深入的模型可解釋性工具,如何用更多的模態建立預訓練資料集,以及如何用更有效的微調技術將基礎模型應用於各個下游任務。

本篇論文作者為:費楠益、盧志武、高一鑷、楊國興、霍宇琦、溫靜遠、盧浩宇、宋睿華、高欣、向滔、孫浩、文繼榮;共同通訊作者為人大高瓴人工智慧學院盧志武教授、孫浩長聘副教授、文繼榮教授。論文發表於國際綜合期刊《自然 · 通訊》(英文名:Nature Communications,簡稱 Nat Commun)。本篇論文由費楠益解讀。

以上是人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除