首頁 >科技週邊 >人工智慧 >用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

王林
王林轉載
2023-05-11 19:25:111264瀏覽

在人類的感官中,一張圖片可以將許多體驗融合在一起,例如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質地、拂面而來的微風,甚至可以激發創作一首詩的靈感。影像的這種「綁定」(binding)屬性透過與自身相關的任何感官體驗對齊,為學習視覺特徵提供了大量監督來源。

理想情況下,對於單一聯合嵌入空間,視覺特徵應該透過對齊所有感官來學習。然而這需要透過同一組圖像來獲取所有感官類型和組合的配對數據,顯然不可行。

最近,許多方法學習與文字、音訊等對齊的圖像特徵。這些方法使用單對模態或最多幾種視覺模態。最終嵌入僅限於用於訓練的模態對。因此,視訊 - 音訊嵌入無法直接用於圖像 - 文字任務,反之亦然。學習真正的聯合嵌入面臨的一個主要障礙是缺乏所有模態融合在一起的大量多模態資料。

今日,Meta AI 提出了 ImageBind,它透過利用多種類型的影像配對資料來學習單一共享表示空間。該研究不需要所有模態相互同時出現的資料集,相反地利用了圖像的綁定屬性,只要將每個模態的嵌入與圖像嵌入對齊,就會實現所有模態的迅速對齊。 Meta AI 也公佈了相應代碼。

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

  • #論文網址:https://dl.fbaipublicfiles. com/imagebind/imagebind_final.pdf
  • GitHub 網址:https://github.com/facebookresearch/ImageBind

具體而言,ImageBind 利用網路規模(圖像、文字)來匹配數據,並將其與自然存在的配對數據(視訊、音訊、圖像、深度)結合,以學習單一聯合嵌入空間。這樣做使得 ImageBind 隱式地將文字嵌入與其他模態(如音訊、深度等)對齊,從而在沒有顯式語義或文字配對的情況下,能在這些模態上實現零樣本識別功能。

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

下圖 2 為 ImageBind 的整體概覽。

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

同時,研究者表示ImageBind 可以使用大規模視覺語言模型(如CLIP)進行初始化,從而利用這些模型的豐富圖像和文字表示。因此,ImageBind 只需要很少的訓練就可以應用於各種不同的模態和任務。

ImageBind 是 Meta 致力於創建多模態 AI 系統的一部分,從而實現從所有相關類型資料中學習。隨著模態數量的增加,ImageBind 為研究人員打開了嘗試開發全新整體性系統的閘門,例如結合 3D 和 IMU 感測器來設計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文字、視訊和圖像來搜尋圖像、視訊、音訊檔案或文字資訊。

綁定內容和圖像,學習單一嵌入空間

人類有能力透過很少的樣本學習新概念,例如閱讀對動物的描述之後,就可以在實際生活中認出它們;透過一張不熟悉的汽車模型照片,就可以預測其引擎可能發出的聲音。這在一定程度上是因為單張圖像可以將整體感官體驗「捆綁」在一起。然而在人工智慧領域,雖然模態數量一直在增加,但多感官資料的缺乏會限制標準的需要配對資料的多模態學習。

理想情況下,一個有著不同種類資料的聯合嵌入空間能讓模型在學習視覺特徵的同時學習其他的模態。在此之前,往往需要收集所有可能的配對資料組合,才能讓所有模態學習聯合嵌入空間。

ImageBind 規避了這個難題,它利用最近的大型視覺語言模型它將最近的大規模視覺語言模型的零樣本能力擴展到新的模態,它們與圖像的自然配對,如視頻- 音頻和圖像- 深度數據,來學習一個聯合嵌入空間。針對其他四種模式(音訊、深度、熱成像和 IMU 讀數),研究者使用自然配對的自監督資料。

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

#透過將六種模態的嵌入對齊到一個公共空間, ImageBind 可以跨模態檢索未同時觀察到的不同類型的內容,添加不同模態的嵌入以自然地​​對它們的語義進行組合,以及結合使用Meta AI 的音頻嵌入與預訓練DALLE-2 解碼器(設計用於與CLIP 文字嵌入)來實現音訊到圖像生成。

互聯網上存在大量連同文字一起出現的圖像,因此訓練圖像 - 文字模型已經得到了廣泛的研究。 ImageBind 利用了影像能與各種模態相連接的綁定屬性,例如利用網路資料將文字與影像連接起來,或利用在有IMU 感測器的可穿戴相機中捕捉到的視訊資料將運動與視訊連接起來。

從大規模網路資料中學習到的視覺表徵可以用作學習不同模態特徵的目標。這使得 ImageBind 將影像與同時出現的任何模態對齊,自然地使這些模態彼此對齊。熱圖和深度圖等與影像具有強相關性的模態更容易對齊。音頻和 IMU(慣性測量單元)等非視覺的模態則具有較弱的相關性,例如嬰兒哭聲等特定聲音可以搭配各種視覺背景。

ImageBind 表明,影像配對資料足以將這六種模態綁定在一起。這個模型可以更全面地解釋內容,使不同的模態可以相互「對話」,並在沒有同時觀察它們的情況下找到它們之間的聯繫。例如,ImageBind 可以在沒有一起觀察音訊和文字的情況下將二者連結起來。這使得其他模型能夠「理解」新的模態,而不需要任何資源密集的訓練。

ImageBind 強大的 scaling 表現使該模型能夠替代或增強許多人工智慧模型,使它們能夠使用其他模態。例如雖然 Make-A-Scene 可以透過使用文字 prompt 來產生影像,但 ImageBind 可以將其升級為使用音訊產生影像,如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明,ImageBind 的 scaling 行為隨著影像編碼器的強度而提高。換句話說,ImageBind 對齊模態的能力隨著視覺模型的能力和大小而提升。這表明,更大的視覺模型對非視覺任務有利,例如音訊分類,而且訓練這種模型的好處超出了電腦視覺任務的範疇。

在實驗中,Meta 使用了 ImageBind 的音訊和深度編碼器,並將其與先前在 zero-shot 檢索以及音訊和深度分類任務中的工作進行了比較。

用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

#在基準測試上,ImageBind 在音訊和深度方面優於專家模型。

Meta 發現 ImageBind 可以用於少樣本音訊和深度分類任務,並且優於先前客製化的方法。例如,ImageBind 明顯優於 Meta 在 Audioset 上訓練的自我監督 AudioMAE 模型,以及在音訊分類上微調的監督 AudioMAE 模型。

此外,ImageBind 還在跨模態的零樣本辨識任務上取得了新的 SOTA 效能,甚至優於經過訓練以識別該模態概念的最新模型。

以上是用影像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除