近年來自然語言處理的進展很大程度上都來自於大規模語言模型,每次發布的新模型都將參數量、訓練資料量推向新高,同時也會對現有基準排行進行一次屠榜!
例如今年4月,Google發布5400億參數的語言模型PaLM(Pathways Language Model)在語言和推理類別的一系列評估中成功超越人類,尤其是在few-shot小樣本學習場景下的優異性能,也讓PaLM被認為是下一代語言模型的發展方向。
同理,視覺語言模型其實也是大力出奇蹟 ,可以透過提升模型的規模來提升效能。
當然了,如果只是多任務的視覺語言模型,顯然還不是很通用,還得支援多種語言的輸入輸出才行。
最近Google就將PaLM擴展升級成PALI(Pathways Language and Image model),兼具多語言和圖像理解的能力,同時支援100 種語言來執行各種橫跨視覺、語言和多模態影像和語言應用,如視覺問題回答、影像說明(image caption)、物件偵測、影像分類、OCR、文本推理等。
論文連結:https://arxiv.org/abs/2209.06794
#模型的訓練使用的是一個公開的圖像集合,其中包括自動爬取的109種語言的標註,文中也稱之為WebLI資料集。
在WebLI上預先訓練的PaLI模型在多個影像和語言基準上取得了最先進的效能,如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等,也超越了先前模型的多語言視覺描述(multilingual visual captioning)和視覺問答的基準。
模型架構
PALI的目標之一是研究語言和視覺模型在效能和規模上的聯繫是否相同,特別是語言-圖像模型的可擴展性(scalability)。
所以模型的架構設計上就很簡單,主要是為了實驗方便,尤其是可重複使用且可擴充。
模型由一個處理輸入文字的Transformer編碼器和一個產生輸出文字的自回歸Transformer解碼器組成。
在處理影像時,Transformer編碼器的輸入還包括代表由ViT處理的影像的視覺字詞(visual words)。
PaLI模型的一個關鍵設計是重用,研究人員用先前訓練過的單模態視覺和語言模型(如mT5-XXL和大型ViTs)的權重作為模型的種子,這種重用不僅使單模態訓練的能力遷移,還能節省計算成本。
模型的視覺組件使用的是迄今為止最大的ViT架構ViT-e,它與18億參數的ViT-G模型具有相同的結構,並使用相同的訓練參數,差異就是擴充為了40億參數。
雖然在視覺領域和語言領域都對縮放規律進行了研究,但在視覺和語言的組合模型中對縮放行為的探討較少,擴大視覺骨幹模型的規模可能會導致在分類任務中的收益飽和。
研究人員也進一步證實了這一點,可以觀察到 ViT-e在ImageNet上只比ViT-G好一點,但ViT-e在PaLI的視覺語言任務上有很大的改進。例如,ViT-e在COCO字幕任務上比ViT-G多出近3個CIDEr點。任務上比ViT-G多出3分。這也暗示了未來在視覺語言任務中使用更大的ViT骨架模型的空間。
研究人員採用mT5骨幹作為語言建模元件,使用預訓練的mT5-Large(10億參數)和mT5-XXL (130億參數)來初始化PaLI的語言編碼器-解碼器,然後在許多語言任務中進行繼續混合訓練,包括純語言理解任務,這也有助於避免災難性的遺忘mT5的語言理解和生成能力。
最後得到了三個不同尺寸的PALI模型。
109種語言的資料集
#深度學習相關的擴展研究表明,模型越大,所需的訓練數據集也越大。
所以為了全面研究和釋放語言-圖像預訓練模型的潛力,研究人員從互聯網上爬取了大量的圖像和文本數據,構建了一個全新的數據集WebLI ,其中包括109種語言的120億alt-texts和100億張圖片。
除了以網路文字標註外,研究人員也應用雲端視覺API對影像進行OCR識別,進而得到290億個影像-OCR的數據對。
使用near-duplication對68個常見的視覺和視覺語言資料集的訓練、驗證和測試部分的圖像進行了去重處理,以避免下游評估任務的資料外洩。
為了進一步提高資料質量,研究人員也會根據「影像和alt-text」的跨模態相似度進行評分,並調整閾值,最後只保留10%的圖像,總共有10億張圖像用於訓練PaLI
#訓練大模型
由於視覺-語言任務是多模態,所以需要模型具有多種語意處理能力,而且會有不同的目標。例如有些任務需要對物體進行局部定位以準確解決任務,而其他一些任務可能需要更多的全域語意資訊。
同樣地,有的語言任務可能需要長的答案,而有些則需要緊湊的答案。
為了解決所有這些不一致的目標,研究人員利用WebLI預訓練資料的豐富性,引入預訓練任務的混合(Pretraining Task Mixture),為各種下游應用準備模型。
為了讓模型更通用以解決多種任務,作者將所有的任務歸入單一的通用API(輸入:圖像文字;輸出:文字),使多個圖像和語言任務之間能夠進行知識共享,這也是與預訓練設定的共享。
用於預訓練的目標作為加權的混合被投影到同一個API中,目的是既保持重複使用的模型組件的能力,又能訓練模型執行新的任務。
模型使用開源的T5X和Flaxformer框架在JAX中用Flax進行訓練,視覺部分的ViT-e使用開源的BigVision框架,將語言部分的詞向量與視覺部分生成的patch向量級聯起來,共同作為多模態編碼器-解碼器的輸入,編碼器使用mT5-XXL預訓練初始化。在PaLI的訓練過程中,視覺組件的權重被凍結,只更新多模態編碼器-解碼器的權重。
在實驗部分,研究人員在常見的視覺語言基準上對PaLI進行了比較,且PaLI模型在這些任務上取得了最先進的結果,甚至超過了以往文獻中提出的超大型的模型。
例如170億參數的PALI在某些VQA和圖像標題任務上的表現優於800億參數的Flamingo模型。
並且PALI在單語言或單一視覺的任務上也保持了良好的表現,雖然這並非是PALI主要的訓練目標。
文中也研究了圖像和語言模型組件在模型擴展方面是如何相互作用的,以及模型在哪裡產生最大的收益。
最後得出的結論是,對這兩個組件進行聯合擴展(縮放)會產生最好的性能,具體來說,對需要相對較少參數的視覺組件進行縮放是最關鍵的,同時縮放對於提高多語言任務的效能也很重要。
在35種語言的基準Crossmodal-3600上評估了PaLI後可以發現多語言起標題任務從PaLI模型的擴展中受益更多。
為了避免在大型語言和圖像模型中產生或加強不公平的偏見,需要對所使用的數據和模型如何使用這些數據保持透明,以及測試模型的公平性並進行負責任的資料分析,所以文中同時提供了一個Data Card和Model Card
以上是順手訓了一個史上超大ViT? Google升級視覺語言模型PaLI:支援100+種語言的詳細內容。更多資訊請關注PHP中文網其他相關文章!

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

大型語言模型(LLM)路由:通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

記事本++7.3.1
好用且免費的程式碼編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版
好用的JavaScript開發工具