領先中英文兩大權威榜單,李開復零一萬物交出多模態大模型答案卷!
距離其首款開源大模型Yi-34B和Yi-6B的發布,僅間隔不到三個月的時間。
模型名為Yi Vision Language(Yi-VL),現已正式面向全球開源。
同屬Yi系列,同樣有兩個版本:
Yi-VL-34B和Yi-VL-6B。
先來看兩個例子,感受一波Yi-VL在圖文對話等多元場景中的表現:
Yi-VL對整幅圖做了詳細分析,不僅說明了指示牌上的內容,甚至連「天花板」都有照顧到。
中文方面,Yi-VL也能清晰有條理地準確表達:
此外,官方也給出了測試結果。
Yi-VL-34B在英文資料集MMMU上準確率41.6%,僅次於準確率55.7%的GPT-4V,超越一系列多模態大模型。
而在中文資料集CMMMU上,Yi-VL-34B準確率36.5%,領先目前最前沿的開源多模態模型。
Yi-VL基於Yi語言模型研發,可以看到基於Yi語言模型的強大文字理解能力,只需對圖片進行對齊,就可以獲得不錯的多模態視覺語言模型——這也是Yi-VL模型的核心亮點之一。
在架構設計上,Yi-VL模型基於開源LLaVA架構,包含三個主要模組:
△圖說:Yi-VL模型架構設計與訓練方法流程一覽
在訓練方法上,Yi -VL模型的訓練過程分為三個階段,旨在全面提升模型的視覺和語言處理能力。
第一階段,使用1億張的「圖像-文字」配對資料集訓練ViT和Projection模組。
在這一階段,影像解析度被設定為224x224,以增強ViT在特定架構中的知識獲取能力,同時實現與大型語言模型的高效對齊。
第二階段,將ViT的影像解析度提升至448x448,讓模型更擅長辨識複雜的視覺細節。此階段使用了約2500萬“圖像-文字”對。
第三階段,開放整個模型的參數進行訓練,目標是提高模型在多模態聊天互動中的表現。訓練資料涵蓋了多樣化的資料來源,共約100萬「圖像-文字」對,確保了資料的廣泛性和平衡性。
零一萬物技術團隊同時也驗證了可以基於Yi語言模型強大的語言理解和生成能力,用其他多模態訓練方法比如BLIP、Flamingo、EVA等快速訓練出能夠進行高效圖像理解和流暢圖文對話的多模態圖文模型。
Yi系列模型可以作為多模態模型的基座語言模型,為開源社群提供一個新的選項。同時,零一萬物多模態團隊正在探索從頭開始進行多模態預訓練,更快接近、超過GPT-4V,達到世界第一梯隊水準。
目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公眾開放,用戶可親身體驗這款模型在圖文對話等多元場景中的表現。
在全新多模態基準測試MMMU中,Yi-VL-34B、Yi-VL-6B兩個版本均有不俗表現。
MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模態理解與推理)資料集包含了11500個來自六大核心學科(藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程)的問題,涉及高度異質圖像類型和交織文本圖像信息,對模型的高級知覺和推理能力提出了極高要求。
而Yi-VL-34B在該測試集上以41.6%的準確率,成功超越了一系列多模態大模型,僅次於GPT-4V (55.7%),展現出強大的跨學科知識理解和應用能力。
同樣,在針對中文場景打造的CMMMU資料集上,Yi-VL模型展現了「更懂中國人」的獨特優勢。
CMMMU包含了約12,000道源自大學考試、測驗和教科書的中文多模態問題。
其中,GPT-4V在該測試集上的準確率為43.7%, Yi-VL-34B以36.5%的準確率緊隨其後,領先於目前最前沿的開源多模態模型。
專案位址:
[1]https://huggingface.co/01-ai
[2] https://www.modelscope.cn/organization/01ai
以上是李開復參與的零一萬物發布世界一流的多模態大模型開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!