搜尋
首頁科技週邊人工智慧李開復參與的零一萬物發布世界一流的多模態大模型開源

領先中英文兩大權威榜單,李開復零一萬物交出多模態大模型答案卷!

距離其首款開源大模型Yi-34B和Yi-6B的發布,僅間隔不到三個月的時間。

李開復參與的零一萬物發布世界一流的多模態大模型開源

模型名為Yi Vision Language(Yi-VL),現已正式面向全球開源。

同屬Yi系列,同樣有兩個版本:

Yi-VL-34B和Yi-VL-6B

先來看兩個例子,感受一波Yi-VL在圖文對話等多元場景中的表現:

李開復參與的零一萬物發布世界一流的多模態大模型開源

Yi-VL對整幅圖做了詳細分析,不僅說明了指示牌上的內容,甚至連「天花板」都有照顧到。

中文方面,Yi-VL也能清晰有條理地準確表達:

李開復參與的零一萬物發布世界一流的多模態大模型開源

此外,官方也給出了測試結果。

Yi-VL-34B在英文資料集MMMU上準確率41.6%,僅次於準確率55.7%的GPT-4V,超越一系列多模態大模型。

而在中文資料集CMMMU上,Yi-VL-34B準確率36.5%,領先目前最前沿的開源多模態模型。

李開復參與的零一萬物發布世界一流的多模態大模型開源

Yi-VL長啥樣?

Yi-VL基於Yi語言模型研發,可以看到基於Yi語言模型的強大文字理解能力,只需對圖片進行對齊,就可以獲得不錯的多模態視覺語言模型——這也是Yi-VL模型的核心亮點之一。

架構設計上,Yi-VL模型基於開源LLaVA架構,包含三個主要模組:

  • Vision Transformer(簡稱ViT) 用於圖像編碼,使用開源的OpenClip ViT-H/14模型初始化可訓練參數,透過學習從大規模」圖像-文字」對中提取特徵,使模型具備處理和理解圖像的能力。
  • Projection模組為模型帶來了圖像特徵與文字特徵空間對齊的能力。此模組由一個包含層歸一化(layer normalizations)的多層感知機(Multilayer Perceptron,簡稱MLP)構成。這項設計使得模型可以更有效地整合和處理視覺和文字訊息,提高了多模態理解和產生的準確度。
  • Yi-34B-Chat和Yi-​​6B-Chat大語言模型的引入為 Yi-VL 提供了強大的語言理解和生成能力。這部分模型借助先進的自然語言處理技術,能夠幫助Yi-VL深入理解複雜的語言結構,並產生連貫、相關的文本輸出。
李開復參與的零一萬物發布世界一流的多模態大模型開源

△圖說:Yi-VL模型架構設計與訓練方法流程一覽

訓練方法上,Yi -VL模型的訓練過程分為三個階段,旨在全面提升模型的視覺和語言處理能力。

第一階段,使用1億張的「圖像-文字」配對資料集訓練ViT和Projection模組。

在這一階段,影像解析度被設定為224x224,以增強ViT在特定架構中的知識獲取能力,同時實現與大型語言模型的高效對齊。

第二階段,將ViT的影像解析度提升至448x448,讓模型更擅長辨識複雜的視覺細節。此階段使用了約2500萬“圖像-文字”對。

第三階段,開放整個模型的參數進行訓練,目標是提高模型在多模態聊天互動中的表現。訓練資料涵蓋了多樣化的資料來源,共約100萬「圖像-文字」對,確保了資料的廣泛性和平衡性。

零一萬物技術團隊同時也驗證了可以基於Yi語言模型強大的語言理解和生成能力,用其他多模態訓練方法比如BLIP、Flamingo、EVA等快速訓練出能夠進行高效圖像理解和流暢圖文對話的多模態圖文模型。

Yi系列模型可以作為多模態模型的基座語言模型,為開源社群提供一個新的選項。同時,零一萬物多模態團隊正在探索從頭開始進行多模態預訓練,更快接近、超過GPT-4V,達到世界第一梯隊水準。

目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公眾開放,用戶可親身體驗這款模型在圖文對話等多元場景中的表現。

超越一系列多模態大模型

在全新多模態基準測試MMMU中,Yi-VL-34B、Yi-VL-6B兩個版本均有不俗表現。

MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模態理解與推理)資料集包含了11500個來自六大核心學科(藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程)的問題,涉及高度異質圖像類型和交織文本圖像信息,對模型的高級知覺和推理能力提出了極高要求。

李開復參與的零一萬物發布世界一流的多模態大模型開源

而Yi-VL-34B在該測試集上以41.6%的準確率,成功超越了一系列多模態大模型,僅次於GPT-4V (55.7%),展現出強大的跨學科知識理解和應用能力。

李開復參與的零一萬物發布世界一流的多模態大模型開源

同樣,在針對中文場景打造的CMMMU資料集上,Yi-VL模型展現了「更懂中國人」的獨特優勢。

CMMMU包含了約12,000道源自大學考試、測驗和教科書的中文多模態問題。

李開復參與的零一萬物發布世界一流的多模態大模型開源

其中,GPT-4V在該測試集上的準確率為43.7%, Yi-VL-34B以36.5%的準確率緊隨其後,領先於目前最前沿的開源多模態模型。

李開復參與的零一萬物發布世界一流的多模態大模型開源

專案位址:
[1]https://huggingface.co/01-ai

[2] https://www.modelscope.cn/organization/01ai

#

以上是李開復參與的零一萬物發布世界一流的多模態大模型開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境