搜尋
首頁科技週邊人工智慧連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

大模型的捲,已經不睡覺都趕不上進度了......

這不,微軟亞研院剛發布了一個多模態大型語言模型(MLLM)— KOSMOS-1。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#論文網址:https://arxiv.org/pdf/2302.14045.pdf

論文題目Language Is Not All You Need,還得源自於一句名言。

文中有這麼一句話,「我語言的限制,就是我世界的限制。—奧地利哲學家Ludwig Wittgenstein」

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

那麼問題來了...

##拿著圖問KOSMOS-1「是鴨還是兔子」能搞清楚嗎?這張有100多年歷史的梗圖硬是把GoogleAI整不會了。

#1899年,美國心理學家Joseph Jastrow首次使用《鴨兔圖》來表明感知不僅是人們所看到的,而且是一種心理活動。

現在,KOSMOS-1可將這種知覺和語言模型結合。

-圖中是什麼?

-像鴨子。

-如果不是鴨子,那是什麼?

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

-看起來比較像兔子。

-為什麼?

-它有兔子的耳朵。

這麼一問,KOSMOS-1真有點像微軟版的ChatGPT了。

#不僅如此,Kosmos-1還能理解圖像、文字、帶有文字的圖像、OCR、圖像說明、視覺QA。

連IQ測驗也不在話下。

###「宇宙」無所不能############Kosmos來源希臘一詞cosmos,有「宇宙」之意。 ##################根據論文介紹,最新Kosmos-1模型為多模態大型語言模型。 ##################其主幹是基於Transformer的因果語言模型,除了文字之外,其他模態,如視覺、音訊都可以嵌入模型。 ##################Transformer解碼器用作多模態輸入的通用接口,因此它能感知一般模態,進行上下文學習,並遵循指令。 ##########

Kosmos-1在語言和多模態任務上取得了令人印象深刻的表現,無需進行微調,其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。

如下Kosmos-1產生一些範例式。

圖片解釋、圖片問答、網頁問題回答,簡單數字公式,以及數字辨識。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

那麼,Kosmos-1是在哪些資料集上進行預訓練的呢?

訓練所使用的資料庫,包括文字語料庫、圖像-字幕對、圖像和文字交叉資料集。

文字語料庫取自The Pile和Common Crawl(CC);

圖片-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;

文本交叉資料集的來源是Common Crawl snapshot 。

資料庫有了,接下來就是對模型進行預訓練了。

MLLM元件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭,產生了大約1.3B的參數。

為了確保優化的穩定性,採用Magneto初始化;為了更快地收斂,影像表示是從一個預先訓練好的具有1024個特徵維度的CLIP ViT-L/14模型取得的。在訓練過程中,影像被預處理成224×224分辨率,CLIP模型的參數除了最後一層被凍結。

KOSMOS-1的參數總量約為16億。

為了讓KOSMOS-1更能與指令保持一致,對其進行了只用語言的指令調整[LHV 23, HSLS22],即用指令數據繼續訓練模型,該指令數據是僅有的語言數據,與訓練語料庫混合。

該調優過程是按照語言建模的方式進行的,選取的指令資料集為Unnatural Instructions [HSLS22]和FLANv2 [LHV 23]。

結果顯示,指令跟隨能力的提升可以跨模式轉移。

總之,MLLM可以從跨模態遷移中獲益,將知識從語言遷移到多模態,反之亦然;

5大類10個任務,都拿捏了

一個模型好不好使,拿出來溜溜就知道了。

研究團隊從多角度進行實驗來評估KOSMOS-1的效能,包含5大類十項任務:

1 語言任務(語言理解、語言生成、無OCR的文本分類)

#2 多模態轉移(常識推理)

3 非語言推理(IQ測驗)

##4 感知-語言任務(圖像說明、視覺問答、網頁問答)#

5 視覺任務(零樣本圖像分類、帶有描述的零樣本圖像分類)

#無OCR的文字分類

這是一種不依賴光學字元辨識(OCR)的專注於文字和影像的理解任務。

KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率都高於優於其他模型。

且Flamingo明確提供OCR文字到提示中,KOSMOS-1並沒有存取任何外部工具或資源,這展示了KOSMOS-1閱讀和理解渲染的圖像中的文字的內在能力。

IQ測驗

#瑞文智力測驗是評估非語言的最常用測試之一。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#KOSMOS-1在沒有微調時準確率比隨機選擇提高了5.3% ,經過微調後則提高了9.3%,顯示其具有感知非語言環境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本Raven測試,證明了MLLMs透過將感知與語言模型結合起來進行零樣本非言語推理的潛力。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#圖片說明

KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現優秀,相比其他模型,其得分更高,但採用的參數量更小。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#在少樣本表現測試中,分數隨著k值增加。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#零樣本影像分類

給定一個輸入影像,並將該影像與提示「The photo of the」連接起來。然後,輸入模型以獲得圖像的類別名稱。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#透過在ImageNet[DDS 09]上評估模型,在有約束和無在約束的條件下,KOSMOS-1的影像歸類效果都明顯優於GIT[WYH 22],展現了完成視覺任務的強大能力。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#常識推理

視覺常識推理任務要求模型理解現實世界中日常物體的屬性,如顏色、大小和形狀,這些任務是具有挑戰性的,因為它們可能需要比文本中更多的關於物體屬性的資訊。

結果顯示,KOSMOS-1在尺寸和色彩上的推理能力都明顯優於LLM模型。這主要是因為KOSMOS-1具備多模態遷移能力,從而能夠將視覺知識運用到語言任務中,而不必像LLM那樣必須依靠文本知識和線索來推理。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數


#對微軟Kosmos-1,網友稱讚道,未來5年,我可以看到一個高級機器人瀏覽網絡,並僅通過視覺方式基於人類的文本輸入來工作。真是有趣的時代。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#

以上是連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。