連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 06:58 PM

微軟模型

大模型的捲，已經不睡覺都趕不上進度了......

這不，微軟亞研院剛發布了一個多模態大型語言模型（MLLM）— KOSMOS-1。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#論文網址：https://arxiv.org/pdf/2302.14045.pdf

論文題目Language Is Not All You Need，還得源自於一句名言。

文中有這麼一句話，「我語言的限制，就是我世界的限制。—奧地利哲學家Ludwig Wittgenstein」

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

那麼問題來了...

##拿著圖問KOSMOS-1「是鴨還是兔子」能搞清楚嗎？這張有100多年歷史的梗圖硬是把GoogleAI整不會了。

#1899年，美國心理學家Joseph Jastrow首次使用《鴨兔圖》來表明感知不僅是人們所看到的，而且是一種心理活動。

現在，KOSMOS-1可將這種知覺和語言模型結合。

-圖中是什麼？

-像鴨子。

-如果不是鴨子，那是什麼？

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

-看起來比較像兔子。

-為什麼？

-它有兔子的耳朵。

這麼一問，KOSMOS-1真有點像微軟版的ChatGPT了。

#不僅如此，Kosmos-1還能理解圖像、文字、帶有文字的圖像、OCR、圖像說明、視覺QA。

連IQ測驗也不在話下。

###「宇宙」無所不能############Kosmos來源希臘一詞cosmos，有「宇宙」之意。 ##################根據論文介紹，最新Kosmos-1模型為多模態大型語言模型。 ##################其主幹是基於Transformer的因果語言模型，除了文字之外，其他模態，如視覺、音訊都可以嵌入模型。 ##################Transformer解碼器用作多模態輸入的通用接口，因此它能感知一般模態，進行上下文學習，並遵循指令。 ##########

Kosmos-1在語言和多模態任務上取得了令人印象深刻的表現，無需進行微調，其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。

如下Kosmos-1產生一些範例式。

圖片解釋、圖片問答、網頁問題回答，簡單數字公式，以及數字辨識。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

那麼，Kosmos-1是在哪些資料集上進行預訓練的呢？

訓練所使用的資料庫，包括文字語料庫、圖像-字幕對、圖像和文字交叉資料集。

文字語料庫取自The Pile和Common Crawl（CC）；

圖片-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions；

文本交叉資料集的來源是Common Crawl snapshot 。

資料庫有了，接下來就是對模型進行預訓練了。

MLLM元件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭，產生了大約1.3B的參數。

為了確保優化的穩定性，採用Magneto初始化；為了更快地收斂，影像表示是從一個預先訓練好的具有1024個特徵維度的CLIP ViT-L/14模型取得的。在訓練過程中，影像被預處理成224×224分辨率，CLIP模型的參數除了最後一層被凍結。

KOSMOS-1的參數總量約為16億。

為了讓KOSMOS-1更能與指令保持一致，對其進行了只用語言的指令調整[LHV 23, HSLS22]，即用指令數據繼續訓練模型，該指令數據是僅有的語言數據，與訓練語料庫混合。

該調優過程是按照語言建模的方式進行的，選取的指令資料集為Unnatural Instructions [HSLS22]和FLANv2 [LHV 23]。

結果顯示，指令跟隨能力的提升可以跨模式轉移。

總之，MLLM可以從跨模態遷移中獲益，將知識從語言遷移到多模態，反之亦然；

5大類10個任務，都拿捏了

一個模型好不好使，拿出來溜溜就知道了。

研究團隊從多角度進行實驗來評估KOSMOS-1的效能，包含5大類十項任務：

1 語言任務（語言理解、語言生成、無OCR的文本分類）

#2 多模態轉移（常識推理）

3 非語言推理（IQ測驗）

##4 感知-語言任務（圖像說明、視覺問答、網頁問答）#

5 視覺任務（零樣本圖像分類、帶有描述的零樣本圖像分類）

#無OCR的文字分類

這是一種不依賴光學字元辨識（OCR）的專注於文字和影像的理解任務。

KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率都高於優於其他模型。

且Flamingo明確提供OCR文字到提示中，KOSMOS-1並沒有存取任何外部工具或資源，這展示了KOSMOS-1閱讀和理解渲染的圖像中的文字的內在能力。

IQ測驗

#瑞文智力測驗是評估非語言的最常用測試之一。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#KOSMOS-1在沒有微調時準確率比隨機選擇提高了5.3% ，經過微調後則提高了9.3%，顯示其具有感知非語言環境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本Raven測試，證明了MLLMs透過將感知與語言模型結合起來進行零樣本非言語推理的潛力。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#圖片說明

KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現優秀，相比其他模型，其得分更高，但採用的參數量更小。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#在少樣本表現測試中，分數隨著k值增加。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#零樣本影像分類

給定一個輸入影像，並將該影像與提示「The photo of the」連接起來。然後，輸入模型以獲得圖像的類別名稱。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#透過在ImageNet[DDS 09]上評估模型，在有約束和無在約束的條件下，KOSMOS-1的影像歸類效果都明顯優於GIT[WYH 22]，展現了完成視覺任務的強大能力。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#常識推理

視覺常識推理任務要求模型理解現實世界中日常物體的屬性，如顏色、大小和形狀，這些任務是具有挑戰性的，因為它們可能需要比文本中更多的關於物體屬性的資訊。

結果顯示，KOSMOS-1在尺寸和色彩上的推理能力都明顯優於LLM模型。這主要是因為KOSMOS-1具備多模態遷移能力，從而能夠將視覺知識運用到語言任務中，而不必像LLM那樣必須依靠文本知識和線索來推理。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

#對微軟Kosmos-1，網友稱讚道，未來5年，我可以看到一個高級機器人瀏覽網絡，並僅通過視覺方式基於人類的文本輸入來工作。真是有趣的時代。

連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數

以上是連百年梗圖都整明白了！微軟多模態「宇宙」搞定IQ測試，僅16億參數的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc