搜尋
首頁科技週邊人工智慧深度思考 | 大模型的能力邊界在哪裡?

假如我們有無限的資源,例如有無窮多的數據,無窮大的算力,無窮大的模型,完美的優化演算法與泛化表現,請問由此得到的預訓練模型是否可以用來解決一切問題?

這是大家都非常關心的問題,但已有的機器學習理論卻無法回答。它與表達能力理論無關,因為模型無窮大,表達能力自然無窮大。它與最佳化、泛化理論也無關,因為我們假設演算法的最佳化、泛化表現完美。換句話說,之前理論研究的問題在這裡不存在了!

今天,我要跟大家介紹一下我在ICML'2023發表的論文On the Power of Foundation Models,從範疇論的角度給出一個答案。

範疇論是什麼?

倘若不是數學專業的同學,對範疇論可能比較陌生。範疇論被稱為是數學的數學,為現代數學提供了一套基礎語言。現代幾乎所有的數學領域都是用範疇論的語言描述的,例如代數拓樸、代數幾何、代數圖論等等。範疇論是一門研究結構與關係的學問,它可以看作是集合論的一種自然延伸:在集合論中,一個集合包含了若干個不同的元素;在範疇論中,我們不僅記錄了元素,也記錄了元素與元素之間的關係。

Martin Kuppe曾經畫了一幅數學地圖,把範疇論放到了地圖的頂端,照耀著數學各個領域:

深度思考 | 大模型的能力边界在哪里?

關於範疇論的介紹網路上有很多,我們這裡簡單講幾個基本概念:

深度思考 | 大模型的能力边界在哪里?

#監督學習的範疇論視角

深度思考 | 大模型的能力边界在哪里?

過去十多年,人們圍繞著監督學習框架進行了大量的研究,得到了許多優美的結論。但是,這個框架也限制了人們對AI演算法的認識,讓理解預訓練大模型變得極為困難。例如,現有的泛化理論很難用來解釋模型的跨模態學習能力。

深度思考 | 大模型的能力边界在哪里?

我們能不能透過取樣函子的輸入輸出數據,學到這個函子?

注意到,在這個過程中我們沒有考慮兩個範疇 X,Y 內部的結構。實際上,監督學習並沒有對範疇內部的結構有任何假設,所以可以認為在兩個範疇內部,任何兩個對象之間都沒有關係。因此,我們完全可以把 X 和 Y 看作是兩個集合。這時候,泛化理論著名的no free lunch定理告訴我們,假如沒有額外假設,那麼學好從 X 到 Y 的函子這件事情是不可能的(除非有海量樣本)。

深度思考 | 大模型的能力边界在哪里?

乍看之下,這個新視角毫無用處。給範疇加約束也好,給函子加約束也好,似乎沒什麼本質差異。實際上,新視角更像是傳統框架的閹割版本:它甚至沒有提及監督學習中極為重要的損失函數的概念,也就無法用於分析訓練演算法的收斂或泛化性質。那我們該如何理解這個新視角呢?

我想,範疇論提供了一個鳥瞰視角。它本身不會也不應該取代原有的更具體的監督學習框架,或用來產生更好的監督學習演算法。相反,監督學習框架是它的“子模組”,是解決特定問題時可以採用的工具。因此,範疇論不會在乎損失函數或最佳化過程——這些更像是演算法的實作細節。它更關注範疇與函子的結構,並且嘗試理解某個函子是否可學習。這些問題在傳統監督式學習框架中極為困難,但是在範疇視角下變得簡單。

自我監督學習的範疇論觀點

預訓練任務與範疇

深度思考 | 大模型的能力边界在哪里?

下面我們先明確在預訓練任務下範疇的定義。實際上,倘若我們沒有設計任何預訓練任務,那麼範疇中的對象之間就沒有關係;但是設計了預訓練任務之後,我們就將人類的先驗知識以任務的方式,給範疇注入了結構。 而這些結構就成為了大模型擁有的知識。

具體來說:

深度思考 | 大模型的能力边界在哪里?

換句話說,當我們在一個資料集上定義了預訓練任務之後,我們就定義了一個包含對應關係結構的範疇。預訓練任務的學習目標,就是讓模型把這個範疇學好。具體來說,我們來看看理想模型的概念。

理想模型

深度思考 | 大模型的能力边界在哪里?

在這裡,「資料無關」表示  是在看到資料之前就預先定義的;但下標 f則表示可以透過黑盒呼叫的方式使用f 和  這兩個函數。換句話說,  是一個「簡單」的函數,但可以藉助模型 f 的能力來表示更複雜的關係。這一點可能不太好理解,我們用壓縮演算法來打個比方。壓縮演算法本身可能是資料相關的,例如它可能是針對資料分佈進行了特殊最佳化。然而,作為一個數據無關的函數  ,它無法存取數據分佈,但可以調用壓縮演算法來解壓縮數據,因為「調用壓縮演算法」這一操作是數據無關的。

針對不同的預訓練任務,我們可以定義不同的  

深度思考 | 大模型的能力边界在哪里?

因此,我們可以這麼說:預訓練學習的過程,就是在尋找理想模型f 的過程。

可是,即使  是確定的,根據定義,理想模型也不唯一。理論上說,模型 f 可能具有超級智能,即使在不學習 C 中資料的前提下也能做任何事情。在這種情況下,我們無法對 f 的能力給予有意義的論點。因此,我們應該看看問題的另一面:

給定由預訓練任務定義的範疇 C ,對於任何一個理想的 f ,它能解決哪些任務?

這是我們在本文一開始就想回答的核心問題。我們先介紹一個重要概念。

米田嵌入

深度思考 | 大模型的能力边界在哪里?

深度思考 | 大模型的能力边界在哪里?

#很容易證明,  是能力最弱的理想模型,因為給定其他理想模型f ,   中的所有關係也包含在f 中。同時,它也是沒有其他額外假設前提之下,預訓練模型學習的最終目標。因此,為了回答我們的核心問題,我們以下專門考慮 

提示調優(Prompt tuning): 見多才能識廣

深度思考 | 大模型的能力边界在哪里?

能否解決某個任務 T ?要回答這個問題,我們先介紹範疇論中最重要的一個定理。

米田引理

深度思考 | 大模型的能力边界在哪里?

#即, 可以用這兩個表徵計算出T(X) 。然而,注意到任務提示P 必須透過  而非  發送,這表示我們會得到 (P) 而非T 作為  的輸入。這引出了範疇論中另一個重要的定義。

深度思考 | 大模型的能力边界在哪里?

基於這個定義,我們可以得到以下定理(證明略去)。

定理1與推論

深度思考 | 大模型的能力边界在哪里?

#值得一提的是,有些提示調優演算法的提示不一定是在範疇C 中的對象,可能是特徵空間中的表徵。這種方法有可能支援比可表任務更複雜的任務,但增強效果取決於特徵空間的表達能力。下面我們提供定理1的一個簡單推論。

推論1. 對於預測影像旋轉角度的預訓練任務[4],提示調優無法解決分割或分類等複雜的下游任務。

證明:預測影像旋轉角度的預訓練任務會將給定影像旋轉四個不同的角度:0°, 90°, 180°, 和 270°,並讓模型進行預測。因此,這個預訓練任務定義的範疇將每個物件放入一個包含4個元素的群組中。顯然,像分割或分類這樣的任務不能由這樣簡單的物件表出。

推論1有點反直覺,因為原文提到[4],使用此方法得到的模型可以部分解決分類或分割等下游任務。然而,在我們的定義中,解決任務意味著模型應該為每個輸入產生正確的輸出,因此部分正確並不被視為成功。這也與我們文章開頭提到的問題相符:在無限資源的支援下,預測影像旋轉角度的預訓練任務能否用於解決複雜的下游任務?推論1給了否定的答案。

微調(Fine tuning): 表徵不遺失訊息

提示調優的能力有限,那麼微調演算法呢?基於米田函子擴展定理(參見 [5]中的命題2.7.1),我們可以得到以下定理。

深度思考 | 大模型的能力边界在哪里?

定理2考慮的下游任務是基於 C 的結構,而不是資料集中的資料內容。因此,先前提到的預測旋轉圖片角度的預訓練任務定義的範疇仍然具有非常簡單的群體結構。但是根據定理2,我們可以用它來解決更多樣化的任務。例如,我們可以將所有物件映射到同一個輸出,這是無法透過提示調優來實現的。定理2明確了預訓練任務的重要性,因為更好的預訓練任務將創造出更強大的範疇 C ,從而進一步提高了模型的微調潛力。

對於定理2有兩個常見的誤解。首先,即使範疇C 包含了大量信息,定理2只提供了一個粗糙的上界,說  記錄了C 中所有的信息,有潛力解決任何任務,而沒有說任何微調算法都可以達到這個目的。其次,定理2乍看像是過參數化理論。然而,它們分析的是自監督學習的不同步驟。過參數化分析的是預訓練步驟,說的是在某些假設下,只要模型夠大且學習率夠小,對於預訓練任務,最佳化和泛化誤差就會非常小。而定理2分析的則是預訓練後的微調步驟,說該步驟有很大潛力。

討論與總結

監督學習與自監督學習。從機器學習的角度來看,自監督學習仍然是一種監督學習,只是獲取標籤的方式更巧妙一些而已。但從範疇論的角度來看,自監督學習定義了範疇內部的結構,而監督學習定義了範疇之間的關係。因此,它們處於人工智慧地圖的不同板塊,正在做完全不一樣的事情。

深度思考 | 大模型的能力边界在哪里?

適用場景。由於本文開頭考慮了無限資源的假設,導致許多朋友可能會認為,這些理論只有在虛空之中才會真正成立。其實並非如此。在我們真正的推導過程中,我們只是考慮了理想模型與  這個預先定義的函數。實際上,只要  確定了之後,任何一個預訓練模型f (即使是在隨機初始化階段)都可以針對輸入XC 計算出f(X) ,從而使用  計算出兩個對象的關係。換句話說,只要當  確定之後,每個預訓練模型都對應於一個範疇,而預訓練的目標不過是將這個範疇不斷與由預訓練任務定義的範疇對齊而已。因此,我們的理論針對每一個預訓練模型都成立。

核心公式。很多人說,如果AI真有一套理論支撐,那麼它背後應該有一個或幾個簡潔優美的公式。我想,如果需要用一個範疇論的公式來描繪大模型能力的話,它應該就是我們之前提到的:

深度思考 | 大模型的能力边界在哪里?

對於大模型比較熟悉的朋友,在深入理解這個公式的意義之後,可能會覺得這個式子在說廢話,不過是把現在大模型的工作模式用比較複雜的數學式子寫出來了而已。

但事實並非如此。現代科學是基於數學,現代數學是基於範疇論,而範疇論中最重要的定理就是米田引理。我寫的這個式子將米田引理的同構式拆開變成了不對稱的版本,卻正好和大模型的開啟方式完全一致。

我認為這一定不是巧合。如果範疇論可以照耀現代數學的各個分支,它也一定可以照亮通用人工智慧的前進之路。

本文靈感源自於與北京智源人工智慧研究院千方團隊的長期緊密合作。

深度思考 | 大模型的能力边界在哪里?

原文連結:https://mp.weixin.qq.com/s/bKf3JADjAveeJDjFzcDbkw

以上是深度思考 | 大模型的能力邊界在哪裡?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器