HuggingFace是最熱門的機器學習開源社區,擁有30萬個不同的機器學習模型和10萬個可用的應用程式。
如果HuggingFace上這30萬個模型,可以自由組合,共同完成新的學習任務,那會是什麼樣的畫面?
其實在HuggingFace問世的2016年,南京大學週志華教授就提出了「學件」(Learnware)概念,描繪了這樣的藍圖。
最近,南京大學週志華教授團隊推出了一個這樣的平台-北冥塢。
網址:https://bmwu.cloud/
#北冥塢不僅提供給科研人員和使用者上傳自己的模型,還能依使用者需求進行模式配對與協作融合,以有效率處理學習任務。
論文地址:https://arxiv.org/abs/2401.14427
北冥塢系統倉庫:https://www.gitlink.org.cn/beimingwu/beimingwu
科學研究工具包倉庫:https://www.gitlink.org.cn/beimingwu/learnware
這個平台最大的特點就是引入了學件(Learnware)系統,從而突破性地實現了針對使用者需求的模型自適應匹配與協作能力。
學件由機器學習模型和描述模型的規約構成,即「學件 = 模型 規約」。
學件的規約由「語意規約」和「統計規約」兩部分組成:
- 語意規約透過文本對模型的類型及功能進行描述;
- 統計規則則透過各類機器學習技術,刻畫模型所蘊含的統計資料。
學件的規約刻畫了模型的能力,使得模型能夠在未來用戶事先對學件一無所知的情況下被充分識別並復用,以滿足用戶需求。
規約是學件基座系統的核心元件,串連了系統中關於學件的全部流程,包括學件上傳、組織、查搜、部署與復用。
就像《天龍八部》中的燕子塢由許多小島組成一樣,北冥塢中的規約也像一個個的小島。
來自不同特徵/標記空間的學件,構成眾多的規約島嶼,所有規約島嶼共同構成學件基座系統中的規約世界。在規約世界中,如果能夠發現並建立不同島嶼之間的聯繫,那麼相對應的規約島嶼將可以進行合併。
在學件範式下,世界各地的開發者可分享模型至學件基座系統,系統透過有效查搜和復用學件幫助使用者高效解決機器學習任務,而無需從零開始建立機器學習模型。
北冥塢是學件的第一個系統性開源實現,為學件相關研究提供了初步科研平台。
有分享意願的開發者可自由提交模型,學件塢協助產生規約形成學件存放在學件塢中,開發者在這個過程中無需向學件塢洩漏自己的訓練資料。
未來的使用者可以透過向學件塢提交需求,在學件塢協助下查搜復用學件來完成自己的機器學習任務,且使用者可以不向學件塢洩漏自有資料。
而且以後,在學件塢擁有數以百萬計的學件後,將可能出現「湧現」行為:以往沒有專門開發過模型的機器學習任務,可能透過複用若干個現有學件而解決。
學件基座系統
機器學習在許多領域取得了巨大成功,但依然面臨著諸多問題,例如需要大量的訓練資料和高超的訓練技巧、持續學習的困難、災難性遺忘的風險以及資料隱私/所有權的洩漏等。
雖然上述每一個問題都有相應的研究,但由於問題之間是相互耦合的,在解決其中一個問題時,可能會導致其他問題變得更加嚴重。
學件基座系統期望透過一個整體框架,同時解決上述諸多問題:
- 缺乏訓練資料/技能:即使對於缺乏訓練技能或資料量較小的普通用戶,也可以獲得強大的機器學習模型,因為用戶可以從學件基座系統中獲取性能優良的學件,並進一步調整或改進,而不是自己從頭開始構建模型。
- 持續學習:隨著在各種不同任務上訓練得到的、性能優良的學件被不斷提交,學件基座系統中的知識將不斷豐富,進而自然地實現持續和終身學習。
- 災難性遺忘:一旦學件被接收,它將永遠被容納在學件基座系統中,除非其各方面功能都可以被其他學件所替代。因此,學件基座系統中的舊知識總是會被保留,而不會被遺忘。
- 資料隱私/所有權:開發者只提交模型而不共享私有數據,因此資料隱私/所有權可以得到很好的保護。儘管無法完全排除對模型進行逆向工程的可能性,但與許多其它隱私保護方案相比,學件基座系統洩漏隱私的風險非常小。
學件基座系統的組成
如下圖所示,系統工作流程分為以下兩個階段:
- 提交階段:開發者自發性地提交各式各樣的學件到學件基座系統,而係統會對這些學件進行品質檢查和進一步的組織。
- 部署階段:當使用者提交任務需求後,學件基座系統會根據學件規約推薦對使用者任務有幫助的學件並指導使用者進行部署和重複使用。
規約世界
#規約是學件基座系統的核心元件,串連了系統中關於學件的全部流程,包括學件上傳、組織、查搜、部署與重複使用。
來自不同特徵/標記空間的學件,構成眾多的規約島嶼,所有規約島嶼共同構成學件基座系統中的規約世界。在規約世界中,如果能夠發現並建立不同島嶼之間的聯繫,那麼相對應的規約島嶼將可以進行合併。
學件基座系統在查搜時,首先透過使用者需求中的語意規約定位到具體的規約島嶼,再透過使用者需求中的統計規約對規約島上的學件進行精確識別。不同的規約島嶼合併,則意味著相應的學件可以被用於不同特徵/標記空間的任務上,即可以復用至超出其原始目的的任務中。
學件範式透過充分利用社群分享的機器學習模型的能力,建構統一的規約空間,以統一的方式高效地為新用戶解決機器學習任務。隨著學件數量增多,透過有效地組織學件結構,學件基座系統整體解決任務的能力將顯著增強。
北冥塢的架構
如下圖所示,北冥塢的系統架構包含四個層次,從學件儲存層至使用者互動層,首次自底向上系統性地實現了學件範式。四個層次的具體功能如下:
- 學件儲存層:管理以zip套件格式儲存的學件,並透過學件資料庫提供相關資訊的取得方式;
- 系統引擎層:囊括了學件範式中的所有流程,包括學件上傳、檢測、組織、查搜、部署和復用,並以learnware Python包的形式獨立於後端和前端運行,為學件相關任務和科研探索提供了豐富的演算法介面;
- 系統後端層:實現了北冥塢的工業級部署,提供了穩定的系統線上服務,並透過提供豐富的後端API支撐了前端和客戶端的用戶互動;
- 使用者互動層:實現了基於網頁的前端和基於命令列的客戶端,為使用者互動提供了豐富且便捷的方式。
實驗評估
在論文中,研究團隊也建立了各種類型的基礎實驗場景,評估表格、圖像和文字數據上進行規約產生、學件辨識和復用的基準演算法。
表格資料實驗
#在各種表格資料集上,團隊首先評估了從學件系統中辨識和重複使用與使用者任務具有相同特徵空間的學件的性能。
而且,由於表格任務通常來自不同的特徵空間,研究團隊也對來自不同特徵空間的學件的識別和復用進行了評估。
同質案例
#在同質案例中,PFS資料集中的53個商店充當53個獨立用戶。
每個商店利用自己的測試數據作為使用者任務數據,並採用統一的特徵工程方法。這些使用者隨後可以在基座系統上查搜與其任務具有相同特徵空間的同質學件。
當使用者沒有標註資料或標註資料量有限時,團隊對不同的基準演算法進行了比較,所有使用者的平均損失如下圖所示。左表顯示,無資料方法比從市場上隨機選擇和部署一個學件要好得多;右圖表明,當使用者的訓練資料有限時,識別並重複使用單一或多個學件比使用者自訓練的模型性能更優。
左表顯示,無資料方法比從市場上隨機選擇和部署一個學件要好得多;右圖表明,當使用者的訓練資料有限時,辨識並重複使用單一或多個學件比使用者自訓練的模型表現更優。
異質案例
#根據市場上學件與使用者任務的相似性,異質案例可進一步分為不同的特徵工程和不同的任務場景。
不同的特徵工程場景:
下圖左顯示的結果表明,即使使用者缺乏標註數據,系統中的學件也能表現出很強的性能,尤其是複用多個學件的AverageEnsemble方法。
不同的任務場景:
上圖右顯示了使用者自訓練模型和幾種學件復用方法的損失曲線。
很明顯,異質學件在使用者標註資料量有限的情況下實驗驗證是有益的,有助於更好地與使用者的特徵空間進行對齊。
圖像和文字資料實驗
#此外,研究團隊在圖像資料集上對系統進行了基礎的評估。
下圖顯示,當使用者面臨標註資料稀缺或僅擁有有限數量的資料(少於 2000 個實例)時,利用學件基座系統可以產生良好的效能。
團隊也在基準的文字資料集上對系統進行了基礎評估。透過統一的特徵提取器進行特徵空間對齊。
如下圖所示,即使在沒有提供標註資料的情況下,透過學件辨識和重複使用所獲得的效能也能與系統中最好的學件相媲美。
此外,與從頭開始訓練模型相比,利用學件基座系統可以減少約2000個樣本。
以上是南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)