搜尋
首頁科技週邊人工智慧LeCun領導下的Meta AI,押注自監督

自監督學習真的是通往 AGI 的關鍵一步?

Meta 的 AI 首席科學家 Yann LeCun 在談到「此時此刻要採取的具體措施」時,也沒有忘記遠期的目標。他在一次採訪時說:「我們想要建造像動物和人類一樣學習的智慧機器。」

近年來,Meta 發表了一系列關於 AI 系統自監督學習(SSL)的論文。 LeCun 堅定地認為,SSL 是 AI 系統的必要前提,它可以幫助 AI 系統建立世界模型,以獲得類似人類的能力,如理性、常識,以及將技能和知識從一個環境遷移到另一個環境的能力。

他們的新論文展示了一種被稱為掩蔽自編碼器(MAE)的自監督系統如何學會從非常零散、不完整的數據中重建圖像、視頻甚至音頻。雖然 MAE 並不是一個新的想法,但 Meta 已經將這項工作擴展到了新的領域。

LeCun 說,透過研究如何預測丟失的數據,無論是靜態圖像還是視訊或音訊序列,MAE 系統都是在建立世界模型。他說:「如果它能預測影片中即將發生的事情,它必須明白世界是三維的,有些物體是無生命的,它們自己不會移動,其他物體是有生命的,很難預測,一直到預測有生命的人的複雜行為。」一旦AI 系統有了一個精確的世界模型,它就可以使用這個模型來規劃行動。

LeCun 說,「智慧的本質是學會預測。」雖然他並沒有聲稱 Meta 的 MAE 系統接近通用人工智慧,但他認為這是通往通用人工智慧的重要一步。

但並非所有人都同意 Meta 的研究人員走在通往通用人工智慧的正確道路上。 Yoshua Bengio 有時會與 LeCun 就 AI 領域的重大想法進行友好的辯論。在給 IEEE Spectrum 的一封電子郵件中,Bengio 闡述了他們在目標上的一些不同和相似之處。

Bengio 寫道:「我真的不認為我們目前的方法(無論是不是自監督)足以彌合人工與人類智慧水平的差距。」他說,該領域需要取得「質的進步」 ,才能真正推動科技向人類規模的人工智慧靠攏。

對於LeCun 的「對世界的推理能力是智慧的核心要素」這一觀點,Bengio 表示贊同,但他的團隊並沒有把重點放在能夠預測的模型上,而是放在了能夠以自然語言的形式呈現知識的模型上。他指出,這樣的模型將允許我們將這些知識片段結合起來,以解決新問題,進行反事實模擬,或研究可能的未來。 Bengio 的團隊開發了一種新的神經網路框架,它比致力於端到端學習的 LeCun 所青睞的框架更具模組化的性質。

大火的 Transformer

Meta 的 MAE 建立在一個名為 Transformer 的神經網路架構基礎上。這種架構最初在自然語言處理領域走紅,之後擴展到電腦視覺等多個領域。

當然,Meta 並不是第一個成功將 Transformer 用到視覺任務中的團隊。 Meta AI 的研究者 Ross Girshick 介紹說,Google在視覺 Transformer(ViT)上的研究啟發了 Meta 的團隊,「ViT 架構的採用幫助(我們)消除了試驗過程中遇到的一些障礙」。

Girshick 是Meta 第一篇MAE 系統論文的作者之一,這篇論文的一作是何愷明,他們論述了一種非常簡單的方法:掩蔽輸入圖像的隨機區塊並重建丟失的像素。

LeCun領導下的Meta AI,押注自監督

這種模型的訓練類似於BERT 以及其他一些基於Transformer 的語言模型,研究人員會向它們展示巨大的文字資料庫,但有些字是缺少的,或者說被「掩蔽」了。模型需要自己預測缺失的詞,然後被遮蔽的詞會被揭開,這樣模型就能檢查自己的工作並更新自己的參數。這過程會一直重複下去。 Girshick 解釋說,為了在視覺上做類似的事情,研究小組將影像分解成 patch,然後遮蔽一些 patch 並要求 MAE 系統預測影像缺失的部分。

該團隊的突破之一是意識到,掩蔽大部分圖像會獲得最好的結果,這與語言 transformer 有著關鍵區別,後者可能只會掩蔽 15% 的單字。 「語言是一種極其密集和高效的交流系統,每個符號都包含很多含義,」Girshick 說,「但是圖像——這些來自自然世界的信號——並不是為了消除冗餘而構建的。所以我們才能在創建JPG 圖像時很好地壓縮內容。」

LeCun領導下的Meta AI,押注自監督

Meta AI 的研究人員試驗需要遮蔽多少影像才能獲得最佳效果。

Girshick 解釋說,透過遮蔽影像中超過 75% 的 patch,他們消除了影像中的冗餘,否則會使任務變得過於瑣碎,不適合訓練。他們那個由兩部分組成的 MAE 系統首先使用一個編碼器,透過訓練資料集學習像素之間的關係,然後一個解碼器盡最大努力從掩蔽影像中重建原始影像。在此訓練方案完成後,編碼器還可以進行微調,用於分類和目標偵測等視覺任務。

Girshick 說,「最終讓我們興奮的點在於,我們看到了這個模型在下游任務中的結果。」當使用編碼器完成目標識別等任務時,「我們看到的收益非常可觀。」他指出,繼續增大模型可以獲得更好的性能,這對未來的模型來說是一個有潛力的方向,因為SSL「具有使用大量數據而不需要手動註釋的潛力」。

全力以赴地學習海量的未經篩選的資料集可能是 Meta 提高 SSL 結果的策略,但也是一個越來越有爭議的方法。 Timnit Gebru 等人工智慧倫理研究人員已經呼籲大家注意大型語言模式學習的未經整理的資料集固有的偏見,這些偏見有時會導致災難性的結果。

視訊和音訊的自監督學習

在視訊MAE 系統中,掩蔽物遮蔽了每個視訊幀的95%,因為幀之間的相似性意味著視訊訊號比靜態圖像有更多的冗餘。 Meta 研究人員 Christoph Feichtenhofer 說,就視訊而言,MAE 方法的一大優勢是視訊通常需要大量計算,而 MAE 通過屏蔽每幀高達 95% 的內容,減少了高達 95% 的計算成本。

這些實驗中使用的影片片段只有幾秒鐘,但 Feichtenhofer 表示,用較長的影片訓練人工智慧系統是一個非常活躍的研究主題。想像一下,你有一個虛擬助理,他有你家的視頻,可以告訴你一個小時之前你把鑰匙放在哪裡了。

更直接地說,我們可以想像圖像和視訊系統對Facebook 和Instagram 上的內容審核所需的分類任務都很有用,Feichtenhofer 說,「integrity」是一種可能的應用,「我們正在與產品團隊溝通,但這是非常新的,我們還沒有任何具體的項目。」

對於音訊MAE 工作,Meta AI 的團隊表示他們將很快將研究成果發佈在arXiv 上。他們發現了一個巧妙的方法來應用掩蔽技術。他們將聲音檔案轉換為聲譜圖,即訊號中頻率頻譜的視覺表徵,然後將部分影像遮蔽起來進行訓練。重建的音訊令人印象深刻,儘管該模型目前只能處理幾秒鐘的片段。

該音訊系統的研究人員Bernie Huang 說,這項研究的潛在應用包括分類任務,透過填充資料包被drop 時遺失的音訊來輔助基於IP 的語音傳輸(VoIP),或找到更有效的壓縮音訊檔案的方法。

Meta 一直在進行開源 AI 的研究,如這些 MAE 模型,也為人工智慧社群提供了一個預先訓練的大型語言模型。但批評人士指出,儘管在研究方面如此開放,但 Meta 還沒有把它的核心商業演算法開放出來供大家研究,也就是那些控制新聞推播、推薦和廣告植入的演算法。

以上是LeCun領導下的Meta AI,押注自監督的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。