搜尋
首頁科技週邊人工智慧像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

Deepmind 旨在建立一個能夠學習直覺物理學的模型,並剖析模型實現這種能力的原因。

從 AlphaFold 到數學推理,DeepMind 一直在嘗試將 AI 和基礎科學結合。現在,DeepMind 又創建了一個可以學習簡單物理規則的新模型。

發展心理學家測驗分析了嬰兒如何透過目光來跟隨物體的運動。例如,當播放影片中有一個球突然消失時,孩子們會表現出驚訝。

DeepMind 的電腦科學家 Luis Piloto 及其同事希望為人工智慧 (AI) 開發類似的測試。該團隊使用立方體和球等簡單物體的動畫影片訓練了一個神經網絡,該模型透過從大量資料中發現模式來學習。研究論文於 7 月 11 日發表在《Nature Human Behaviour》。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

  • 論文網址:https://www.nature.com/articles/s41562-022-01394 -8
  • 資料集位址:https://github.com/deepmind/physical_concepts

該模型透過自動編碼和追蹤物件進行物理學習,因此命名為PLATO (Physics Learning through Auto-encoding and Tracking Objects)。 PLATO 接收來自視訊的原始影像和突出顯示場景中每個物件目標的影像版本。 PLATO 旨在開發物件物理特性的內部表徵,例如它們的位置和速度。

該系統接受了大約30 個小時的視訊訓練,這些影片展示了簡單的運動機制(例如一個球從斜坡上滾下來),並開發了預測這些物件在不同情況下行為的能力。特別地,PLATO 學習了連續性和穩固性,並確保目標的軌跡是不間斷的,物體形狀是持久的。隨著影片的播放,模型的預測會變得更加準確。

當播放帶有「不可能」事件的影片時,例如物體突然消失,PLATO 可以度量影片和它自己的預測之間的差異,從而提供一種「驚訝」的衡量標準。

Piloto 說:「PLATO 並非設計為嬰兒行為模型,但它可以測試關於人類嬰兒如何學習的假設。我們希望認知科學家最終可以使用它來模擬嬰兒的行為。」

英屬哥倫比亞大學的電腦科學家Jeff Clune 表示,「將AI 與人類嬰兒的學習方式進行比較是一個重要的研究方向。PLATO 的研究者手工設計了許多賦予人工智慧模型優勢的先驗知識。」 Clune 等研究人員正試圖讓程式開發自己的演算法來理解物理世界。

運用發展心理學的知識

為了在 AI 系統中追求更豐富的物理直覺,DeepMind 的研究團隊從發展心理學中汲取靈感。研究團隊建構了一個深度學習系統,整合了發展心理學的核心見解,即物理學是在離散物件及其相互作用的層面上理解的。

直覺物理學的核心依賴一組離散的概念(例如,物件的持久性、穩固性、連續性等),可以區分、操作和單獨探測。傳統的 AI 學習直覺物理的標準方法透過影片或狀態預測指標、二元結果預測、問答表現或強化學習任務來學習物理世界。這些方法似乎需要理解直覺物理學的某些方面,但並沒有明確地操作或策略性地探索一組明確的概念。

另一方面,發展心理學認為一個物理概念對應於一組未來如何展開的期望。例如人們期望物體不會神奇地從一個地方突然傳送到另一個地方,而是透過時間和空間追蹤連續的路徑,這就有了連續性的概念。因此,有一種測量特定物理概念知識的方法:違反期望 (VoE) 範式。

使用VoE 範式探索特定概念時,研究人員向嬰兒展示視覺上相似的陣列(稱為探測(probe)),這些陣列與物理概念一致(物理上可能)或不一致(物理上不可能)。在這個範式中,「驚訝」是透過凝視持續時間來衡量的。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

方法介紹

首先,DeepMind 提出了一個非常豐富的影片語料庫 ——Physical Concepts 資料集。該資料集包含 VoE 探測視頻,針對五個重要的物理概念,這些概念在發展心理學中被視為核心要素,包括連續性、目標持久性和穩固性。第四種是不可變性,用於捕捉某些目標屬性 (例如形狀) 不會改變的概念;第五個概念是方向慣性,涉及到運動物體在與慣性原理一致的方向上發生變化的期望。

最重要的是 Physical Concepts 資料集還包括一個單獨的視訊語料庫作為訓練資料。這些影片展示了各種程式生成的物理事件。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

圖2:用於訓練模型的視訊資料集範例

PLATO 模型架構

Deepmind 旨在建立一個能夠學習直覺物理學的模型,並剖析模型實現這種能力的原因。 PLATO 模型中實例化了 AI 領域的一些先進系統。

首先是目標個人化過程。 目標個人化過程將視覺的連續感知輸入切割成一組離散的實體,其中每個實體都有一組對應的屬性。在 PLATO 中,每個分段的視訊幀透過感知模組分解為一組目標程式碼(圖 3a-c),從而實現從視覺輸入到個體目標的映射。 PLATO 沒有學習分割場景,但給定一個分割目標,其學習一個壓縮表示。

其次,目標追蹤(或目標索引)為每個目標分配一個索引,從而實現跨時間目標感知和動態屬性計算之間的對應關係(圖3b,c) 。在 PLATO 中,目標程式碼在目標緩衝區中的訊框上累積和追蹤(圖 3d)。

最後一個組件是這些被追蹤目標的關係處理,這個過程受到發展心理學中提出的「物理推理系統」的啟發,該系統可以動態地處理物體的表徵,產生新的表徵,這些表徵會受到物體與其他物體之間關係和互動的影響。

PLATO 學習目標記憶體和目標感知歷史之間的交互作用(圖 3d),以產生針對下一個目標的預測視訊幀並更新基於目標的記憶體。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

圖3:PLATO 包含兩個元件:感知模組(左)和動態預測(右)

實驗結果

在測試時,當使用五種不同的隨機種子進行訓練時,PLATO 在所有五個探測類別中都顯示出強大的VoE 效果。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

圖 5:PLATO 在 Physical Concepts 資料集的偵測中顯示出穩健的效果。

Physical Concepts 資料集中的訓練語料庫共包含 300000 個影片。用保守計算方法,大約需要 52 天的持續視覺體驗。從 AI 和開發的角度來看,這存在一個問題,即在測試中產生 VoE 效果實際上需要多少訓練資料。為了評估這一點,Deepmind 在大小逐漸減少的資料集上訓練了三個 PLATO 動態預測器的隨機種子(圖 6),計算了所有五個探測類別的 VoE 效應的總平均值。

在僅對50000 個範例進行訓練後,研究結果表明,在使用少至50000 個範例(相當於28 小時的視覺體驗)進行訓練後,Deepmind 的模型中出現了穩健的VoE 效果。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

圖 6:PLATO 只需短短 28 小時的視覺體驗就能展現出強大的效果。

泛化測試:Deepmind 採用 ADEPT 資料集,旨在探索直覺的物理知識。如圖 7 所示,PLATO 對所有三個探測類別都顯示出清晰的 VoE 效果。

像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則

圖 7:PLATO 展示了在不可見目標和動態上的穩健效果,而無需任何重新訓練。

更多內容,請查看原始論文。

以上是像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。