大數據摘要出品
家人們,繼人工智慧(AI)攻佔象棋、圍棋、Dota之後,轉筆這項技能也被AI 機器人學會了。
上面這個筆轉的賊溜的機器人,得益於名叫Eureka的智能體(Agent),是來自英偉達、賓州大學、加州理工學院和德州大學奧斯汀分校的一項研究。
得Eureka「指點」後的機器人還可以打開抽屜和櫃子、丟球和接球,或是使用剪刀。根據英偉達介紹,Eureka有10種不同的類型,可執行29種不同的任務。
要知道在之前,單就轉筆這一功能,僅靠人類專家手工編程,是無法如此順滑的實現的。
機器人盤核桃
#而Eureka 能夠自主編寫獎勵演算法來訓練機器人,且碼力強勁:自編的獎勵程式在83% 的任務中超越了人類專家,能使機器人的性能平均提升52%。
Eureka開創了一種從人類反饋中無梯度學習的新途徑,它能夠輕鬆吸收人類提供的獎勵和文字回饋,從而進一步完善自己的獎勵生成機制。
具體而言,Eureka 利用了 OpenAI 的 GPT-4 來編寫用於機器人的試誤學習的獎勵程式。這意味著該系統並不依賴人類特定任務的提示或預設的獎勵模式。
Eureka 透過在 Isaac Gym 中使用 GPU 加速的仿真,能夠快速評估大量候選獎勵的優劣,從而實現更有效率的訓練。接著,Eureka 會產生訓練結果的關鍵統計資訊摘要,並指導 LLM(Language Model,語言模型)改進獎勵函數的生成。透過這種方式,AI 智能體能夠獨立地改善對機器人的指令。
Eureka的框架
#研究人員也發現,任務越複雜,GPT- 4 的指令就越能優於所謂的"獎勵工程師"的人類指令。 參與研究的研究員甚至稱 Eureka 為「超人類獎勵工程師」。
Eureka 成功地彌補了高層推理(編碼)和低層運動控制之間的鴻溝。其採用了一種被稱為 "混合梯度架構":一個純推理的黑盒子 LLM(Language Model,語言模型)引導一個可學習的神經網路。在這個架構中,外層循環運行 GPT-4 來優化獎勵函數(無梯度),而內層循環則運行強化學習以訓練機器人的控制器(基於梯度)。
——NVIDIA的高級研究科學家Linxi "Jim" Fan
#Eureka 可以整合人類的回饋,以便更好地調整獎勵,使其更符合開發者的期望。 Nvidia 把這個過程稱為"in-context RLHF"(從人類回饋中進行上下文學習)
值得注意的是,Nvidia 的研究團隊已經開源了Eureka 的AI 演算法庫。這將使得個人和機構能夠透過 Nvidia Isaac Gym 來探索和實驗這些演算法。 Isaac Gym 是建立在 Nvidia Omniverse 平台上的,這是一個基於 Open USD 框架用於創建 3D 工具和應用程式的開發框架。
- 論文連結:https://arxiv.org/pdf/2310.12931.pdf
- 專案連結:https://eureka-research.github.io/
- 程式碼連結:https://github.com/eureka-research/Eureka
如何評價?
在過去的十年中,強化學習取得了巨大的成功,但我們必須承認其中仍存在持續的挑戰。之前雖然有嘗試引入類似的技術,但與使用語言模型(LLM)來輔助獎勵設計的 L2R(Learning to Reward)相比,Eureka 更為突出,因為它消除了特定任務提示的需要。 Eureka 之所以能比 L2R 更出色,是因為它能夠創建自由表達的獎勵演算法,並利用環境原始碼作為背景資訊。
英偉達的研究團隊進行了一項調查,以探索在使用人類獎勵函數啟動時,是否能提供一些優勢。實驗的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出取代原始的人類獎勵函數。
在測試中,英偉達的研究團隊在每個任務的情境下,使用相同的強化學習演算法和相同的超參數對所有最終獎勵函數進行了優化。為了測試這些特定任務的超參數是否經過良好調整以確保人工設計的獎勵的有效性,他們採用了經過充分調整的近端策略優化(PPO)實現,這個實現基於先前的工作,沒有進行任何修改。對於每個獎勵,研究人員進行了五次獨立的 PPO 訓練運行,並報告了策略檢查點達到的最大任務指標值的平均值,作為獎勵表現的測量。
結果顯示:人類設計者通常對相關狀態變數有很好的理解,但在設計有效獎勵方面可能缺乏一定的熟練度。
Nvidia 的這項開創性研究在強化學習和獎勵設計領域開闢了新的疆界。他們的通用獎勵設計演算法Eureka 利用了大型語言模型和上下文進化搜尋的力量,能夠在廣泛的機器人任務領域生成人類層級的獎勵,而無需特定任務提示或人工幹預,這在很大程度上改變了我們對AI 和機器學習的理解。
以上是機器人學會轉筆、盤核桃了! GPT-4加持,任務越複雜,表現越優秀的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver CS6
視覺化網頁開發工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。