機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 23, 2023 am 08:21 AM

人工智慧gpt-4

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

大數據摘要出品

家人們，繼人工智慧（AI）攻佔象棋、圍棋、Dota之後，轉筆這項技能也被AI 機器人學會了。

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

上面這個筆轉的賊溜的機器人，得益於名叫Eureka的智能體（Agent），是來自英偉達、賓州大學、加州理工學院和德州大學奧斯汀分校的一項研究。

得Eureka「指點」後的機器人還可以打開抽屜和櫃子、丟球和接球，或是使用剪刀。根據英偉達介紹，Eureka有10種不同的類型，可執行29種不同的任務。

要知道在之前，單就轉筆這一功能，僅靠人類專家手工編程，是無法如此順滑的實現的。

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

機器人盤核桃

#而Eureka 能夠自主編寫獎勵演算法來訓練機器人，且碼力強勁：自編的獎勵程式在83% 的任務中超越了人類專家，能使機器人的性能平均提升52%。

Eureka開創了一種從人類反饋中無梯度學習的新途徑，它能夠輕鬆吸收人類提供的獎勵和文字回饋，從而進一步完善自己的獎勵生成機制。

具體而言，Eureka 利用了 OpenAI 的 GPT-4 來編寫用於機器人的試誤學習的獎勵程式。這意味著該系統並不依賴人類特定任務的提示或預設的獎勵模式。

Eureka 透過在 Isaac Gym 中使用 GPU 加速的仿真，能夠快速評估大量候選獎勵的優劣，從而實現更有效率的訓練。接著，Eureka 會產生訓練結果的關鍵統計資訊摘要，並指導 LLM（Language Model，語言模型）改進獎勵函數的生成。透過這種方式，AI 智能體能夠獨立地改善對機器人的指令。

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

Eureka的框架

#研究人員也發現，任務越複雜，GPT- 4 的指令就越能優於所謂的"獎勵工程師"的人類指令。 參與研究的研究員甚至稱 Eureka 為「超人類獎勵工程師」。

Eureka 成功地彌補了高層推理（編碼）和低層運動控制之間的鴻溝。其採用了一種被稱為 "混合梯度架構"：一個純推理的黑盒子 LLM（Language Model，語言模型）引導一個可學習的神經網路。在這個架構中，外層循環運行 GPT-4 來優化獎勵函數（無梯度），而內層循環則運行強化學習以訓練機器人的控制器（基於梯度）。

——NVIDIA的高級研究科學家Linxi "Jim" Fan

#Eureka 可以整合人類的回饋，以便更好地調整獎勵，使其更符合開發者的期望。 Nvidia 把這個過程稱為"in-context RLHF"（從人類回饋中進行上下文學習）

值得注意的是，Nvidia 的研究團隊已經開源了Eureka 的AI 演算法庫。這將使得個人和機構能夠透過 Nvidia Isaac Gym 來探索和實驗這些演算法。 Isaac Gym 是建立在 Nvidia Omniverse 平台上的，這是一個基於 Open USD 框架用於創建 3D 工具和應用程式的開發框架。

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

論文連結：https://arxiv.org/pdf/2310.12931.pdf
專案連結：https://eureka-research.github.io/
程式碼連結：https://github.com/eureka-research/Eureka

如何評價？

在過去的十年中，強化學習取得了巨大的成功，但我們必須承認其中仍存在持續的挑戰。之前雖然有嘗試引入類似的技術，但與使用語言模型（LLM）來輔助獎勵設計的 L2R（Learning to Reward）相比，Eureka 更為突出，因為它消除了特定任務提示的需要。 Eureka 之所以能比 L2R 更出色，是因為它能夠創建自由表達的獎勵演算法，並利用環境原始碼作為背景資訊。

英偉達的研究團隊進行了一項調查，以探索在使用人類獎勵函數啟動時，是否能提供一些優勢。實驗的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出取代原始的人類獎勵函數。

機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀

在測試中，英偉達的研究團隊在每個任務的情境下，使用相同的強化學習演算法和相同的超參數對所有最終獎勵函數進行了優化。為了測試這些特定任務的超參數是否經過良好調整以確保人工設計的獎勵的有效性，他們採用了經過充分調整的近端策略優化（PPO）實現，這個實現基於先前的工作，沒有進行任何修改。對於每個獎勵，研究人員進行了五次獨立的 PPO 訓練運行，並報告了策略檢查點達到的最大任務指標值的平均值，作為獎勵表現的測量。

結果顯示：人類設計者通常對相關狀態變數有很好的理解，但在設計有效獎勵方面可能缺乏一定的熟練度。

Nvidia 的這項開創性研究在強化學習和獎勵設計領域開闢了新的疆界。他們的通用獎勵設計演算法Eureka 利用了大型語言模型和上下文進化搜尋的力量，能夠在廣泛的機器人任務領域生成人類層級的獎勵，而無需特定任務提示或人工幹預，這在很大程度上改變了我們對AI 和機器學習的理解。

以上是機器人學會轉筆、盤核桃了！ GPT-4加持，任務越複雜，表現越優秀的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

META的新AI助手：生產力助推器還是時間下沉？May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴，拓展了Llama Stack的企業級部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，並啟動了Llama Defenders計劃，以增強AI安全性。此外，Meta還向10個全球機構（包括致力於改善公共服務、醫療保健和教育的初創企業）發放了總額150萬美元的Llama Impact Grants。由Llama 4驅動的全新Meta AI應用，被設想為Meta AI

80％的Zers將嫁給AI：研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說，這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。零售商與機器人ho積產品，銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題，Rende

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客