GPT4教機器人盤轉筆，那叫一個絲滑！

GPT4教機器人盤轉筆，那叫一個絲滑！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 30, 2023 pm 04:53 PM

機器人演算法gpt4

最近，那個啟發了數學家陶哲軒的GPT-4，在聊天中又開始教機器人如何轉筆了

GPT4教機器人盤轉筆，那叫一個絲滑！

專案叫Agent Eureka，是由英偉達、賓州大學、加州理工學院、德州大學奧斯汀分校聯手研發的。他們的研究結合了 GPT-4 結構的能力和強化學習的優勢，讓 Eureka 能設計出精妙的獎勵函數。

GPT-4 的程式設計能力賦予 Eureka 強大的獎勵函數設計技巧。這意味著，在大部分任務中，Eureka 自己設計的獎勵方案，甚至比人類專家更出色。這讓它能完成一些人類難以完成的任務，包括轉筆、打開抽屜，盤核桃，甚至更複雜的任務，如拋接球，操作剪刀等等。

GPT4教機器人盤轉筆，那叫一個絲滑！圖片

GPT4教機器人盤轉筆，那叫一個絲滑！圖片

雖然目前這些都是在模擬環境中完成的，但這已經非常厲害了。

專案已經開源，專案地址和論文地址已經放在文末

簡單總結下論文的核心要點。

論文探討如何使用大型語言模型（LLM）來設計並最佳化機器學習中的獎勵函數。這是一個重要的課題，因為設計好的獎勵函數可以大幅提升機器學習模型的效能，但是設計這樣的函數是非常困難的。

研究人員提出了一種名為EUREKA的新演算法。 EUREKA採用LLM來產生和改進獎勵函數。在測試中，EUREKA在29種不同的強化學習環境中達到了人類級別的性能，並在83%的任務中超越了人類專家設計的獎勵函數

EUREKA成功解決了一些以前無法通過人工設計獎勵函數解決的複雜操作任務，例如模擬「Shadow Hand」手部快速轉筆的操作

此外，EUREKA 提供了一種全新的方法，能夠根據人類的反饋來產生更加有效、更符合人類期望的獎勵函數

EUREKA 的工作方式包括三個主要步驟：

#將環境作為上下文：EUREKA 使用環境的源代碼作為上下文，以產生可執行的獎勵函數

2. 演化搜尋：EUREKA 透過演化搜尋的方式，不斷提出和改進獎勵函數

3. 獎勵反思：EUREKA 根據策略訓練的統計資料產生獎勵品質的文本總結，從而自動和有針對性地改進獎勵函數。 3. 獎勵反思：EUREKA 根據策略訓練的統計數據產生獎勵品質的文本總結，以便自動且有針對性地改進獎勵函數

這項研究可能會對強化學習和獎勵函數設計領域產生深遠影響，因為它提供了一種新的、有效的方法來自動產生和改進獎勵函數，而且這種方法的性能在許多情況下超過了人類專家。

計畫網址：https://www.php.cn/link/e6b738eca0e6792ba8a9cbcba6c1881d

#論文連結：https://www.php.cn/ link/ce128c3e8f0c0ae4b3e843dc7cbab0f7

以上是GPT4教機器人盤轉筆，那叫一個絲滑！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境，安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問，並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具，用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦：為Win版本，支援程式碼提示！

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7486

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

51

19

NYT連接提示和答案

19

38