對機器人來說,任務規劃(Task Planning)是一個繞不過去的難題。
想要完成一個真實世界的任務,首先你得知道把大象裝冰箱總共要幾步。
即便是比較簡單的丟蘋果任務也包含多個子步驟,機器人得先觀察蘋果的位置,如果沒有看到蘋果就要持續尋找,然後靠近蘋果,把蘋果抓起來,找到並靠近垃圾桶。
如果垃圾桶是關著的,還得先把它打開,然後再把蘋果丟進去,關上垃圾桶。
但每個任務的具體實作細節不可能都由人來設計,如何透過一句指令來產生動作序列就成了難題。
用指令產生序列?這不正是語言模式的工作麼?
過去有研究人員使用大型語言模型(LLMs)根據輸入的任務指令對潛在的下一步行動空間進行評分,然後產生行動序列。 指令由自然語言進行描述,不包含額外的領域資訊。
但這類方法要么需要列舉所有可能的下一步行動進行評分,要么生成的文本在形式上沒有任何限制,其中可能包含在當前環境下特定機器人不可能採取的行動。
最近南加州大學和英偉達聯合推出了一個新模型ProgPrompt,同樣使用語言模型對輸入指令進行任務規劃,其中包含了一個程式化的提示結構,使得生成的計畫在不同的環境、具有不同能力的機器人、不同的任務中都能發揮作用。
在保證任務的規範性上,研究者採用產生python風格程式碼的形式來提示語言模型哪些動作是可用的、環境中有哪些物件以及哪些程式是可執行的。
例如輸入「丟蘋果」指令就可以產生以下程式。
ProgPrompt模型在虛擬家庭任務中達到了sota效能,研究人員也將該模型部署在一個用於桌面任務的實體機器人手臂上。
妙用語言模型
想要完成日常家庭任務(everyday household tasks)既需要對世界具有常識性理解,也需要當前環境的情境知識。
為了創建一個「做晚餐」的任務計劃,智能體最起碼需要知道的常識包括:物體的功能,如爐子和微波爐可以用來加熱;行動的邏輯順序,在添加食物之前必須先預熱烤箱;以及物體和行動的任務相關性,例如加熱和尋找食材首先是與“晚餐”相關的行動。
但如果沒有狀態回授(state feedback),這種推理就無法進行。
智能體需要知道目前環境中哪裡有食物,例如冰箱裡是否有魚,或冰箱裡是否有雞肉。
在大型语料库上训练的自回归大型语言模型可以在输入提示的条件下生成文本序列,具有显著的多任务泛化能力。
比如输入「做晚饭」,语言模型可以生成后续序列,如打开冰箱、拿起鸡肉、拿起苏打水、关闭冰箱、打开电灯开关等。
生成的文本序列需要映射到智能体的行动空间中,比如生成的指令是「伸手拿起一罐泡菜」,对应的可执行动作可能就是「拿起罐子」,然后模型会计算出一个行动的概率评分值。
但缺少环境反馈的情况下,如果冰箱里没有鸡肉,却仍然选择「拿起鸡肉」行动,就会导致任务失败,因为「做晚饭」并没有包含任何关于世界状态的信息。
ProgPrompt模型在任务规划中巧妙地利用了编程语言结构,因为现有的大规模语言模型通常都在编程教程和代码文档的语料中进行过预训练。
ProgPrompt为语言模型提供了一个Pythonic的程序头部作为提示,导入了可用的动作空间、预期参数和环境中可用的物体。
然后定义了诸如make_dinner, throw_away_banana等函数,其主体是对物体进行操作的动作序列,然后通过断言计划的先决条件,例如在试图打开冰箱之前靠近冰箱,以及用恢复行动来应对断言失败的情况,以此纳入环境的状态反馈。
最重要的是,ProgPrompt程序中还包括了自然语言编写的注释,用以解释行动的目标,从而提高了生成的计划程序执行任务的成功率。
ProgPrompt
有了完整的想法,ProgPrompt的整体工作流程就清晰了,主要包括三部分,Pythonic函数构建、构造编程语言提示、任务计划的生成和执行。
1、将机器人计划表述为Pythonic函数
计划函数包括对动作原语(action primitive)的API调用,总结动作并添加注释,以及跟踪执行的断言。
每个动作原语需要一个物体作为参数,比如「把三文鱼放进微波炉」任务中,包括对find(salmon)的调用,其中find就是一个动作原语。
利用代码中的注释来为后续的动作序列提供自然语言的总结,注释有助于将高层次的任务分解成合乎逻辑的子任务,即「抓取三文鱼」和「把三文鱼放进微波炉」。
注释也可以让语言模型了解当前的目标,减少不连贯、不一致或重复输出的可能性,类似于思维链(chain of thought)生成中间结果。
断言(assertions)提供了一个环境反馈机制,以确保前提条件成立,并在不成立时实现错误恢复,比如在抓取行动之前,计划断言智能体已经接近了三文鱼,否则智能体需要先执行find行动。
2、构造编程语言prompt
prompt需要向语言模型提供关于环境和主要行动的信息,包括观察、行动原语、例子,并生成了一个Pythonic提示,供语言模型补全。
然後,語言模型將
在微波爐鮭魚在這個任務中,LLM可以產生的且合理的第一步是取出鮭魚,但負責執行計劃的智能體可能沒有這樣一個動作原語。
為了讓語言模型了解智能體的動作原語,將其在prompt中透過import語句導入,也就將輸出限制為在目前環境下可用的函數上。
要改變智能體的行為空間,只需要更新import的函數清單即可。
變數objects以字串清單的形式提供了環境中的所有可用物件。
prompt還包括一些完全可執行的程式計劃作為範例,每個範例任務都示範如何使用給定環境中的可用動作和目標來完成一個給定的任務,如throw_away_lime
3、任務計劃的生成和執行
##給定任務之後,計劃完全是由語言模型根據ProgPrompt提示推斷出來的,然後可以將生成的計劃在虛擬智能體或實體機器人系統上執行,需要用到一個解釋器,針對環境執行每個行動命令。
在執行過程中,斷言檢查以閉環的方式進行,並根據當前環境狀態提供回饋。
在實驗部分,研究人員在虛擬家庭(VH)模擬平台評估了此方法。
VH的狀態包括一組物體和對應的屬性,例如鮭魚在微波爐內部(in),或靠近(agent_close_to)等。
行動空間包括抓取(grab)、放入(putin)、放回(putback)、行走(walk),尋找(find)、打開(open)、關閉( close)等。
最終實驗了3個VH環境,每個環境包括115種不同的物體,研究人員創建了一個包含70個家務任務的資料集,抽象程度很高,指令都是「微波鮭魚」這類的,並為之創造一個ground-truth的行動序列。
在虛擬家庭上對生成的程序進行評估後,評估指標包括成功率(SR),目標條件召回(GCR)和可執行性(Exec),從結果上可以看到ProgPrompt明顯優於基準和LangPrompt,表格中也展示了每個特徵是如何提升效能的。
研究人員同樣在真實世界進行了實驗,使用一個帶有平行爪子的Franka-Emika熊貓機器人,並假設可以獲得一個拾取和放置(pick-and-place)的策略。
該策略將目標物件和目標容器的兩個點雲作為輸入,並執行拾取和放置操作,將物件放在容器上或裡面。
系統實作引入一個開放詞彙的物件偵測模型ViLD來辨識和分割場景中的物體,並建立prompt中的可用物件清單。
與在虛擬環境中不同的是,這裡物件列表是每個計畫函數的局部變量,這樣可以更靈活地適應新物件。
語言模型輸出的計畫中包含形式為grab和putin等函數呼叫。
由於現實世界的不確定性,實驗設定中並沒有實作基於斷言的閉環選項。
可以看到,機器人在分類任務中,能夠識別出香蕉和草莓是水果,並產生計劃步驟,將它們放在盤子裡,而將瓶子放在盒子裡。
以上是把大象裝冰箱總共要幾步?英偉達發布ProgPrompt,讓語言模式為機器人安排計劃的詳細內容。更多資訊請關注PHP中文網其他相關文章!

通常,机器人的主要功能是完成一些简单的操作任务,我们希望机器人可以模仿人,让能力尽可能接近人类水平。不论是小米的 CyberOne 还是特斯拉的 Optimus,人们关心的主要是其机械关节数量,控制算法和行走速度。不过在这个领域,有些人探索的方向更加脑洞大开:现在,有一种机器人把模仿真人表情做到了极致:先尝试一下自拍。从「嫌弃」到「惊讶」,都可以做到完全同步:这个机器人名叫 Ameca,是个表情怪。除了模仿,它自己也能照镜子做很多小表情,看起来非常像真人。Ameca「假装」第一次见到镜子,首

和活生生的已故历史名人聊天是个什么感觉?近日,就有一群开发者利用语言模型,把千百年来各行各业的历史名人全部「复活」成了聊天机器人,做进了一款手机app里,起名叫「你好,历史」!开发者声称,这个与古代名人聊天的app涉及的内容几乎无所不包。比如可以:与玛丽莲·梦露聊好莱坞八卦与弗里达·卡洛讨论现代艺术问问圣诞老人他有多少只驯鹿问问科特·科本为什么自杀向穴居人学习如何生火与宇宙意识辩论生命的意义不过他们也没忘记提醒用户,这些对话是由人工智能生成的,所以不要太认真。而且每个对话都是独一无二的,你永远不

大数据文摘出品作者:Caleb为庆祝英国女王伊丽莎白二世登基70周年,英国也是早早就洋溢出了庆典的味道。据了解,英国将于6月2日至5日连放4天公众假期,并在期间举行多项庆祝活动。英国皇家铸币厂也在精心打造有史以来最大的硬币,直径220毫米,重15公斤,面值15000英镑,耗时近400小时打造,是该厂1100年来生产的最大硬币。这枚金币一面雕刻着代表英国女王伊丽莎白二世的符号EⅡR,周围环绕着代表英国的玫瑰、水仙、蓟和三叶草。另一面有女王骑在马背上的图案。在这么热闹的日子里,AI当然也必须来凑一凑

人类与人工智能相比,哪个更擅长建立关系?事实上,这项革命性的技术已经存在了很长一段时间。然而,直到最近人们才意识到人工智能对人类的重要性。人工智能利用算法模拟人类,并随着时间的推移从经验中学习的能力,为这项技术与人类建立关系开辟道路。人类如何建立人际关系作为人类,我们倾向于只与少数人建立关系。我们试图确保不需要的和不相干的人从我们的生活中消失。在将我们的关系限制在少数人的同时,我们确保与那些对我们真正重要的人建立高质量的关系。然而,同样的方法在商业用语中可能不是理想的,并可能适得其反。尽管知道这

有抱负的工程师应该了解世界各地著名的机器人工程学院。现在是从事机器人和工程事业的最佳时机——从人工智能到太空探索,这一领域充满了令人兴奋的创新和进步。美国劳工统计局估计,未来10年,机械工程领域的职业总体上将保持7%的稳定增长率,确保毕业生将有大量的就业机会。机器人工程专业的学生平均工资超过9万美元,无需担心还助学贷款的问题。对于那些考虑投身机器人工程领域的人来说,选择一所合适的大学是非常重要的。世界上许多顶尖的机器人工程学院都在美国,尽管国外也有一些很棒的项目。这是7所世界上最好的机器人工程学

机器人也能干咖啡师的活了!比如让它把奶泡和咖啡搅拌均匀,效果是这样的:然后上点难度,做杯拿铁,再用搅拌棒做个图案,也是轻松拿下:这些是在已被ICLR 2023接收为Spotlight的一项研究基础上做到的,他们推出了提出流体操控新基准FluidLab以及多材料可微物理引擎FluidEngine。研究团队成员分别来自CMU、达特茅斯学院、哥伦比亚大学、MIT、MIT-IBM Watson AI Lab、马萨诸塞大学阿默斯特分校。在FluidLab的加持下,未来机器人处理更多复杂场景下的流体工作也都

还记得那个和特斯拉飙车的机器人吗?这是瑞士苏黎世联邦理工学院衍生公司研发的与公司同名的四足轮腿式机器人——Swiss-Mile,前身是ANYmal四足机器人。距离它和特斯拉飙车还不到半年的时间,它又实现了重大升级。这次升级改进了机器人的算法,运动能力直接UP UP UP ! 可以双腿站立下楼梯:(小编内心OS:如果是我穿轮滑鞋下楼梯可能会摔个狗吃屎)楼梯爬累了,坐个电梯吧,用前脚按开电梯门:面对障碍物应对自如:它还能知道什么时候该站起来,什么时候该“趴下”,双腿直立与四足运动之间的切换更丝滑:

日前,美国西北大学工程师开发出有史以来最小的遥控步行机器人,它以一种小巧可爱的螃蟹形式出现。这种微小的“螃蟹”机器人宽度只有半毫米,可以弯曲、扭曲、爬行、行走、转弯甚至跳跃,无需液压或电力。IT之家了解到,相关研究成果发表在《科学・机器人》上。据介绍,这种机器人是用形状记忆合金材料所制造的,然后可以变成所需的形状,当你加热后又会变回原来的形状,而热量消失时可以再次弹回变形时的样子。据介绍,其热量是由激光所带来的。激光通过“螃蟹”加热合金,但因为它们非常小,所以热量传播非常快,这使得它们的响应速度


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SublimeText3 Linux新版
SublimeText3 Linux最新版

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),