大模型的出色能力有目共睹,而如果將它們整合進機器人,則有望讓機器人擁有一個更智能的大腦,為機器人領域帶來新的可能性,例如自動駕駛、家用機器人、工業機器人、輔助機器人、醫療機器人、現場機器人和多機器人系統。
預先訓練的大型語言模型(LLM)、大型視覺- 語言模型(VLM)、大型音訊- 語言模型(ALM)和大型視覺導航模型(VNM)可以用於更好地處理機器人領域的各種任務。將基礎模型整合進機器人是一個快速發展的領域,機器人社群最近已經開始探索將這些大模型用於需要重新書寫的是:知覺、預測、規劃和控制等機器人領域。
最近,一支由史丹佛大學、普林斯頓大學以及英偉達和Google DeepMind等多家企業組成的聯合研究團隊發布了一篇綜述報告,總結了機器人研究領域中基礎模型的發展和未來挑戰
論文網址:https://arxiv.org/pdf/2312.07843.pdf
重寫的內容是:論文庫:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
團隊成員中有很多我們熟悉的華人學者,包括朱玉可、宋舒然、吳佳俊、盧策吾等。
廣泛使用大規模資料進行預訓練的基礎模型,在微調後可以適用於各種下游任務。這些基礎模型在視覺和語言處理領域取得了重大突破,其中包括BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相關模型
在基礎模型出現之前,用於機器人的傳統深度學習模型的訓練所使用的都是為不同任務收集的有限資料集。相反,基礎模型則是會使用大範圍多樣化資料進行預先訓練,在其他領域(例如自然語言處理、電腦視覺和醫療保健)的應用證明了其適應能力、泛化能力和整體表現表現。最終,基礎模型也有望在機器人領域展現出自己的潛力。圖 1 展示了基礎模型在機器人領域的概況。
比較相比於針對特定任務的模型,從基礎模型遷移知識有可能減少訓練時間和運算資源。尤其是在機器人相關領域,多模態基礎模型可以將從不同感測器收集的多模態異質資料融合和對齊成緊湊的緊湊同質表徵,而這正是機器人理解和推理所需的。其學習到的表徵可望用於自動化技術棧的任何部分,包括需要重新書寫的是:知覺、決策和控制。
不僅如此,基礎模型還能提供零樣本學習能力,也就是讓 AI 系統有能力在沒有任何範例或針對性訓練的前提下執行任務。這能讓機器人將所學廣泛到全新的用例,並增強機器人在非結構化環境中的適應能力和靈活性。
將基礎模型整合進機器人系統能提升機器人需要重新書寫的是:知覺環境以及與環境互動的能力,有可能實現上下文需要重新書寫的是:知覺型機器人系統。
舉個例子,在需要重新書寫的是:知覺領域,大型視覺- 語言模型(VLM)能夠學習視覺和文字資料之間的關聯,從而具備跨模態理解能力,從而輔助零樣本影像分類、零樣本目標偵測和3D 分類等任務。再舉個例子,3D 世界中的語言定基(language grounding,即將VLM 的上下文理解與3D 現實世界對齊)可以透過將話語與3D 環境中的具體物件、位置或動作關聯起來,從而增強機器人的空間需要重新書寫的是:知覺能力。
在決策或規劃領域,研究發現 LLM 和 VLM 可以輔助機器人規範涉及高層規劃的任務。
透過利用與操作、導航和互動有關的語言線索,機器人可以執行更複雜的任務。例如對於模仿學習和強化學習等機器人策略學習技術,基礎模型似乎有能力提升資料效率和情境理解能力。特別是語言驅動的獎勵可透過提供經過塑造的獎勵來引導強化學習智能體。
另外,研究者也已經在利用語言模型來為策略學習技術提供回饋。一些研究表明,VLM 模型的視覺問答(VQA)能力可以用於機器人使用案例。舉個例子,已有研究者使用 VLM 來回答與視覺內容相關的問題,以幫助機器人完成任務。另外,也有研究者使用 VLM 來幫助資料標註,為視覺內容產生描述標籤。
儘管基礎模型在視覺和語言處理方面具備變革性的能力,但對於現實世界的機器人任務來說,基礎模型的泛化和微調依然頗具挑戰性。
這些挑戰包括:
1) 資料缺乏:如何取得網路規模級的資料來支援機器人操作、定位、導航等任務,並且如何利用這些資料進行自我監督訓練;
2) 巨大的差異性:如何應對物理環境、實體機器人平台和潛在的機器人任務的巨大多樣性,同時保持基礎模型所需的通用性;
3) 不確定性的量化問題:如何解決實例層面的不確定性(例如語言歧義或LLM 幻覺)、分佈層面的不確定性和分佈移位問題,尤其是閉環的機器人部署引起的分佈移位問題。
4) 安全評估:如何在部署之前、更新過程中、工作過程中對基於基礎模型的機器人系統進行嚴格測試。
5) 即時效能:如何應對某些基礎模型推理時間長的問題—— 這會有礙基礎模型在機器人上的部署,以及如何加速基礎模型的推理—— 這是在線決策所需的。
這篇綜述論文總結了目前機器人領域中基礎模型的使用。研究人員調查了目前的方法、應用和挑戰,並提出了未來研究方向來解決這些挑戰。他們還指出了將基礎模型用於實現機器人自主能力可能存在的潛在風險
基礎模型背景知識
基礎模型具有數以十億計的參數,而且使用互聯網級別的大規模資料進行預訓練。訓練如此龐大且複雜的模型需要非常高的成本。取得、處理和管理資料的成本也會很高。其訓練過程需要大量的運算資源,需要使用GPU或TPU等專用硬件,並且還需要用於模型訓練的軟體和基礎設施,這都需要資金投入。此外,基礎模型的訓練時間也很長,這也會導致高成本。因此,這些模型通常作為可插拔模組使用,即將基礎模型整合到各種應用中,而無需進行大量的客製化工作
表 1 給出了常用基礎模型的細節。
本節將聚焦在LLM、視覺Transformer、VLM、具身多模態語言模型和視覺生成模型。此外,還將介紹用於訓練基礎模型的不同訓練方法
他們首先介紹了一些相關的術語和數學知識,其中涉及token 化、生成模型、判別模型、Transformer 架構、自回歸模型、掩碼式自動編碼、對比學習和擴散模型。
然後他們介紹了大型語言模型(LLM)的範例和歷史背景。之後重點說明了視覺 Transformer、多模態視覺 - 語言模型(VLM)、具身多模態語言模型、視覺生成模型。
機器人研究
這一節關注的是機器人決策、規劃和控制。在這一領域,大型語言模型(LLM)和視覺語言模型(VLM)都有潛力用於增強機器人的能力。舉個例子,LLM 可以促進任務規範過程,讓機器人可以接收和解讀來自人類的高階指令。
VLM 也有望為這一領域做出貢獻。 VLM 擅長分析視覺資料。要讓機器人做出明智的決策和執行複雜的任務,視覺理解能力是至關重要的。現在,機器人可以使用自然語言線索來增強自己執行操作、導航和互動相關任務的能力。
基於目標的視覺 - 語言策略學習(不管是透過模仿學習還是強化學習)有望透過基礎模型獲得提升。語言模型也能為策略學習技術提供回饋。這個回饋循環有助於持續提升機器人的決策能力,因為機器人可以根據從 LLM 收到的回饋來優化自己的行動。
這一節關注的是 LLM 和 VLM 在機器人決策領域的應用。
這一節分為六個部分。其中第一部分介紹了用於決策和控制和機器人策略學習,其中包括基於語言的模仿學習和語言輔助的強化學習。
第二部分是基於目標的語言 - 圖像價值學習。
第三部分介紹了使用大型語言模型來規劃機器人任務,其中包括透過語言指令來說明任務以及使用語言模型產生任務規劃的程式碼。
第四部分是用於決策的脈絡學習(ICL)。
下一個要介紹的是機器人變形金剛
第六部分則是開放詞彙庫的機器人導航和操作。
表 2 給出了一些特定於機器人的基礎模型,其中報告了模型的大小和架構、預訓練任務、推理時間和硬體設定。
要重新書寫的是:知覺
#與周圍環境互動的機器人會接收不同模態的感官訊息,例如影像、視訊、音訊和語言。這種高維度資料對機器人在環境中的理解、推理和互動至關重要。基礎模型可以將這些高維輸入轉換成容易解讀和操作的抽象結構化表徵。尤其是多模態基礎模型可讓機器人將不同感官的輸入整合成一個統一的表徵,其中包含語意、空間、時間和可供性資訊。這些多模態模型需要跨模態的交互,通常需要對齊不同模態的元素來確保一致性和相互對應。例如圖像描述任務就需要文字和圖像資料對齊。
這一節將專注於與機器人需要重新書寫的是:知覺相關的一系列任務,這些任務可使用基礎模型來對齊模態,從而獲得提升。其中的重點是視覺和語言。
這一節分為五個部分,首先是開放詞彙庫的目標檢測和3D 分類,然後是開放詞彙庫的語義分割,接下來是開放詞彙庫的3D 場景和目標表徵,然後是學習到的功能可供性,最後是預測模型。
具身AI
近段時間,有研究顯示LLM 可以成功用於具身AI 領域,其中「具身(embodied)」通常是指在世界模擬器中的虛擬具身,而非具有實體機器人身體。
這方面已經出現了一些有趣的框架、資料集和模型。其中尤其值得一提的是將 Minecraft 遊戲用作訓練具身智能體的平台。舉個例子,Voyager 使用了 GPT-4 來引導智能體探索 Minecraft 環境。其能透過上下文 prompt 設計來與 GPT-4 互動,而無需對 GPT-4 的模型參數進行微調。
強化學習是機器人學習領域的重要研究方向,研究者們正在嘗試使用基礎模型來設計獎勵函數以優化強化學習
對於機器人執行高層規劃,研究者一直在探索使用基礎模型來輔助。此外,還有一些研究者試圖將基於思考鏈的推理和動作生成方法應用於具身智能體
#挑戰與未來方向
這一節會給出將基礎模型用於機器人的相關挑戰。該團隊也會探索可望解決這些挑戰的未來研究方向。
第一個挑戰是克服訓練用於機器人的基礎模型時的數據稀缺問題,其中包括:
1. 使用未經結構化的遊戲數據和未標記的人類視頻來拓展機器人學習
2. 使用圖像修復(Inpainting)來增強數據
3. 克服訓練3D 基礎模型時的缺少3D 數據的問題
#4. 通過高保真模擬來產生合成資料
5. 使用VLM 進行資料增強 使用VLM 進行資料增強是一種有效的方法
6. 機器人的物理技能受限於技能的分佈
第二個挑戰則與即時效能有關,其中關鍵的是基礎模型的推理時間。
第三個挑戰涉及多模態表徵的限制。
第四個挑戰則是如何量化不同層級的不確定性的問題,例如實例層面和分佈層面,另外還涉及到如何校準以及應對分佈移位的難題。
第五個挑戰涉及安全評估,包括部署之前的安全測試和運行時的監控和對分佈外情況的檢測。
第六個挑戰則涉及如何選擇:使用現有的基礎模型還是為機器人建立新的基礎模型?
第七個挑戰涉及到機器人設定中的高度可變性。
第八個挑戰是如何在機器人設定中進行基準評估以及保證可複現性。
更多研究細節,可參考原論文。
以上是大模型+機器人,詳盡的綜述報告來了,多位華人學者參與的詳細內容。更多資訊請關注PHP中文網其他相關文章!

通常,机器人的主要功能是完成一些简单的操作任务,我们希望机器人可以模仿人,让能力尽可能接近人类水平。不论是小米的 CyberOne 还是特斯拉的 Optimus,人们关心的主要是其机械关节数量,控制算法和行走速度。不过在这个领域,有些人探索的方向更加脑洞大开:现在,有一种机器人把模仿真人表情做到了极致:先尝试一下自拍。从「嫌弃」到「惊讶」,都可以做到完全同步:这个机器人名叫 Ameca,是个表情怪。除了模仿,它自己也能照镜子做很多小表情,看起来非常像真人。Ameca「假装」第一次见到镜子,首

和活生生的已故历史名人聊天是个什么感觉?近日,就有一群开发者利用语言模型,把千百年来各行各业的历史名人全部「复活」成了聊天机器人,做进了一款手机app里,起名叫「你好,历史」!开发者声称,这个与古代名人聊天的app涉及的内容几乎无所不包。比如可以:与玛丽莲·梦露聊好莱坞八卦与弗里达·卡洛讨论现代艺术问问圣诞老人他有多少只驯鹿问问科特·科本为什么自杀向穴居人学习如何生火与宇宙意识辩论生命的意义不过他们也没忘记提醒用户,这些对话是由人工智能生成的,所以不要太认真。而且每个对话都是独一无二的,你永远不

大数据文摘出品作者:Caleb为庆祝英国女王伊丽莎白二世登基70周年,英国也是早早就洋溢出了庆典的味道。据了解,英国将于6月2日至5日连放4天公众假期,并在期间举行多项庆祝活动。英国皇家铸币厂也在精心打造有史以来最大的硬币,直径220毫米,重15公斤,面值15000英镑,耗时近400小时打造,是该厂1100年来生产的最大硬币。这枚金币一面雕刻着代表英国女王伊丽莎白二世的符号EⅡR,周围环绕着代表英国的玫瑰、水仙、蓟和三叶草。另一面有女王骑在马背上的图案。在这么热闹的日子里,AI当然也必须来凑一凑

人类与人工智能相比,哪个更擅长建立关系?事实上,这项革命性的技术已经存在了很长一段时间。然而,直到最近人们才意识到人工智能对人类的重要性。人工智能利用算法模拟人类,并随着时间的推移从经验中学习的能力,为这项技术与人类建立关系开辟道路。人类如何建立人际关系作为人类,我们倾向于只与少数人建立关系。我们试图确保不需要的和不相干的人从我们的生活中消失。在将我们的关系限制在少数人的同时,我们确保与那些对我们真正重要的人建立高质量的关系。然而,同样的方法在商业用语中可能不是理想的,并可能适得其反。尽管知道这

有抱负的工程师应该了解世界各地著名的机器人工程学院。现在是从事机器人和工程事业的最佳时机——从人工智能到太空探索,这一领域充满了令人兴奋的创新和进步。美国劳工统计局估计,未来10年,机械工程领域的职业总体上将保持7%的稳定增长率,确保毕业生将有大量的就业机会。机器人工程专业的学生平均工资超过9万美元,无需担心还助学贷款的问题。对于那些考虑投身机器人工程领域的人来说,选择一所合适的大学是非常重要的。世界上许多顶尖的机器人工程学院都在美国,尽管国外也有一些很棒的项目。这是7所世界上最好的机器人工程学

机器人也能干咖啡师的活了!比如让它把奶泡和咖啡搅拌均匀,效果是这样的:然后上点难度,做杯拿铁,再用搅拌棒做个图案,也是轻松拿下:这些是在已被ICLR 2023接收为Spotlight的一项研究基础上做到的,他们推出了提出流体操控新基准FluidLab以及多材料可微物理引擎FluidEngine。研究团队成员分别来自CMU、达特茅斯学院、哥伦比亚大学、MIT、MIT-IBM Watson AI Lab、马萨诸塞大学阿默斯特分校。在FluidLab的加持下,未来机器人处理更多复杂场景下的流体工作也都

还记得那个和特斯拉飙车的机器人吗?这是瑞士苏黎世联邦理工学院衍生公司研发的与公司同名的四足轮腿式机器人——Swiss-Mile,前身是ANYmal四足机器人。距离它和特斯拉飙车还不到半年的时间,它又实现了重大升级。这次升级改进了机器人的算法,运动能力直接UP UP UP ! 可以双腿站立下楼梯:(小编内心OS:如果是我穿轮滑鞋下楼梯可能会摔个狗吃屎)楼梯爬累了,坐个电梯吧,用前脚按开电梯门:面对障碍物应对自如:它还能知道什么时候该站起来,什么时候该“趴下”,双腿直立与四足运动之间的切换更丝滑:

日前,美国西北大学工程师开发出有史以来最小的遥控步行机器人,它以一种小巧可爱的螃蟹形式出现。这种微小的“螃蟹”机器人宽度只有半毫米,可以弯曲、扭曲、爬行、行走、转弯甚至跳跃,无需液压或电力。IT之家了解到,相关研究成果发表在《科学・机器人》上。据介绍,这种机器人是用形状记忆合金材料所制造的,然后可以变成所需的形状,当你加热后又会变回原来的形状,而热量消失时可以再次弹回变形时的样子。据介绍,其热量是由激光所带来的。激光通过“螃蟹”加热合金,但因为它们非常小,所以热量传播非常快,这使得它们的响应速度


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境