無需改變原意,機器人是一種技術,可以有無限的可能性,尤其是當與智慧技術結合時。最近,一些具有革命性應用的大型模型有望成為機器人的智慧中樞,幫助機器人感知和理解世界,做出決策和規劃
近日,CMU 的Yonatan Bisk 和Google DeepMind夏斐(Fei Xia)領導的聯合團隊發布了一篇綜述報告,介紹了基礎模型在機器人領域的應用和發展。報告的 first aurthor 是 CMU 的博士四年級學生胡亞非(Yafei Hu),他的研究集中在機器人和人工智慧的交叉應用上。與他合作的是謝泉廷(Quanting Xie),專注於透過基礎模型探索具身智能(embodied intelligence)。
論文網址:https://arxiv.org/pdf/2312.08782.pdf
開發能自主適應不同環境的機器人是人類一直以來的夢想,但這卻是一條漫長且充滿挑戰的道路。先前,利用傳統深度學習方法的機器人感知系統通常需要大量有標註資料來訓練監督學習模型,而如果透過眾包方式來標註大型資料集,成本又非常高。
此外,由於經典監督學習方法的泛化能力有限,為了將這些模型部署到具體的場景或任務,這些訓練得到的模型通常還需要精心設計的領域適應技術,而這又通常需要進一步的資料收集和標註步驟。類似地,經典的機器人規劃和控制方法通常需要仔細地建模世界、智能體自身的動態和 / 或其它智能體的動態。這些模型通常是針對各個特定環境或任務所建構的,而當情況有變時,就需要重新建構模型。這說明經典模型的遷移性能也有限。
事實上,對於許多用例,建立有效模型的成本要不是太高,就是完全無法辦到。儘管基於深度(強化)學習的運動規劃和控制方法有助於緩解這些問題,但它們仍舊會受到分佈移位(distribution shift)和泛化能力降低的影響。
雖然在開發通用型機器人系統上正面臨諸多挑戰,但自然語言處理(NLP)和電腦視覺(CV)領域近來卻進展迅猛,其中包括用於NLP 的大型語言模型(LLM)、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。
所謂的「基礎模型(foundation model)」其實就是大型預訓練模型(LPTM)。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用,並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域,還有研究團隊正針對機器人任務開發基礎模型,例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力,能適應不同的任務甚至具身方案。也有研究者直接將視覺 / 語言基礎模型用於機器人任務,這展現了將不同機器人模組融合成單一統一模型的可能性。
儘管視覺和語言基礎模型在機器人領域前景可期,全新的機器人基礎模型也正在開發中,但機器人領域仍有許多挑戰難以解決。
從實際部署角度看,模型往往是不可復現的,無法泛化到不同的機器人形態(多具身泛化)或難以準確理解環境中的哪些行為是可行的(或可接受的)。此外,大多數研究使用的都是基於 Transformer 的架構,關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究,例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。
最後,我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。
這篇綜述論文總結了機器人領域所使用的基礎模型,目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。
在這篇綜述中,研究人員使用的"基礎模型(foundation models)"這個術語包含了機器人領域的兩個方面:(1) 目前已存在的主要視覺和語言模型,主要是透過零樣本和上下文學習來實現;(2) 使用機器人生成的數據專門開發和應用基礎模型,解決機器人任務。研究人員總結了相關論文中關於基礎模型的方法,並對這些論文的實驗結果進行了統合分析
綜述的整體結構
預備知識
為了幫助讀者更好地理解這篇綜述的內容,團隊首先提供了一節預備知識的內容
他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡進行簡單說明,詳情請參閱原論文。
- 機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。 該團隊將機器人感知分為被動感知、主動感知和狀態估計。
- 在機器人決策和規劃部分,研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
- 機器的動作生成也有經典控制方法和基於學習的控制方法。
接下來團隊將介紹基礎模型並主要集中在NLP 和CV 領域,涉及的模型包括:LLM、VLM、視覺基礎模型、文字條件式圖像生成模型。
機器人領域面臨的挑戰
典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 展示了這五大挑戰的分類。
#泛化
機器人系統往往難以準確地感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務,這會進一步限制它們在真實世界中的實用性。此外,由於機器人硬體不同,將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人,可以部分解決泛化問題。而在不同機器人形態上泛化這樣更進一步的問題還有待解答。
資料稀缺
為了開發出可靠的機器人模型,大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集,包括自動駕駛、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。不過,由於任務和環境的多樣性,在現實世界中收集足夠且廣泛的數據的過程會更加複雜。在現實世界收集資料還會有安全方面的疑慮。另外,在現實世界中,大規模收集數據非常困難,而要收集到訓練基礎模型所使用的互聯網規模級的圖像/文本數據,那就更困難了。
為了解決這些挑戰,許多研究工作都試圖在模擬環境中產生合成資料。這些模擬環境能夠提供非常逼真的虛擬世界,使得機器人能夠在接近真實場景的情況下學習和運用自己的技能。然而,使用模擬環境也存在一些局限性,特別是在物體多樣性方面,這導致所學到的技能難以直接應用於真實世界情境
一種頗具潛力的方法是協作式資料收集,即將不同實驗室環境和機器人類型的資料收集在一起,如圖4a 所示。但是,該團隊深度研究了 Open-X Embodiment Dataset,發現在資料類型可用性方面仍有一些限制。
模型與原文要求
經典的規劃和控制方法通常需要精心設計的環境和機器人模型。先前的學習為基礎的方法(如模仿學習和強化學習)是以端到端的方式訓練策略,也就是直接根據感官輸入獲取控制輸出,這樣能避免建構和使用模型。這些方法能部分解決依賴明確模型的問題,但它們往往難以泛化地用於不同的環境和任務。
有兩個問題要解決:(1) 如何學習那些與模型無關,能夠良好泛化的策略? (2) 如何學習優秀的世界模型,從而應用經典的模型為基礎的方法?
任務規範
為了得到通用型智能體,一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解。通常而言,這些任務規範由使用者提供,但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來許多問題,包括能為這些任務規範提供什麼樣的最佳實踐,還有起草這些規範是否夠自然簡單。基於機器人對自身能力的理解,理解和解決任務規範中的模糊性也充滿挑戰。
不確定性和安全性
#為了在現實世界中部署機器人,一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同,不確定性可以分為認知不確定性(缺乏知識導致不確定)和偶然不確定性(環境中固有的噪音)。
不確定性量化(UQ)的成本可能會高得讓研究和應用難以為繼,也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質,為了在不犧牲模型泛化性能的同時實現可擴展性,提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計,並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。
最近雖有一些進展,但要確保機器人有能力學習經驗,從而在全新環境中微調自己的策略並確保安全,這一點還依然充滿挑戰。
目前研究方法概況
本文也總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域使用的基礎模型分成了兩大類:用於機器人的基礎模型和重寫的內容是:機器人基礎模型(RFM)。
機器人的基礎模型是指無需額外微調或訓練,以零樣本的方式將視覺和語言基礎模型用於機器人。機器人基礎模型可以透過視覺- 語言預訓練初始化來進行熱啟動,或直接在機器人資料集上訓練模型
詳細分類
用於機器人的基礎模型
#這段內容的重寫如下:這部分內容著重於在機器人領域中將視覺和語言基礎模型應用到零樣本情境。其中,主要包括將VLM零樣本部署到機器人感知應用中,以及將LLM的情境學習能力應用於任務層面與運動層面的規劃與動作生成。圖6展示了一些典型的研究工作
#重寫的內容是:機器人基礎模型(RFM)
隨著包含來自真實機器人的狀態-動作對的機器人資料集的成長,重寫的內容是:機器人基礎模型(RFM)類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。
研究團隊在討論中總結了不同類型的 RFM。首先是能夠在單一機器人模組中執行特定任務的 RFM,也被稱為單目標機器人基礎模型。例如,能夠產生控制機器人低層動作的 RFM 或能夠產生更高層運動規劃的模型。文章中也介紹了能夠在多個機器人模組中執行任務的RFM,即通用模型,可以執行感知、控制甚至非機器人任務
##基礎模型在解決機器人挑戰方面有什麼作用?
前文列出了機器人領域面臨的五大挑戰。這裡將介紹基礎模型可以如何幫助解決這些挑戰。
所有與視覺訊息相關的基礎模型(如 VFM、VLM 和 VGM)都可用於機器人的感知模組。而 LLM 的功能更多樣化,可用於規劃和控制。重寫的內容是:機器人基礎模型(RFM)通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。
從表中可以看出,所有的基礎模型都能夠很好地泛化不同機器人模組的任務。特別是LLM在任務規範方面表現出色。另一方面,RFM則擅長應對動態模型的挑戰,因為大多數RFM都是無模型方法。對於機器人的感知能力而言,泛化能力和模型的挑戰是相互關聯的。如果感知模型已經具備了良好的泛化能力,那麼就不需要獲取更多的數據來進行領域適應或額外微調了
另外,在安全挑戰方面還缺乏研究,這會是重要的未來研究方向。
目前的實驗和評估概況
這一部分總結了目前研究成果的資料集、基準和實驗。
資料集和基準
#僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。
因此,為了讓機器人智能體能更好地理解世界,研究社群不僅在適應來自語言和視覺領域的基礎模型,也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。
目前這些工作可以分為兩個主要方向:一方面是從現實世界收集數據,另一方面是從模擬世界收集數據並將其遷移到現實世界。每個方向都有其優點和缺點。從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模擬器包括Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等
##對目前方法的評估分析(Meta-Analysis)
該團隊的另一個重大貢獻是對本綜述報告中提到的論文中的實驗進行了元分析,這可以為理清以下問題有所幫助:1. 人們研究解決的是哪些任務?
2. 訓練模型使用了哪些資料集或模擬器?測試用的機器人平台有哪些?
3. 研究社群使用了哪些基礎模型?解決任務的效果如何?
4. 這些方法中較常使用哪些基礎模型?
表 2-7 和圖 11 給出了分析結果。
該團隊透過Meta-analysis 得到的一些主要觀察:
###研究社群對機器人操作任務(Manipulation)的關注不平衡
#泛化能力(Generalization)和穩健性需要提升
對低層動作(Low-level Control)的探索很有限
#控制頻率太低(
缺乏統一的測試基準(Metrics)和測試平台(Simulation or Hardware),使得對比變得非常困難。
討論和未來方向
該團隊總結了一些仍待解決的挑戰和值得討論的研究方向:
- 如何為機器人具身設定標準基礎(grounding)?
- 安全(Safety)和不確定性(Uncertainty)?
- 端對端方法(end-to-end)和模組化(Modular)方法是否無法相容?
- 對具身的物理變化的適應#能力
- 世界模型(World Model)方法還是與模型無關的方法?
- 新機器人平台與多感官資訊
以上是揭示基礎模型與機器人發展道路的綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。