3 月8 日消息,週一,來自谷歌和柏林工業大學的一組人工智慧研究人員推出了史上最大的視覺語言模型——PaLM-E,參數量高達5620 億(GPT-3 的參數量為1750 億)。
##PaLM-E 是迄今為止已知的最大VLM(視覺語言模型)。作為一種多模態具身 VLM,它不僅可以理解影像,還能理解、生成語言,執行各種複雜的機器人指令而無需重新訓練。它也展示出了強大的湧現能力(模型有不可預測的表現)。
據谷歌稱,當得到一個高級命令,如“把抽屜裡的米片拿給我”,PaLM-E 可以為帶有手臂的移動機器人平台(由谷歌機器人公司開發)生成一個行動計劃,並自行執行這些行動。
PaLM-E 透過分析來自機器人攝影機的資料來實現這一目標,而無需對場景進行預處理。這消除了人類對資料進行預處理或註釋的需要,使機器人控制更加自主。
PaLM-E 還很有彈性,能夠對環境做出反應。例如,PaLM-E 模型可以引導機器人從廚房拿一袋薯片,由於 PaLM-E 整合到了控制迴路中,它對任務中可能發生的中斷有了抵抗力。在一個影片例子中,一名研究人員從機器人手中抓起薯片並移動它們,但機器人找到了薯片並再次抓起它們。
另外,PaLM-E 模型也可控制機器人自主完成原需人類指導的複雜任務。除了機器人技術外,Google研究人員還觀察到使用大型語言模型作為PaLM-E 核心的幾個有趣效果,其中一個是PaLM-E 能表現出“正向轉移”,這意味著將從一個任務中學到的知識和技能轉移到另一個任務中,相較單任務機器人模型能有更好的表現。
Google研究人員計劃未來將探索 PaLM-E 在現實世界中有更多應用,例如家庭自動化或工業機器人,也希望 PaLM-E 能夠激發更多關於多模態 AI 的應用。
IT之家曾報道,身為GoogleAI 勁敵的微軟近期也發表了「ChatGPT for Robotics」的論文,以類似的方式結合視覺數據和大型語言模型來控制機器人。
以上是5620 億參數!谷歌發布史上最大「通才」AI 模型 PaLM-E,可讓機器人自主執行多種任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!