搜尋
首頁科技週邊人工智慧谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

大語言模型的快速「變異」,讓人類社會的走向越來越科幻了。點亮這棵科技樹後,「終結者」的現實彷彿離我們越來越近。

前幾天,微軟剛宣布了一個實驗框架,能用ChatGPT來控制機器人和無人機。

Google當然也不甘其後,在周一,來自谷歌和柏林工業大學的團隊重磅推出了史上最大視覺語言模型——PaLM-E。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

論文網址:https://arxiv.org/abs/2303.03378

#作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,而且竟然還能將兩者結合起來,處理複雜的機器人指令。

此外,透過PaLM-540B語言模型與ViT-22B視覺Transformer模型結合,PaLM-E最終的參數量高達5620億。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

橫跨機器人、視覺語言領域的「通才」模型

PaLM-E,全名為Pathways Language Model with Embodied,是一種具身視覺語言模型。

它的強大之處在於,能夠利用視覺資料來增強其語言處理能力。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

當我們訓練出最大的視覺語言模型,並與機器人結合後,會發生什麼事?結果就是PaLM-E,一個5,​​620億參數、通用、具身的視覺語言通才-橫跨機器人、視覺和語言

根據論文介紹,PaLM-E是僅解碼器的LLM,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式產生文字補全。

其訓練資料為包含視覺、連續狀態估計值和文字輸入編碼的多模式語句。

經過單一影像提示訓練,PaLM-E不僅可以引導機器人完成各種複雜的任務,還可以產生描述影像的語言。

可以說,PaLM-E展現了前所未有的靈活性和適應性,代表著一個重大飛躍,特別是人機互動領域。

更重要的是,研究人員證明,透過在多個機器人和一般視覺語言的不同混合任務組合進行訓練,可以帶來從視覺語言轉移到具身決策的幾種方法,讓機器人在規劃任務時能有效地利用數據。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

除此之外,PaLM-E特別突出的一點在於,擁有強大的正向遷移能力。

在不同領域訓練的PaLM-E,包括網路規模的一般視覺-語言任務,與執行單一任務機器人模型相比,表現明顯提高。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

而在模型尺度上,研究者則觀察到了一個顯著的優勢。

語言模型越大,在視覺語言與機器人任務的訓練中,保持的語言能力就越強。

從模型規模來看,5620億參數的PaLM-E幾乎保持了它所有的語言能力。

儘管只在單一圖像進行訓練,但PaLM-E在多模態思維鏈推理和多圖像推理等任務中表現出突出的能力。

在OK-VQA基準上,PaLM-E取得了新的SOTA。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

評估結果

在測驗中,研究者展示如何使用PaLM-E在兩個不同實體上執行規劃以及長跨度的任務。

值得注意的是,所有這些結果都是使用基於相同資料訓練的相同模型獲得的。

以前,機器人通常需要人工的協助才能完成長跨度任務。但現在,PaLM-E透過自主學習就可以搞定了。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

例如,「從抽屜拿出洋芋片」這類指令中,就包含了多個計畫步驟,以及來自機器人攝影機的視覺回饋。

經過端對端訓練的PaLM-E,可以直接從像素開始規劃機器人。由於模型被整合到控制迴路中,所以機器人在拿薯片的過程中,對途中的干擾都有穩健性。

人類:給我來點薯片。

機器人:1. 走到抽屜旁2.打開最上面的抽屜3. 從最上面的抽屜裡拿起綠色的薯片4.放在櫃檯上。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

同樣,讓機器人去拿一個蘋果時,給出圖片後,機器人執行任務步驟如下——

人類:給我拿一個蘋果。

機器人:1.走向蘋果 2.拿起蘋果 3.把它拿給操作員 4.放下蘋果 5.完成。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

除了執行長跨度任務,PaLM-E可以讓機器人執行規劃任務,例如排列積木。

研究人員根據視覺和語言輸入成功地進行多階段的計劃,並結合了長時間範圍的視覺反饋,進而讓模型能夠成功地規劃一個長週期的任務“將積木依顏色分類到不同的角落」。

如下,在排列組合上,機器人化身為多面手,依顏色將積木排序。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

模型的泛化方面,PaLM- E控制的機器人可以把紅色積木移到咖啡杯的旁邊。

值得一提的是,資料集只包含有咖啡杯的三個演示,但其中沒有一個包括紅色的積木塊。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

類似的,雖然模型從未見過烏龜,但照樣可以順利地把綠色積木推到烏龜旁邊

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

在零樣本推理方面,PaLM-E可以在給定圖像的情況下講述笑話,並展示了包括感知,基於視覺的對話和計劃在內的能力。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

多張圖的關係,PaLM-E也整得很明白,比如圖一(左)在圖二(右)的哪個位置。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

此外,PaLM-E還可以在給定帶有手寫數字的圖像中執行數學運算。

例如,如下手寫餐廳的菜單圖,2張披薩要多少錢,PaLM-E就直接給算出來了。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

以及一般的QA和標註等多種任務。

谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互

最後,研究結果也表明,凍結語言模型是通往完全保留其語言能力的通用具身多模態模型的可行之路。

但同時,研究人員也發現了解凍模型的替代路線,即擴大語言模型的規模可以顯著減少災難性遺忘。

以上是谷歌發布了史上最大的通用模型PaLM-E,該模型擁有5620億個參數,被稱為終結者中最強大的大腦,並且可以透過圖像與機器人進行交互的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能