搜尋
首頁科技週邊人工智慧馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

馬斯克的第一代多模態模型Grok-1.5V,終於來了!

Grok 1.5V,號稱是能連結數位世界和實體世界。

除了文字功能,它還能處理文件、圖示、螢幕截圖和照片之類的各種視覺資訊。

很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

Jim Fan, 英偉達資深科學家,發現了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

透過使用“思維鏈”,可以幫助汽車解決複雜場景,用規則和反事實進行推理,解釋其決策,Grok-1.5 V能夠將感知提升至像素級,進而促進運行映射為像素->動作。

由此,特斯拉FSD V13就很有可能會理解語言Token!

特斯拉的優勢在於,具有高度成熟的資料管理線,因此,就不難用高品質的人類解釋痕跡來標記大量邊緣案例。在多模態FSD推理上,微調Grok的表現就很有可能會遠勝於GPT-4V和Gemini。

你可能會說,以前Wayve的LINGO-1不是也有類似的想法麼?但別忘了,特斯拉正在旋轉的,是個無與倫比的資料飛輪,規模遠超過以前。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

馬斯克也適時地出現在了留言區,進一步解釋——

有兩種資料來源可以無限擴展,合成資料和真實世界影片。前者存在一個真偽的問題,而後者則不存在。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

有網友表示,好傢伙,這聽起來是通往AGI最可行的路徑了!具有顯式語言推理的多模態模型,始終如一地推論世界模型。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

模型能力

#在xAI的官網上,對於Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。

無論是多學科推理,或是文件理解、科學圖表、表格、截圖和照片等多個領域,Grok-1.5V都和它們有的一拼。

尤其令人驚訝的,是它在理解物理世界時所表現出的卓越能力。

在RealWorldQA基準測試中,沒有思維鏈提示、零樣本設定的情況下,用以下資料集對Grok進行評估,可以看到Grok的表現比同類模型更好。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

下面7個具有代表性的例子,更說明了Grok 1.5V在不同場景中的良好表現。

1. 根據圖表寫程式碼

下圖給出了一個簡單的猜謎遊戲的流程圖,Grok可以根據流程圖具體內容,使用python程式碼實現該流程。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用戶:

你能把它翻譯成Python程式碼嗎?

Grok:

#當然!這張流程圖描述了一個簡單的猜謎遊戲,其中電腦產生一個隨機數,而使用者需要猜出它是什麼。以下是表示流程圖中邏輯的Python程式碼:

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

這段程式碼將運行流程圖中描述的猜謎遊戲。在使用者猜出正確數字之前,系統會一直提示使用者輸入猜測的數字。

2. 計算卡路里

#根據食品的營養成分錶,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計算出,用戶給予5片該食品的卡路里總數是100。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

使用者:

#5片含有多少卡路里?

Grok:

#如果一份包含3片,總熱量為60卡路里,那麼5片的熱量大約是100卡路里。

首先,確定每片的熱量:60卡路里÷3片=20卡路里/片。

接著,將每片的熱量乘以片數:20卡路里x5片=100卡路里。

3. 從繪畫到睡前故事

Grok可以根據畫作的內容,講述一個簡短的睡前故事。

例如下面這個隨筆塗鴉:

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

#使用者:

##這是我兒子畫的,你能根據他的畫作講一個睡前小故事嗎?

Grok:

#很久很久以前,在一個充滿冒險與奇蹟的土地上,生活著一個勇敢的小男孩,名叫Timmy。他與家人住在一個溫暖的小屋裡,最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裡,Timmy決定去附近的森林探險。他準備了他最喜歡的零食、一本指南針和一本信賴的筆記本,用來記錄他即將見到的所有奇妙事物。

深入森林後,Timmy發現了一條在陽光照耀下閃閃發光的神奇河流。河流的迷人景緻讓他決定做一隻小紙船,把它放在水面上,作為對森林精靈的一份特別的問候。

Timmy小心翼翼地折好紙船,並在上面畫了一個笑臉,寄託了他對森林精靈的喜愛和祝福。隨後,他輕輕地把紙船放在河流中,目送它隨水漂流而去。

夕陽西下,Timmy知道該回家了。他回想起在森林中度過的這一天,知道這段美好的記憶將永遠伴隨著他。

回到家,Timmy向家人講述了他的冒險,家人聽後都感到非常高興,並相信他未來定會經歷更多精彩的冒險。

於是,帶著滿心的愛與夢想,Timmy慢慢進入了夢鄉,期待在他的想像世界中探索新的冒險。

4. 看懂梗圖馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

#下面這張梗圖,左邊是新創公司,右邊是大公司,講的是什麼意思呢?

小編第一眼是沒看懂。看完Grok的解釋,才恍然大悟。

用戶:

##########我不是很理解這張圖,請解釋一下。 ###############Grok:#######

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 

對現實世界的理解

開發有用的現實世界AI助手,提高模型對物理世界的理解是至關重要的。

為了實現這個目標,研究團隊也推出了一個新的基準-RealWorldQA。

此基準可用於評估多模態模型對於基本現實世界空間的理解能力。

雖然目前基準中的許多範例對人類來說理解比較容易,但對於前沿模型來說還是具有一定的挑戰性。

最初發布的RealWorldQA包含700多張圖片,每張圖片都有一個問題和易於驗證的答案。

例如,如果我們問它:圖片中的披薩刀和剪刀哪個物體比較大?

Grok給的答案是:它們的大小差不多。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從目前車道可以去哪裡? A.左轉 B.直行 C.左轉直行 D.右轉

Grok會選A。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從轎車前方的攝影機來看,是否有足夠的空間繞過前面的灰色轎車?

Grok給的答案是:是。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從這張圖片來看,恐龍是朝向哪個方向?

Grok回答:東。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

除了其他真實世界的影像外,該資料集還包括從車輛上拍攝的匿名影像。

研究團隊將該資料集進行了開源,並希望隨著多模態模型的改進而不斷擴展該資料集。

最後,xAI官網總結道,憑著提高多模態理解和生成能力,它們將逐漸逼近構建能夠理解宇宙的有益AGI。

而接下來幾個月裡,估計我們還會看見影像、音訊、視訊等多模態上,這兩項能力的重大改進。

以上是馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Gemma範圍:Google'用於凝視AI的顯微鏡Gemma範圍:Google'用於凝視AI的顯微鏡Apr 17, 2025 am 11:55 AM

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

誰是商業智能分析師以及如何成為一位?誰是商業智能分析師以及如何成為一位?Apr 17, 2025 am 11:44 AM

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

如何在SQL中添加列? - 分析Vidhya如何在SQL中添加列? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

業務分析師與數據分析師業務分析師與數據分析師Apr 17, 2025 am 11:38 AM

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

什麼是Excel中的Count和Counta? - 分析Vidhya什麼是Excel中的Count和Counta? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Chrome在這裡與AI:每天都有新事物!Chrome在這裡與AI:每天都有新事物!Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

AI的人類方面:福祉和四人底線AI的人類方面:福祉和四人底線Apr 17, 2025 am 11:28 AM

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

您應該知道的5個改變遊戲規則的量子計算用例您應該知道的5個改變遊戲規則的量子計算用例Apr 17, 2025 am 11:24 AM

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。