搜尋
首頁科技週邊人工智慧一手評測Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?

機器之能報道
編輯:楊文
它來了,它來了,它帶著 Claude 3.5 Sonnet 走來了!

蟄伏三個月,就在昨晚,OpenAI 的「勁敵」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?這款大模型有啥獨到之處?

首先,它更能把握住細微差別、幽默和複雜指令,並且書寫語氣更自然、親切。

它還是Anthropic最強的視覺模型,擅長解釋圖表、圖形或從不完美的圖像中轉錄文字等任務。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?此外,它在推理、閱讀理解、數學、科學和編碼等多項評估基準中表現不凡。

總之,根據官方介紹,Claude 3.5 Sonnet 是迄今為止最聰明的模型,在多個方面吊打 GPT-4o。

話說到這份上,那我們就不客氣了,直接讓 Claude 3.5 Sonnet 和 GPT-4o 對決,孰優孰劣實力說話。


第一局:心眼子練習

日常生活中,總是會遇到一些尷尬的場面。

例如,飯局上,你幫領導盛飯,領導接過後,說:「盛這麼多,餵豬呢?」 這種情況下,高情商者會如何應對?

我們把這個問題丟給這兩個大模型。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?它們是懂它們是懂的。

Claude 3.5 一口氣給了 5 個示例,不過第 2 句「我眼神不好使,把您當成我們單位的頂樑柱了」,這是拍馬蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得這麼好,我可得向您請教減肥秘籍」,這馬屁拍的是恰到好處啊。

值得一提的是,Claude 3.5 Sonnet 也上線了一個新功能 —— 提示詞再編輯功能。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?使用者可直接在原始提示詞上進行編輯修改,而不用一遍遍複製貼上。


第二局:根據菜餚產生食譜

我們上傳了一張「番茄炒蛋」的圖片,分別讓這兩個大模型介紹一下製作流程。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?它們對於這道經典是相當的方法倆懂得中國人做菜的精髓「少許」,也都強調加點糖平衡酸度。

論做菜,兩個大模型不相上下。


第三局:做數學題

官方給出的評估表中,GPT-4o 的數學得分要略高於 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 則是 71.1%。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我們從 2024 年新高考 I 卷中摘錄了兩道題目,一道是選擇題,一道是解答題,分別以圖片的形式“投餵”給這兩個大模型。

第一道是送分題,正確答案是 A。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

,不僅給出了這一點的解題步驟。
我們又將解答題第一題交給他們,還讓它們給出解題過程。 一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

正確答案是:B=3/π。

Claude 3.5 Sonnet:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

其實,這道題目了錯誤答案。

更搞笑的是,這錯誤答案也不是憑空出來的,而是經過了一連串的推理,連犯的錯都一個樣。
一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?對於數學能力,這兩個大模型半斤八兩。

第四局:玩網絡熱梗
今年,AI 視頻領域遍地開花,不僅闖入新的“踢館者”—— 可靈、Luma、即夢等,曾經的AI影片「扛把子」Runway 也「王者歸來」。

由此,網友製作了這張梗圖,來調侃如今各大 AI 視訊應用的江湖地位。

我們分別向兩家大模型上傳這張梗圖,並輸入提示詞「這張圖是什麼意思」,以此來測試它們的圖片解讀能力。

Claude 3.5 Sonnet:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?.搞懂這張梗圖的內涵,也不認識這幾個AI 影片應用,只是含混其辭地表示「這是對線上社群、人工智慧系統或虛擬世界中權力結構的評論。」

GPT-4o 一瞅就明白其中深意,「這張圖片可能像徵著Runway 在人工智慧和創意工具領域的公認優勢或領導地位,與提到的其他應用相比,Runway 受到高度重視。」顯而易見,這一局, GPT-4o 完勝。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

第五局:讀懂世界名畫

我們拿出皮埃爾・奧古斯特・庫特在1873 年畫的《春光》一圖,讓它們識別畫作並進行賞析。

Claude 3.5 Sonnet:

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

這兩個大模型堪稱藝術界的「行家里手」,均認出了這幅畫作,基礎信息也表達無誤,同時從不同的角度進行賞析。

它們都提到市場價值,不過,Claude 3.5 Sonnet 拒絕置評,只提醒「藝術品估價需要專家評估,考慮多種因素,而且價格可能會隨著時間的推移而大幅波動。」

GPT -4o 則認為該畫可能會拍出數百萬美元的價格,這是不是太小看這幅經典畫作了?

這一局,兩個大模型算是打成平手。


第六局:AI 看病

最近網友們玩起了用 AI 大模型來看病。我們找了一張 6 歲孩子牙齒的 X 光照片,讓大模型們透過牙齒推斷年齡,以及有哪些問題。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?.孩子的牙齒,下顎牙齒有些擁擠,恆牙似乎受到阻生,牙齒上較暗的區域或許有腐爛。
GPT-4o 則認為這是 7-9 歲孩子的牙齒,主要的牙齒問題包括恆牙擁擠和潛在的嵌塞。

同時,它們都提到這需要專業的牙醫檢查。

兩相比較,Claude 3.5 Sonnet 對於年齡的判斷更為精準一些。

這一局,Claude 3.5 略勝一籌。

此外,不少網友還在線上整活兒,搗鼓出不少有趣的玩法。

比如說,EverArt 創辦人 Pietro Schirano 在 Claude 3.5 Sonnet 的幫助下,使用幾何形狀克隆了馬裡奧遊戲,整個過程僅持續 3 分鐘。

他表示,「最瘋狂的部分是它還為角色提供了動畫,而且這些形狀看起來很新穎。」一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?視頻連結cn/link/a412963e013751a90654aa344bc26efe

各位讀者,你們覺得這次Claude 3.5 Sonnet 有沒有完成對GPT-4o 的「絕殺」呢?

以上是一手評測Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
商業領袖生成引擎優化指南(GEO)商業領袖生成引擎優化指南(GEO)May 03, 2025 am 11:14 AM

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥May 03, 2025 am 11:13 AM

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

世界模型如何從根本上重塑生成AI和LLM的未來世界模型如何從根本上重塑生成AI和LLM的未來May 03, 2025 am 11:12 AM

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

2050年五月:我們要慶祝什麼?2050年五月:我們要慶祝什麼?May 03, 2025 am 11:11 AM

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

您從未聽說過的DeepFake探測器準確是98%您從未聽說過的DeepFake探測器準確是98%May 03, 2025 am 11:10 AM

為了幫助解決這一緊急且令人不安的趨勢,在2025年2月的TEM期刊上進行了同行評審的文章,提供了有關該技術深擊目前面對的最清晰,數據驅動的評估之一。 研究員

量子人才戰爭:隱藏的危機威脅技術的下一個邊界量子人才戰爭:隱藏的危機威脅技術的下一個邊界May 03, 2025 am 11:09 AM

從大大減少制定新藥所需的時間到創造更綠色的能源,企業將有巨大的機會打破新的地面。 不過,有一個很大的問題:嚴重缺乏技能的人

原型:這些細菌可以產生電力原型:這些細菌可以產生電力May 03, 2025 am 11:08 AM

幾年前,科學家發現某些類型的細菌似乎通過發電而不是吸收氧氣而呼吸,但是它們是如何做到的,這是一個謎。一項發表在“雜誌”雜誌上的新研究確定了這種情況的發生方式:Microb

AI和網絡安全:新政府的100天估算AI和網絡安全:新政府的100天估算May 03, 2025 am 11:07 AM

在本週的RSAC 2025會議上,Snyk舉辦了一個及時的小組,標題為“前100天:AI,政策和網絡安全如何碰撞”,其中包括全明星陣容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前記者和帕特納(Partne)

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器