搜尋
首頁科技週邊人工智慧一手評測Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?

機器之能報道
編輯:楊文
它來了,它來了,它帶著 Claude 3.5 Sonnet 走來了!

蟄伏三個月,就在昨晚,OpenAI 的「勁敵」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?這款大模型有啥獨到之處?

首先,它更能把握住細微差別、幽默和複雜指令,並且書寫語氣更自然、親切。

它還是Anthropic最強的視覺模型,擅長解釋圖表、圖形或從不完美的圖像中轉錄文字等任務。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?此外,它在推理、閱讀理解、數學、科學和編碼等多項評估基準中表現不凡。

總之,根據官方介紹,Claude 3.5 Sonnet 是迄今為止最聰明的模型,在多個方面吊打 GPT-4o。

話說到這份上,那我們就不客氣了,直接讓 Claude 3.5 Sonnet 和 GPT-4o 對決,孰優孰劣實力說話。


第一局:心眼子練習

日常生活中,總是會遇到一些尷尬的場面。

例如,飯局上,你幫領導盛飯,領導接過後,說:「盛這麼多,餵豬呢?」 這種情況下,高情商者會如何應對?

我們把這個問題丟給這兩個大模型。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?它們是懂它們是懂的。

Claude 3.5 一口氣給了 5 個示例,不過第 2 句「我眼神不好使,把您當成我們單位的頂樑柱了」,這是拍馬蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得這麼好,我可得向您請教減肥秘籍」,這馬屁拍的是恰到好處啊。

值得一提的是,Claude 3.5 Sonnet 也上線了一個新功能 —— 提示詞再編輯功能。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?使用者可直接在原始提示詞上進行編輯修改,而不用一遍遍複製貼上。


第二局:根據菜餚產生食譜

我們上傳了一張「番茄炒蛋」的圖片,分別讓這兩個大模型介紹一下製作流程。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?它們對於這道經典是相當的方法倆懂得中國人做菜的精髓「少許」,也都強調加點糖平衡酸度。

論做菜,兩個大模型不相上下。


第三局:做數學題

官方給出的評估表中,GPT-4o 的數學得分要略高於 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 則是 71.1%。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我們從 2024 年新高考 I 卷中摘錄了兩道題目,一道是選擇題,一道是解答題,分別以圖片的形式“投餵”給這兩個大模型。

第一道是送分題,正確答案是 A。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

,不僅給出了這一點的解題步驟。
我們又將解答題第一題交給他們,還讓它們給出解題過程。 一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

正確答案是:B=3/π。

Claude 3.5 Sonnet:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

其實,這道題目了錯誤答案。

更搞笑的是,這錯誤答案也不是憑空出來的,而是經過了一連串的推理,連犯的錯都一個樣。
一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?對於數學能力,這兩個大模型半斤八兩。

第四局:玩網絡熱梗
今年,AI 視頻領域遍地開花,不僅闖入新的“踢館者”—— 可靈、Luma、即夢等,曾經的AI影片「扛把子」Runway 也「王者歸來」。

由此,網友製作了這張梗圖,來調侃如今各大 AI 視訊應用的江湖地位。

我們分別向兩家大模型上傳這張梗圖,並輸入提示詞「這張圖是什麼意思」,以此來測試它們的圖片解讀能力。

Claude 3.5 Sonnet:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?.搞懂這張梗圖的內涵,也不認識這幾個AI 影片應用,只是含混其辭地表示「這是對線上社群、人工智慧系統或虛擬世界中權力結構的評論。」

GPT-4o 一瞅就明白其中深意,「這張圖片可能像徵著Runway 在人工智慧和創意工具領域的公認優勢或領導地位,與提到的其他應用相比,Runway 受到高度重視。」顯而易見,這一局, GPT-4o 完勝。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

第五局:讀懂世界名畫

我們拿出皮埃爾・奧古斯特・庫特在1873 年畫的《春光》一圖,讓它們識別畫作並進行賞析。

Claude 3.5 Sonnet:

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

這兩個大模型堪稱藝術界的「行家里手」,均認出了這幅畫作,基礎信息也表達無誤,同時從不同的角度進行賞析。

它們都提到市場價值,不過,Claude 3.5 Sonnet 拒絕置評,只提醒「藝術品估價需要專家評估,考慮多種因素,而且價格可能會隨著時間的推移而大幅波動。」

GPT -4o 則認為該畫可能會拍出數百萬美元的價格,這是不是太小看這幅經典畫作了?

這一局,兩個大模型算是打成平手。


第六局:AI 看病

最近網友們玩起了用 AI 大模型來看病。我們找了一張 6 歲孩子牙齒的 X 光照片,讓大模型們透過牙齒推斷年齡,以及有哪些問題。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?.孩子的牙齒,下顎牙齒有些擁擠,恆牙似乎受到阻生,牙齒上較暗的區域或許有腐爛。
GPT-4o 則認為這是 7-9 歲孩子的牙齒,主要的牙齒問題包括恆牙擁擠和潛在的嵌塞。

同時,它們都提到這需要專業的牙醫檢查。

兩相比較,Claude 3.5 Sonnet 對於年齡的判斷更為精準一些。

這一局,Claude 3.5 略勝一籌。

此外,不少網友還在線上整活兒,搗鼓出不少有趣的玩法。

比如說,EverArt 創辦人 Pietro Schirano 在 Claude 3.5 Sonnet 的幫助下,使用幾何形狀克隆了馬裡奧遊戲,整個過程僅持續 3 分鐘。

他表示,「最瘋狂的部分是它還為角色提供了動畫,而且這些形狀看起來很新穎。」一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?視頻連結cn/link/a412963e013751a90654aa344bc26efe

各位讀者,你們覺得這次Claude 3.5 Sonnet 有沒有完成對GPT-4o 的「絕殺」呢?

以上是一手評測Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),