它來了,它來了,它帶著 Claude 3.5 Sonnet 走來了!
蟄伏三個月,就在昨晚,OpenAI 的「勁敵」Anthropic 上新了,推出新一代模型 ——
Claude 3.5 Sonnet!
首先,它更能把握住細微差別、幽默和複雜指令,並且書寫語氣更自然、親切。
它還是Anthropic最強的視覺模型,擅長解釋圖表、圖形或從不完美的圖像中轉錄文字等任務。
此外,它在推理、閱讀理解、數學、科學和編碼等多項評估基準中表現不凡。
總之,根據官方介紹,Claude 3.5 Sonnet 是迄今為止最聰明的模型,在多個方面吊打 GPT-4o。
話說到這份上,那我們就不客氣了,直接讓 Claude 3.5 Sonnet 和 GPT-4o 對決,孰優孰劣實力說話。
日常生活中,總是會遇到一些尷尬的場面。
例如,飯局上,你幫領導盛飯,領導接過後,說:「盛這麼多,餵豬呢?」 這種情況下,高情商者會如何應對?
我們把這個問題丟給這兩個大模型。
Claude 3.5 Sonnet:GPT-4o:
Claude 3.5 一口氣給了 5 個示例,不過第 2 句「我眼神不好使,把您當成我們單位的頂樑柱了」,這是拍馬蹄子上了吧。
GPT-4o 就更懂「人情世故」了,「看您身材保持得這麼好,我可得向您請教減肥秘籍」,這馬屁拍的是恰到好處啊。
值得一提的是,Claude 3.5 Sonnet 也上線了一個新功能 —— 提示詞再編輯功能。
使用者可直接在原始提示詞上進行編輯修改,而不用一遍遍複製貼上。
我們上傳了一張「番茄炒蛋」的圖片,分別讓這兩個大模型介紹一下製作流程。
Claude 3.5 Sonnet:GPT-4o:
論做菜,兩個大模型不相上下。
第三局:做數學題 官方給出的評估表中,GPT-4o 的數學得分要略高於 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 則是 71.1%。 我們從 2024 年新高考 I 卷中摘錄了兩道題目,一道是選擇題,一道是解答題,分別以圖片的形式“投餵”給這兩個大模型。 第一道是送分題,正確答案是 A。 Claude 3.5 Sonnet: GPT-4o: GPT-4o: 其實,這道題目了錯誤答案。 第四局:玩網絡熱梗 由此,網友製作了這張梗圖,來調侃如今各大 AI 視訊應用的江湖地位。
GPT-4o 一瞅就明白其中深意,「這張圖片可能像徵著Runway 在人工智慧和創意工具領域的公認優勢或領導地位,與提到的其他應用相比,Runway 受到高度重視。」顯而易見,這一局, GPT-4o 完勝。 我們拿出皮埃爾・奧古斯特・庫特在1873 年畫的《春光》一圖,讓它們識別畫作並進行賞析。 Claude 3.5 Sonnet: GPT-4o:
這兩個大模型堪稱藝術界的「行家里手」,均認出了這幅畫作,基礎信息也表達無誤,同時從不同的角度進行賞析。 它們都提到市場價值,不過,Claude 3.5 Sonnet 拒絕置評,只提醒「藝術品估價需要專家評估,考慮多種因素,而且價格可能會隨著時間的推移而大幅波動。」 GPT -4o 則認為該畫可能會拍出數百萬美元的價格,這是不是太小看這幅經典畫作了? 這一局,兩個大模型算是打成平手。 第六局:AI 看病 最近網友們玩起了用 AI 大模型來看病。我們找了一張 6 歲孩子牙齒的 X 光照片,讓大模型們透過牙齒推斷年齡,以及有哪些問題。 Claude 3.5 Sonnet: GPT-4o:
今年,AI 視頻領域遍地開花,不僅闖入新的“踢館者”—— 可靈、Luma、即夢等,曾經的AI影片「扛把子」Runway 也「王者歸來」。
以上是一手評測Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!