搜尋
首頁科技週邊人工智慧GPT-4時代已過?全球網友實測Claude 3,只有震撼

大模型的純文字方向,已經捲到頭了?

昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。

系列包含三個模型,依能力由弱到強排列分別為 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、程式設計、多語言理解、視覺等多個維度樹立了新的行業基準。

Anthropic 表示,Claude 3 Opus 擁有人類本科生程度的知識。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

在新模型發布後,Claude 首次帶來了對多模態能力的支持(Opus 版本的MMMU 得分為59.4%,超過GPT-4V,與Gemini  1.0 Ultra 持平)。使用者現在可以上傳照片、圖表、文件和其他類型的非結構化數據,讓 AI 進行分析和解答。

另外,這三種模型也保留了 Claude 系列模型一貫的優勢,即較長的上下文視窗。最初階段支援200K token的上下文窗口,但Anthropic表示,這三個模型都支援100萬token的上下文輸入(針對特定客戶),相當於英文版《白鯨》或《哈利・波特與死亡聖器》的篇幅。

不過,在定價上,能力最強的Claude 3 也比GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬token 輸入/ 輸出收費為10/ 30 美元;而Claude 3 Opus 為15/75 美元。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

現在使用者可以在 claude.ai 和 Claude API 中使用 Opus 和 Sonnet 模型,而 Haiku 模型也即將推出。亞馬遜雲端科技宣布他們的新模型已經登陸 Amazon Bedrock。 Anthropic 公佈了官方 demo,詳情如下:

在 Anthropic 官宣之後,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解開了一道先前只有 GPT-4 才能解開的謎題。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

不過,也有人表示,在實際體驗方面,Claude 3 並沒有徹底擊敗 GPT-4。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

第一手實測Claude3

GPT-4时代已过?全球网友实测Claude 3,只有震撼

位址:https ://claude.ai/

Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了GPT-4?目前大多數人認為,確實有那麼點意思。

以下是部分實測效果:

首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

接著我們又測試了一下Claude 3 比較擅長的領域,從官方介紹可以看出Claude 擅長「理解和處理圖像」,包括從圖像中提取文字、將UI 轉換為前端程式碼、理解複雜的方程式、轉錄手寫筆記等。

對於大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

接著問它裡面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」

GPT-4时代已过?全球网友实测Claude 3,只有震撼

Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

如果我用網路上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

哪一個是對的呢?

除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,並接受超過 100 萬 token 輸入。

效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有15 秒左右。

不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

值得注意的是,現在Claude 要求上傳的文章大小不超過10MB,超過會有提示:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

在Claude 3 的部落格中,Anthropic 提出新模型的程式碼能力有大幅提升,有人直接拿基礎ASCII 碼丟給Claude,結果發現它毫無壓力:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

我們應該可以確認,Claude 3 有比GPT-4 更強的程式碼能力。

前段時間,剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄製的 2 小時 13 分的教學影片放進 LLM,讓其翻譯為關於分詞器的書籍章節或部落格文章的格式。

面對這項任務,Claude 3 接住了,以下是AnthropicAI 研究工程師Emmanuel Ameisen 曬出的結果:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

GPT-4时代已过?全球网友实测Claude 3,只有震撼


#或許不再有利益相關,Karpathy 給了比較充分、客觀的評價:

從風格來看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎麼說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。

如果說有什麼相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想像的要糟糕,也因為許多評估結果都以未定義的方式被過擬合了,也因為所做的比較可能是誤導性的。 GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼表現時,我的眼角就會開始抽搐。

根據以上各種刁鑽的測試結果,有人已經喊出「Anthropic is so back」了。

最後,anthropic 也推出了一個包含多個方向提示內容的 prompt 函式庫。如果你想要深入了解 Claude 3 的新功能,可以試試看。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

#

連結:https://docs.anthropic.com/claude/prompt-library

Claude 3 系列模型

#Claude 3 系列車型的三個版本分別是Claude 3 Opus、Claude 3 Sonnet 和Claude 3 Haiku。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

其中Claude 3 Opus 是智慧程度最高的模型,支援200k tokens 上下文窗口,在高度複雜的任務上實現了當前SOTA 的效能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。 Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

Claude 3 Sonnet 在智慧程度與運行速度之間實現了理想的平衡,尤其是對於企業工作負載而言。與同類車型相比,它以更低的成本提供了強大的性能,並專為大規模 AI 部署中的高耐用性而設計。 Claude 3 Sonnet 支援的上下文視窗為 200k tokens。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎即時的反應能力。有趣的是,它支援的上下文視窗同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶透過它可以建立模仿人類互動的無縫 AI 體驗。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

接下來我們詳看 Claude 3 系列模型的特性與效能表現。

全面超越GPT-4,實現智慧等級新SOTA

#作為Claude 3 系列中智慧等級最高的模型,Opus 在AI 系統的評估基準大多優於競品,包括本科程度專家知識(MMLU)、研究生程度專家推理(GPQA) 、基礎數學(GSM8K)等基準。並且,Opus 在複雜任務上展現出接近人類層次的理解力和流暢度,引領通用智慧的前沿。

此外,包括Opus 在內,所有Claude 3 系列模型都在分析和預測、細緻內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。

下圖為 Claude 3 模型與競品模型在多個效能基準上的比較,可以看到,最強的 Opus 全面優於 OpenAI 的 GPT-4。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

已近乎即時回應

Claude 3 模型可以支援即時客戶聊天、自動補充和資料提取等回應必須立即且即時的任務。

Haiku 是智慧類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形資訊的 arXiv 平台論文(約 10k tokens)。

對於絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智慧水準更高。它擅長執行需要快速回應的任務,例如知識檢索或銷售自動化。 Opus 的速度與 Claude 2 和 2.1 相似,但智慧等級更高。

強大的視覺能力 

Claude 3 具有與其他頭部模型相當的複雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。

Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種資料格式進行編程,例如 PDF、流程圖或簡報投影片。因此,新模型強大的視覺能力非常有幫助。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

#更少拒絕回覆

#

先前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。 Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細緻的理解,能夠識別真正的有害 prompt,並且拒絕回答無害 prompt 的頻率要少得多。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

#準確率提高

為了評估模型的準確率,Anthropic使用了大量複雜的、事實性問題來解決當前模型中的已知弱點。 Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的資訊。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤答案。

除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實答案。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

長上下文與近乎完美的召回能力

Claude 3 系列型號在發佈時最初將提供200K 上下文視窗。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會提供給需要增強處理能力的特定用戶。

為了有效處理長上下文提示,模型需要強大的召回能力。 Needle In A Haystack(NIAH)評估衡量模型可以從大量資料中準確回憶資訊的能力。 Anthropic 透過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文件庫上進行測試,增強了該基準的穩健性。 Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到“針”句子似乎是人為插入到原始文本中的。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

安全易用

Anthropic 表示,其已建立專門團隊來追蹤和減少安全風險。該公司也正在開發 Constitutional AI 等方法來提高模型的安全性和透明度,並減輕新模式可能引發的隱私問題。

雖然與先前的模型相比,Claude 3 模型系列在生物知識、網路相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處於AI安全等級2(ASL-2)以內。

在使用體驗上,Claude 3 比以往模型更擅長遵循複雜的多步驟指令,更能遵守品牌和回應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式產生流行的結構化輸出,可以更輕鬆地指導 Claude 進行自然語言分類和情緒分析等用例。

技術報告裡寫了什麼

目前,Anthropic 已經放出了42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

報告網址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

##我們看到了Claude 3 系列模型的訓練資料、評估標準以及更詳細的實驗結果。

在訓練資料方面,Claude 3 系列模型接受了截至2023 年8 月網路公開可用的專用混合資料的訓練,以及來自第三方的非公開資料、資料標籤服務商和付費承包商提供的數據、Claude 內部的數據。

Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:

  • 推理能力
  • 多語言能力
  • 長上下文
  • 可靠性/ 事實性
  • 多模態能力

#首先是推理、程式設計和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新SOTA 。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

Anthropic 在法學院入學考試(LSAT) 、多州律師考試(MBE)、美國數學競賽2023 年數學競賽和研究生入學考試(GRE) 普通考試評估了Claude 3 系列模型,具體結果如下表2 所示。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

Claude 3 系列模型具備多模態(影像和視訊影格輸入)能力,並且在解決超越簡單文字理解的複雜多模態推理挑戰方面取得了重大進展。

一個典型的例子是Claude 3 模型在AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析並以多項選擇格式回答相應的問題。

Claude 3 Sonnet 在0-shot 設定中達到了SOTA 水準- 89.2%,其次是Claude 3 Opus(88.3%)和Claude 3 Haiku(80.6%),具體結果如下表3 所示。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

針對這份技術報告,愛丁堡大學博士生符堯在第一時間給了自己的分析。

首先,在他看來,被評估的幾個模型在MMLU / GSM8K / HumanEval 等幾項指標上基本上沒有區分度,真正需要關心的是為什麼最好的模型在GSM8K 上仍有5% 的錯誤。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

他認為,真正能夠把模型區分開的是MATH 和GPQA,這些超級棘手的問題是AI 模型下一步應該瞄準的目標。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

與 Claude 先前的模型相比,改進比較大的領域是金融和醫學。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

視覺方面,Claude 3 表現出的視覺OCR 能力讓人看到了它在資料收集方面的巨大潛力。

GPT-4时代已过?全球网友实测Claude 3,只有震撼

此外,他還發現了其他一些趨勢:

GPT-4时代已过?全球网友实测Claude 3,只有震撼

GPT-4时代已过?全球网友实测Claude 3,只有震撼

##從目前的評測基準和體驗看來,Claude 3 在智慧等級、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許會看到更多元化的大模型生態。

部落格網址:https://www.anthropic.com/news/claude-3-family

以上是GPT-4時代已過?全球網友實測Claude 3,只有震撼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。