3 月28 日消息,根據LMSYS Org 公佈的最新基準測試報告,Claude-3 得分以微弱優勢超越GPT-4,成為該平台“最佳”大語言模型。
本網站首先介紹下LMSYS Org,該機構是由加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基美隆大學合作創建的研究組織。
該系統推出Chatbot Arena,這是一個針對大型語言模型(LLM)的基準平台,以眾包方式匿名、隨機對抗測試大模型產品,其評級基於國際象棋等競技遊戲中廣泛使用的Elo評分系統。
透過用戶投票產生的評分結果,系統每次都會隨機選擇兩個不同的大模型機器人和用戶聊天,並讓用戶在匿名的情況下選擇哪款大模型產品的表現更好一些,整體而言相對公正。
Chatbot Arena 自去年上線以來,GPT-4 一直穩居頭把交椅,甚至成為了評估大模型的黃金標準。
不過昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱優勢擊敗了 GPT-4,OpenAI 的 LLM 被擠下了榜首位置。由於比分過於接近,出於誤差率的考量,該機構讓 Claude 3 和 GPT-4 並列第一,GPT-4 的另一個預覽版也並列第一。
更令人印象深刻的是 Claude 3 Haiku 進入前十名。 Haiku 是 Anthropic 的 local size 模型,相當於Google的 Gemini Nano。
它比擁有數萬億參數的 Opus 要小得多,因此相比之下速度要快得多。根據 LMSYS 的數據,Haiku 在排行榜上名列第七,有媲美 GPT-4 的表現。
以上是和 GPT-4 並列第一,LMSYS 基準測試顯示 Claude-3 模型表現優異的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Atom編輯器mac版下載
最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。