開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單

Apr 10, 2024 pm 03:16 PM

參數gpt-4karpathy

能打得過GPT-4的開源模型出現了！

大模型競技場最新戰報：

1040億參數開源模型Command R 攀升至第6位，與GPT-4-0314打成平手，超過了GPT-4-0613。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

這也是第一個在大模型競技場上擊敗GPT-4的開放權重模型。

大模型競技場，可是大神Karpathy口中唯二信任的測試基準之一。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

Command R 來自AI獨角獸Cohere。這家大模型新創公司的共同創辦人兼CEO，正是Transformer最年輕作者Aidan Gomez（簡稱割麥子）。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

這份戰報一出，又掀起了一波大模型社群的熱烈討論。

大傢伙兒興奮的理由很簡單：基礎大模型捲了一整年，沒想到在2024年格局還在不斷地發展變化。

HuggingFace聯合創始人Thomas Wolf就說：

最近大模型競技場上的情況發生了巨大的變化：

Anthropic的Claude 3 opus在閉源模型中獨佔鰲頭。

Cohere的Command R 則成為了開源模型中最強的者。

沒想到，2024年在開源和閉源兩條路線上，人工智慧團隊的發展都如此之快。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

另外，Cohere機器學習總監Nils Reimers也指出了值得關注的一點：

Command R 最大的特色是對內建RAG（檢索增強生成）進行了全面優化，而在大模型競技場中，RAG這樣的外掛能力並未納入測試。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

RAG優化模型登上開源王座

在Cohere官方定位中，Command R 是一個“RAG優化模型” 。

就是說，這個1040億參數的大模型主要針對檢索增強生成技術進行了深度優化，以減少幻覺的產生，更適合企業級工作負載。

和先前推出的Command R一樣，Command R 的上下文視窗長度是128k。

此外，Command R 還具備以下特點：

涵蓋10 種語言，包括英文、中文、法文、德文等；
能使用工具完成複雜業務流程的自動化

從測試結果來看，在多語言、RAG和工具使用這三個維度上，Command R 都達到了GPT-4 turbo的水平。

但在輸入成本方面，Command R 的價格僅為GPT-4 turbo的1/3。

輸出成本方面，Command R 則是GPT-4 turbo的1/2。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

正是這點引發了不少網友的關注：

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

#不過，儘管在大模型競技場這種人類主觀評測上表現搶眼，還是有網友甩出了一些不同觀點。

在HumanEval上，Command R 的程式碼能力就連GPT-3.5都沒打過，在兩組測驗中分別排在32位和33位。

最新版GPT-4 turbo則沒有懸念地拿下了第一名。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

另外，我們也在最近剛登上正經論文的弱智吧benchmark上簡單測試了一下Command R 的中文能力。

開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單圖片

你給打個分？

要說明的是，Command R 的開源只針對學術研究，並不能免費商用。

One More Thing

最後的最後，還是多聊一嘴割麥小哥。

Aidan Gomez，Transformer圓桌騎士中最年輕的一位，加入研究團隊時只是個本科生－

不過，是在多倫多大學讀大三時就加入了Hinton實驗室的那種。

2018年，割麥子被牛津大學錄取，開始像他的論文搭訕們那樣攻讀CS博士學位。

但在2019年，隨著Cohere的創立，他最終選擇退學加入AI創業的浪潮。

Cohere主要是為企業提供大模型解決方案，目前估值達到了22億美元。

參考連結：
[1]https://www.php.cn/link/3be14122a3c78d9070cae09a16adcbb1[2]https://www.php.cn/ link/93fc5aed8c051ce4538e052cfe9f8692

以上是開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

商業領袖生成引擎優化指南（GEO）

商業領袖生成引擎優化指南（GEO）May 03, 2025 am 11:14 AM

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務，在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt，Microsoft Copilot和PE

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥May 03, 2025 am 11:13 AM

2022年，他創立了社會工程防禦初創公司Doppel，以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓，Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快，更快，

世界模型如何從根本上重塑生成AI和LLM的未來

世界模型如何從根本上重塑生成AI和LLM的未來May 03, 2025 am 11:12 AM

瞧，通過與合適的世界模型進行交互，可以實質上提高生成的AI和LLM。讓我們來談談。對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分，包括

2050年五月：我們要慶祝什麼？

2050年五月：我們要慶祝什麼？May 03, 2025 am 11:11 AM

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭，而懷舊遊行則穿過城市街道。然而，慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

您從未聽說過的DeepFake探測器準確是98％

您從未聽說過的DeepFake探測器準確是98％May 03, 2025 am 11:10 AM

為了幫助解決這一緊急且令人不安的趨勢，在2025年2月的TEM期刊上進行了同行評審的文章，提供了有關該技術深擊目前面對的最清晰，數據驅動的評估之一。研究員

量子人才戰爭：隱藏的危機威脅技術的下一個邊界

量子人才戰爭：隱藏的危機威脅技術的下一個邊界May 03, 2025 am 11:09 AM

從大大減少制定新藥所需的時間到創造更綠色的能源，企業將有巨大的機會打破新的地面。不過，有一個很大的問題：嚴重缺乏技能的人

原型：這些細菌可以產生電力

原型：這些細菌可以產生電力May 03, 2025 am 11:08 AM

幾年前，科學家發現某些類型的細菌似乎通過發電而不是吸收氧氣而呼吸，但是它們是如何做到的，這是一個謎。一項發表在“雜誌”雜誌上的新研究確定了這種情況的發生方式：Microb

AI和網絡安全：新政府的100天估算

AI和網絡安全：新政府的100天估算May 03, 2025 am 11:07 AM

在本週的RSAC 2025會議上，Snyk舉辦了一個及時的小組，標題為“前100天：AI，政策和網絡安全如何碰撞”，其中包括全明星陣容：前CISA董事Jen Easterly；妮可·珀洛斯（Nicole Perlroth），前記者和帕特納（Partne）

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

Windows 11 KB5054979中的新功能以及如何解決更新問題

1 個月前ByDDD

如何修復KB5055523無法在Windows 11中安裝？

3 週前ByDDD

如何修復KB5055518無法在Windows 10中安裝？

3 週前ByDDD

R.E.P.O.的每個敵人和怪物的力量水平

3 週前By尊渡假赌尊渡假赌尊渡假赌

藍王子：如何到達地下室

3 週前ByDDD

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中，你可以繼續在那裡關注我們。 MinGW：GNU編譯器集合（GCC）的本機Windows移植版本，可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔；包括對MSVC執行時間的擴展，以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版

SublimeText3漢化版

中文版，非常好用

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

熱門話題

1653

14

1413

52

1304

25

1251

29

1224

24