能打得過GPT-4的開源模型出現了!
大模型競技場最新戰報:
1040億參數開源模型Command R 攀升至第6位,與GPT-4-0314打成平手,超過了GPT-4-0613。
圖片
這也是第一個在大模型競技場上擊敗GPT-4的開放權重模型。
大模型競技場,可是大神Karpathy口中唯二信任的測試基準之一。
圖片
Command R 來自AI獨角獸Cohere。這家大模型新創公司的共同創辦人兼CEO,正是Transformer最年輕作者Aidan Gomez(簡稱割麥子)。
圖片
這份戰報一出,又掀起了一波大模型社群的熱烈討論。
大傢伙兒興奮的理由很簡單:基礎大模型捲了一整年,沒想到在2024年格局還在不斷地發展變化。
HuggingFace聯合創始人Thomas Wolf就說:
最近大模型競技場上的情況發生了巨大的變化:
Anthropic的Claude 3 opus在閉源模型中獨佔鰲頭。
Cohere的Command R 則成為了開源模型中最強的者。
沒想到,2024年在開源和閉源兩條路線上,人工智慧團隊的發展都如此之快。
圖片
另外,Cohere機器學習總監Nils Reimers也指出了值得關注的一點:
Command R 最大的特色是對內建RAG(檢索增強生成)進行了全面優化,而在大模型競技場中,RAG這樣的外掛能力並未納入測試。
圖片
RAG優化模型登上開源王座
在Cohere官方定位中,Command R 是一個“RAG優化模型” 。
就是說,這個1040億參數的大模型主要針對檢索增強生成技術進行了深度優化,以減少幻覺的產生,更適合企業級工作負載。
和先前推出的Command R一樣,Command R 的上下文視窗長度是128k。
此外,Command R 還具備以下特點:
- 涵蓋10 種語言,包括英文、中文、法文、德文等;
- 能使用工具完成複雜業務流程的自動化
從測試結果來看,在多語言、RAG和工具使用這三個維度上,Command R 都達到了GPT-4 turbo的水平。
但在輸入成本方面,Command R 的價格僅為GPT-4 turbo的1/3。
輸出成本方面,Command R 則是GPT-4 turbo的1/2。
圖片
正是這點引發了不少網友的關注:
圖片
#不過,儘管在大模型競技場這種人類主觀評測上表現搶眼,還是有網友甩出了一些不同觀點。
在HumanEval上,Command R 的程式碼能力就連GPT-3.5都沒打過,在兩組測驗中分別排在32位和33位。
最新版GPT-4 turbo則沒有懸念地拿下了第一名。
圖片
另外,我們也在最近剛登上正經論文的弱智吧benchmark上簡單測試了一下Command R 的中文能力。
圖片
你給打個分?
要說明的是,Command R 的開源只針對學術研究,並不能免費商用。
One More Thing
最後的最後,還是多聊一嘴割麥小哥。
Aidan Gomez,Transformer圓桌騎士中最年輕的一位,加入研究團隊時只是個本科生-
不過,是在多倫多大學讀大三時就加入了Hinton實驗室的那種。
2018年,割麥子被牛津大學錄取,開始像他的論文搭訕們那樣攻讀CS博士學位。
但在2019年,隨著Cohere的創立,他最終選擇退學加入AI創業的浪潮。
Cohere主要是為企業提供大模型解決方案,目前估值達到了22億美元。
參考連結:
[1]https://www.php.cn/link/3be14122a3c78d9070cae09a16adcbb1[2]https://www.php.cn/ link/93fc5aed8c051ce4538e052cfe9f8692
以上是開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1
好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。