搜尋
首頁科技週邊人工智慧GPT-4不服被Bard反超:最新模型已入場

「大模型排位賽」權威榜單Chatbot Arena刷新:

GoogleBard超越GPT-4,排名位居第二,僅次於GPT-4 Turbo。

GPT-4不服被Bard反超:最新模型已入場

然鵝,眾多網友對此表示「不服」、「不公平」。

原來,GoogleAI掌門人Jeff Dean透露,Bard效能大幅提升,是因為搭載了新版大機型-Gemini Pro-scale。

GPT-4不服被Bard反超:最新模型已入場

這也意味著,打「排位賽」的Bard具備了連網功能。

GPT-4不服被Bard反超:最新模型已入場

網友的質疑正是圍繞著這一點:

在同一個排行榜上混合在線和離線大模型,是極易引起誤會的。

GPT-4不服被Bard反超:最新模型已入場

Hugging Face的「首席羊駝官」Omar Sanseviero也表示:

##既然如此…我也可以向lmsys提交具有搜尋功能的Mixtral嗎?

GPT-4不服被Bard反超:最新模型已入場

面對種種質疑聲,Imsys官方做出了回應,其中指出:

    Arena排行榜是即時的,大家如有疑問,可在Arena中直接比較模型並投票;
  • 投票數據公開透明,還會即將發布關於用戶提示多樣性和投票質量的研究以及相應的數據集;
對於網友們最關心的被Bard超越的GPT-4是不聯網版本的問題,Imsys表示「如果即時數據的存取能夠提升用戶體驗,排行榜將予以體現」。

並且直接@了OpenAI和Bing以及微軟高管Mikhail Parakhin,表示非常樂意在競技場中加入GPT-4聯網版或Bing Copilot。

最新消息是,OpenAI的最新模型gpt-4-0125-preview現已入駐競技場,等待用戶參與投票。

GPT-4不服被Bard反超:最新模型已入場

Bard超越GPT-4是怎麼回事?

Chatbot Arena是一個大模型權威名單,由UC柏克萊研究人員主導的Imsys(Large Model Systems Organization)組織創建。

此排行榜採用匿名1V1battle的投票規則,基於Elo評級系統排名。

具體來說,投票頁面如下,兩個模型Model A和B都匿名,用戶在提出多個問題後對模型的回答打分,總共有四個選項:A更好、B更好、A和B一樣好,A和B都不好。

GPT-4不服被Bard反超:最新模型已入場

值得一提的是,如果在問答過程中,模型身分洩露,那麼該投票作廢。

GPT-4不服被Bard反超:最新模型已入場

根據目前榜單,競技場中有56個大模型:

GPT-4不服被Bard反超:最新模型已入場

先前GPT-4憑藉著“遙遙領先」的評分,長期霸榜,然而新版Bard發布後,直接超越GPT-4的兩個版本衝到了第二名,和第一名的GPT-4 Turbo只差34分:

GPT-4不服被Bard反超:最新模型已入場

更詳細一點,在所有沒有平手的Model A對B的對決中,Model A獲勝的比例如下:

GPT-4不服被Bard反超:最新模型已入場

還有每一對模型組合的單挑次數

(無平手)

GPT-4不服被Bard反超:最新模型已入場

此外,Chatbot Arena排行榜也使用自助法對Elo評分估計進行1000次隨機抽樣,從而評估信賴區間等。

GPT-4不服被Bard反超:最新模型已入場

單一模型相對於其他所有模型的平均勝率如下:

GPT-4不服被Bard反超:最新模型已入場

不過值得注意的是,Arena排行榜是即時的,Bard目前雖然排名第二,但總共只有3000多票。

相對而言,GPT-4 Turbo的票數已經達到了30000 ,被超越的兩個版本的票數也都是Bard的數倍。

GPT-4不服被Bard反超:最新模型已入場

而現在GPT-4最新版本已入場(雖然還沒有在排行榜上更新),後續結果還要再坐等一波~

#參考連結:https://twitter.com/lmsysorg/status/1752035632489300239。

以上是GPT-4不服被Bard反超:最新模型已入場的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具