首頁  >  文章  >  科技週邊  >  CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性

CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性

PHPz
PHPz轉載
2023-12-21 08:13:38821瀏覽

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GoogleGemini的實力究竟如何?卡內基美隆大學進行了一項專業客觀的第三方比較

為保證公平,所有模型使用相同的提示和生成參數,並提供可重複的程式碼和完全透明的結果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不會像Google官方發表會那樣,用CoT@32比較5-shot了

一句話結果:Gemini Pro版本接近但略遜於GPT-3.5 Turbo,GPT-4還是遙遙領先。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在深入分析中也發現Gemini一些奇怪特性,例如選擇題喜歡選D##…

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

有許多研究者表示,Gemini剛發布沒幾天就進行了非常詳細的測試,這是非常了不起的成就

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

六大任務深入測試

這個測試具體比較了6個不同的任務,並且為每個任務選擇了對應的資料集

    知識問答:MMLU
  • 推理:BIG-Bench Hard
  • 數學:GSM8k、SVAMP、ASDIV、MAWPS
  • 程式碼:HumanEval、ODEX
  • ##翻譯:FLORES
  • #上網衝浪:WebArena
  • 知識問答:喜歡選D

根據結果可以看出,在這類任務中使用思維鏈提示並不一定能夠提升效果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复在MMLU資料集中,所有的題目都是多選題。進一步分析結果後,發現了一個奇怪的現象:Gemini更喜歡選擇D選項

GPT系列在4個選項上的分佈就要平衡很多,團隊提出這可能是

Gemini沒針對多選題做大量指令微調造成的

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复另外,Gemini的安全過濾非常嚴格。在涉及道德問題時,它只能回答85%的問題。而在涉及人類性行為相關問題時,它只能回答28%的問題

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复Gemini Pro在安全研究和高中微觀經濟學方面的表現超過了GPT- 3.5,但差距並不大,團隊表示無法找出任何特別之處

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复#推理:長問題不擅長

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复GPT系列在處理更長、更複雜的問題時表現更出色,相較之下,Gemini Pro的表現較為不佳

特別是在長篇問題上,GPT-4 Turbo幾乎沒有效能下降,這表明它具備了理解複雜問題的強大能力

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复根據問題類型進行分析,Gemini在「追蹤交換物品」這類問題上表現不佳,這類問題涉及人們進行物品交換,最終需要AI判斷每個人擁有哪些物品

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini擅長的任務包括理解世界各種體育運動知識、操作符號堆疊、按字母順序排序單字以及解析表格

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

數學:複雜任務反超

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

問題本身太長,導致Gemini Pro和GPT-3.5的表現同時下降,只有GPT-4能夠維持一貫的水準

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

當思維鏈的長度達到最長時,Gemini超過了GPT-3.5

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

程式碼:擅長matplotlib

對於程式碼問題,Gemini在參考答案較長的問題上表現不佳

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#GPT系列在大多數類型中更強大,但在matplotlib方面表現完全不佳

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

翻譯:只要回答了,品質就很高

在翻譯任務中,Gemini拒絕回答了12種類型的問題,但只要回答了的翻譯品質都非常出色,整體表現超過了GPT-4

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#雙子座拒絕翻譯的語言主要涉及拉丁語和阿拉伯語

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

網路導航:擅長跨站點衝浪

WebArena為AI模擬了一個網路環境,包括電子商務、社交論壇、GitLab協作開發、內容管理系統和線上地圖等。 AI需要在這個環境中尋找資訊或跨站點完成任務

Gemini在整體表現不如GPT-3.5 Turbo,但在跨多個站點的任務中表現稍好。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

網友:但是它免費啊

最終,CMU副教授格雷厄姆·紐比格承認了這項研究的一些限制

  • #基於API的模型行為可能隨時變化
  • 只嘗試了有限數量的提示,對不同模型來說適用的提示詞可能不一樣
  • 無法控制測試集是否洩漏

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google大型模型推理團隊的負責人周登勇指出,將Gemini的溫度設定為0可以提高5-10個百分點,對於推理任務非常有幫助

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在這項測試中,除了Gemini和GPT系列,還引入了最近備受關注的開源MoE模型Mixtral

不過,強化學習專家Noam Brown認為可以不考慮Mixtral的結果,因為它使用的是第三方API而不是官方實作

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI創辦人為團隊提供了官方版呼叫權限,他相信這將帶來更好的結果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#雖然Gemini Pro還不及GPT-3.5,但它的優勢在於每分鐘調用不超過60次就可以免費使用

因此,許多個人開發者已經改變了陣營

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

目前Gemini的最高版本Ultra版尚未發布,屆時CMU團隊也打算繼續進行這項研究

你認為雙子座Ultra能夠達到GPT-4的水平嗎?

本文詳細介紹了論文:https://arxiv.org/abs/2312.11444

參考連結:
#[1]https://twitter.com/gneubig/status/17371089777954251216。

以上是CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除