搜尋
首頁科技週邊人工智慧ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

在當今生成式AI聊天機器人的世界裡,我們目睹了ChatGPT(OpenAI於2022年11月推出)的突然崛起,隨後是今年2月推出的Bing Chat和3月推出的Google Bard。我們決定讓這些聊天機器人完成各種任務,以確定哪一個在AI聊天機器人領域佔據主導地位。由於Bing Chat使用的是與最新的ChatGPT模型類似的GPT-4技術,所以我們這次的重點是AI聊天機器人技術的兩大巨頭:OpenAI和Google。

我們對ChatGPT和Bard進行了七個關鍵類別的測試:冷笑話、辯論對話、數學應用問題、總結、事實檢索、創意寫作和編碼。對於每個測試,我們將完全相同的指令(稱為“提示,prompt”)輸入ChatGPT(使用GPT-4)和Google Bard,並選取它們給出的第一個結果進行比較。

值得注意的是,基於早期GPT-3.5模型的ChatGPT版本也可用,但我們在測試中沒有使用該版本。由於我們只使用GPT-4,為了避免混淆,我們在本文中將ChatGPT稱為「ChatGPT-4」。

顯然,這不是一項科學研究,只是為了對聊天機器人的能力進行有趣的比較。由於隨機元素,不同會話之間的輸出可能不同,使用不同提示符的進一步評估將產生不同的結果。此外,隨著Google和OpenAI的不斷升級,這些模型的功能將隨著時間的推移而迅速變化。但就目前而言,以下是2023年4月初的比較情況。

冷笑話

為了讓我們的鬥智比賽升溫,我們請ChatGPT和Bard寫了一些笑話。由於喜劇的精髓往往存在於冷笑話中,我們想看看這兩個聊天機器人能否創造出一些獨特的笑話。

指令/提示:寫5個原始冷笑話


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard給出的5個冷笑話中,我們用谷歌搜尋了其中三個。另外2個冷笑話中,一個是部分借用米奇·赫德伯格(Mitch Hedberg)在推特上發布的一個笑話,但它只是無趣的文字遊戲,效果不佳。令人驚訝的是,有一個看似原創的笑話(關於蝸牛),我們在其他地方都找不到,但遺憾地是它也同樣無趣。

同時,ChatGPT-4的5個冷笑話百分百沒有原創,都完全是從其他管道抄襲來的,但表達得很準確。 Bard似乎在這一點上勝過了ChatGPT-4,它在試圖創造原創的笑話(按照我們的指示),儘管有些笑話以一種令人尷尬的方式嚴重失敗(但這正是冷笑話的風格) ,甚至可以說,以一種無意的方式說錯話(也是冷笑話的風格)。

優勝者:Bard

辯論對話

測試現代AI聊天機器人的一種方法是讓它扮演某個主題的辯論者。在這種情況下,我們為Bard和ChatGPT-4提供了我們這個時代最關鍵的主題之一:PowerPC vs.英特爾。

指示/提示:寫5行PowerPC處理器愛好者和英特爾處理器愛好者之間的辯論對話。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#首先,我們來看看Bard的回覆.它產生的五行對話並沒有特別深入,除了泛泛的侮辱之外,沒有提到任何針對PowerPC或英特爾晶片的技術細節。此外,對話以「英特爾粉絲」同意各自持有不同意見而結束,這在一個引發了一百萬場口水仗的主題中似乎非常不現實。

相比之下,ChatGPT-4的回應提到了PowerPC晶片被用於蘋果Macintosh電腦,並拋出了諸如“英特爾的x86架構”和PowerPC的“基於RISC架構”之類的術語。它甚至提到了奔騰III,這是2000年的一個現實細節。總的來說,這段論述比Bard的回應要詳細得多,而且最準確的一點是,這段對話並沒有得出結論——這暗示著在互聯網的某些領域,這場永無止境的戰鬥可能仍在激烈進行。

優勝者:ChatGPT-4

數學應用題

傳統上,數學題並不是大型語言模型(LLMs)──如ChatGPT──的強項。因此,我們沒有為每個機器人佈置一系列複雜的方程式和算術,而是為每個機器人佈置了一個老式的小學生風格的應用題。

指令/提示:如果微軟Windows 11使用的是3.5吋軟碟(floppy disk),那麼它需要多少軟碟?


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

為了解決這個問題,每個AI模型都需要知道微軟Windows 11安裝的資料大小以及3.5吋軟碟的資料容量。它們還必須假設提問者最可能使用哪種密度的軟碟。然後他們需要做一些基本的數學運算來把這些概念組合在一起。

在我們的評估中,Bard正確地指出了這三個關鍵點(足夠接近——Windows 11的安裝大小估計通常在20-30GB左右),但在數學計算方面卻慘敗,它認為需要“15.11”張軟盤,然後說這“只是一個理論數字”,最後承認需要超過15張軟盤,它仍然沒有接近正確的值。

相比之下,ChatGPT-4包含了一些與Windows 11安裝大小相關的細微差別(正確地引用了64GB的最小值,並將其與現實世界的基本安裝大小進行了比較) ,正確地解釋了軟碟容量,然後進行了一些正確的乘除,最終得出了14222個磁碟。有人可能會爭論1GB是1024還是1000MB,但這個數字是合理的。它還正確地提到,實際數字可能會根據其他因素而變化。

優勝者:ChatGPT-4

總結

AI語言模型以其總結複雜資訊並將文本歸結為關鍵元素的能力而聞名。為了評估每種語言模型總結文字的能力,我們從Ars Technica最近的一篇文章中複製並貼上了三個段落。

指令/提示:用一段話總結【文章正文三段】


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard和ChatGPT-4都收集了這些信息,並將其精簡到重要的細節。然而,Bard的版本更像是一個真正的總結,將訊息合成新的措辭,而ChatGPT-4的版本讀起來更像一個串聯,砍掉了句子,留下了一些片段。雖然兩個都很不錯,但我們不得不承認Bard在這次測試中勝過了ChatGPT-4。

優勝者:Google Bard

事實檢索

目前已知,大型語言模型會犯自以為是的錯誤(研究人員通常稱之為「幻覺」),這使得它們成為不可靠的事實參考,除非有外部資訊來源的補充。有趣的是,Bard可以在線查詢信息,而ChatGPT-4目前還不能(儘管該功能很快就會隨插件一起推出)。

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!為了測試這個能力,我們向Bard和ChatGPT-4提出挑戰,讓他們表達關於一個困難和微妙主題的歷史知識。

指令/提示:誰發明了電子遊戲?

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

############### ########誰發明了電子遊戲這個問題很難回答,因為這取決於你如何定義「電子遊戲」這個詞,不同的歷史學家對這個詞的定義也不盡相同。有些人認為早期的電腦遊戲是電子遊戲,有些人認為應該一直包含電視機,等等。沒有一個公認的答案。 ######我們以為Bard在網路上尋找資訊的能力會給它帶來優勢,但在這種情況下,這可能會適得其反,因為它選擇了一個谷歌最流行的答案,稱Ralph Baer為「電子遊戲之父」。關於Baer的所有事實都是正確的,儘管它可能應該把最後一句話寫成過去時,因為貝爾在2014年就已經去世了。但Bard並沒有提及其他早期的「首個電子遊戲」頭銜競爭者,如《Tennis for Two》和《Spacewar!》,所以它的答案可能具有誤導性,而且不完整。 ###

ChatGPT-4給出了一個更全面、更細緻的答案,代表了許多早期電子遊戲歷史學家目前的感受,他說,“電子遊戲的發明不能歸功於一個人”,它呈現了隨著時間推移的「一系列創新」。它唯一的錯誤就是稱《Spacewar!》是“第一款數位電腦遊戲”,但事實並非如此。我們可以將答案擴大到包括更多利基邊緣案例,但ChatGPT-4很好地概述了重要的早期先驅。

優勝者:ChatGPT-4

創意寫作

在奇思妙想的話題上不受約束的創造力應該是大型語言模型的強項。我們透過讓Bard和ChatGPT-4寫一個短小的異想天開的故事來進行測試。

指示/提示:寫一篇關於亞伯拉罕·林肯(Abraham Lincoln)發明籃球的兩個創意故事。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard的輸出結果在幾個方面都不盡人意。首先,它是10段,而不是2段,而且是短小、不連貫的段落。此外,它還分享了一些在提示符號的上下文中沒有太大意義的細節。例如,為什麼亞伯拉罕·林肯的白宮在伊利諾州的斯普林菲爾德?除此之外,這算得上是一個有趣而簡單的故事。

ChatGPT-4也將故事設定在伊利諾州,但更準確地說,它沒有提到那段時期的總統或白宮。然而,後來它說「來自北部和南部的球員」拋開他們的分歧一起打籃球,這意味著它發生在籃球發明後不久。

總的來說,我們認為ChatGPT-4略勝一籌,因為它的輸出確實分為兩個段落——儘管它似乎通過盡可能拓展每個段落來繞過這個限制。儘管如此,我們還是很喜歡ChatGPT-4版故事中富有創意的細節。

優勝者:ChatGPT-4

編碼

如果說這一代的大型語言模型有什麼「殺手鐧」的話,那可能就是把它們用作程式設計助手了。 OpenAI在Codex模型上的早期工作使GitHub的CoPilot成為可能,ChatGPT本身也作為一個相當稱職的簡單程式編碼員和調試器而聞名。所以Google Bard的表現也應該會很有趣。

指令/提示:寫一個說「Hello World」的python腳本,然後無限地創建一個隨機重複的字串。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#看起來Google Bard根本不會寫代碼。谷歌目前還不支援這項功能,但該公司表示很快就會進行程式設計。目前,Bard拒絕了我們的提示,並表示,「看起來你想讓我幫忙編碼,但我還沒有接受過這樣的訓練。」

與此同時,ChatGPT-4不僅直接給出了程式碼,也將其格式化在一個帶有「複製程式碼」按鈕的花俏程式碼框中,該按鈕可以將程式碼複製到系統剪貼簿中,以便輕鬆貼上到IDE或文字編輯器中。但這段程式碼有用嗎?我們將程式碼貼到rand_string.py檔案中,並在Windows 10的控制台中運行它,它沒有任何問題。

優勝者:ChatGPT-4

贏家:ChatGPT-4,但一切並未結束

總的來說,ChatGPT-4贏得了我們7次試驗中的5次(這裡指的是使用GPT-4的ChatGPT,以防你忽略上文直接跳過這裡)。但這並不是故事的全部。還有其他因素需要考慮,例如速度、上下文長度、成本和未來的升級。

就速度而言,ChatGPT-4目前比較慢,寫關於林肯和籃球的故事花了52秒,而Bard只花了6秒。值得注意的是,OpenAI以GPT-3.5的形式提供了比GPT-4快得多的AI模型。這個模型寫林肯與籃球的故事只需要12秒,但可以說它不太適合做有深度、有創意的任務。

每種語言模型都有單次可以處理的最大標記數(單字的片段)。這有時被稱為“上下文視窗”,但它幾乎類似於短期記憶。在對話式聊天機器人的情況下,上下文視窗包含到目前為止的整個對話歷史。當它被填滿時,它要么達到了一個硬極限,要么繼續前進但抹去了之前討論部分的“記憶”。 ChatGPT-4則保持滾動內存,擦去先前的上下文,據報道有大約4000個令牌的限制。據悉,Bard將其總輸出限制在1000個左右,當超過這個限制時,它就會抹去先前討論的「記憶」。

最後,還有成本問題。 ChatGPT(並不特別指GPT-4)目前可透過ChatGPT網站在有限的基礎上免費使用,但想要優先造訪GPT-4,則需每月支付20美元。精通程式設計的用戶可以透過API以更便宜的價格存取早期的ChatGPT-3.5模型,但在撰寫本文時,GPT-4 API仍處於有限的測試中。同時,Google Bard作為Google部分用戶的限量試用版是免費的。目前,Google沒有計劃在它變得更廣泛可用時對Bard訪問收費。

最後,正如我們之前提到的,兩個模型都在不斷升級。例如,Bard在上週五剛剛收到了一個更新,使它在數學方面做得更好,它可能很快就能編碼了。 OpenAI也持續完善其GPT-4模型。 Google目前保留了它最強大的語言模型(可能是計算成本的原因),所以我們可以看到一個更強大的競爭者Google迎頭趕上。

總而言之,生成式AI業務仍處於早期階段,乾坤未定,你我皆是黑馬!

以上是ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Openai' o1-preview vs o1-mini:向前邁出的一步Openai' o1-preview vs o1-mini:向前邁出的一步Apr 12, 2025 am 10:04 AM

介紹 9月12日,OpenAI發布了一項名為“與LLM的學習推理”的更新。他們介紹了O1模型,該模型是使用強化學習來應對複雜推理任務的訓練。是什麼設置了此mod

如何使用OpenAI O1構建遊戲? - 分析Vidhya如何使用OpenAI O1構建遊戲? - 分析VidhyaApr 12, 2025 am 10:03 AM

介紹 OpenAI O1模型家族大大提高了推理能力和經濟表現,尤其是在科學,編碼和解決問題方面。 Openai的目標是創建越來越高的AI和O1模型

流行的LLM代理工具用於客戶查詢管理流行的LLM代理工具用於客戶查詢管理Apr 12, 2025 am 10:01 AM

介紹 如今,客戶查詢管理的世界正在以前所未有的速度移動,每天都有新的工具成為頭條新聞。大型語言模型(LLM)代理是在這種情況下的最新創新,增強了Cu

100天企業的AI實施計劃100天企業的AI實施計劃Apr 12, 2025 am 09:56 AM

介紹 採用生成AI可能是任何公司的變革旅程。但是,Genai實施過程通常會繁瑣且令人困惑。 Niit Lim的董事長兼聯合創始人Rajendra Singh Pawar

Pixtral 12B與QWEN2-VL-72BPixtral 12B與QWEN2-VL-72BApr 12, 2025 am 09:52 AM

介紹 人工智能革命引起了創造力的新時代,文本對圖像模型正在重新定義藝術,設計和技術的交集。 pixtral 12b和qwen2-vl-72b是兩個開創性的力量。

什麼是PaperQA?如何幫助科學研究?什麼是PaperQA?如何幫助科學研究?Apr 12, 2025 am 09:51 AM

介紹 隨著人工智能的發展,科學研究已經發生了巨大的轉變。每年在不同的技術和部門上發表數百萬篇論文。但是,將這片信息海洋瀏覽到Retr

數據學:對幻覺的LLM接地-Analytics Vidhya數據學:對幻覺的LLM接地-Analytics VidhyaApr 12, 2025 am 09:46 AM

介紹 大型語言模型正在迅速改變行業 - 迄今為止,它們為從銀行業的個性化客戶服務到全球溝通中的實時語言翻譯提供了動力。他們可以回答任務

如何使用Crewai和Ollama建立多代理系統?如何使用Crewai和Ollama建立多代理系統?Apr 12, 2025 am 09:44 AM

介紹 不想在API上花錢,還是您擔心隱私?還是您只想在本地運行LLMS?不用擔心;本指南將幫助您使用本地LLMS構建代理和多代理框架

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能