搜尋
首頁科技週邊人工智慧「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

ChatGPT在產生隨機數字方面,也是玩明白了人類的套路。

ChatGPT可能是一位廢話藝術家、錯誤訊息的傳播者,但它不是「數學家」!

近日,一位Meta的資料科學家Colin Fraser發現,ChatGPT並不能產生真正的隨機數,而更像是「人類的隨機數」。

透過實驗,Fraser得出的結論是:「ChatGPT非常喜歡數字42和7。」

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

網友表示,意味著人類非常喜歡這些數字。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

ChatGPT也愛「宇宙終極答案」

#在他的測驗中,Fraser輸入的prompt如下:

「Pick a random number between 1 and 100. Just return the number; Don't include any other text or punctuation in the response。」

透過讓ChatGPT每次產生介於1到100之間的隨機數字, Fraser收集了2000個不同的答案,並將其匯總成一張表。

可以看到,42這個數字出現頻率最高,高達10%。另外,含有7的數字出現頻率也是非常高。

尤其是71-79之間數位頻率較高。在這個範圍之外的數字中,7也經常作為第二位數字經常出現。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

42為何?

看過Douglas Adams轟動一時的科幻小說《銀河系漫遊指南》都知道,42是「生命、宇宙以及任何事物的終極答案」。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

簡單來講,42和69在網路上是一個meme數字。這表明ChatGPT實際上並不是一個隨機數產生器,只是從網路上收集的龐大資料集中選擇了生活中流行的數字。

另外,7頻繁地出現,恰恰反映了ChatGPT迎合了人類的喜好。

在西方文化中,7普遍被視為幸運數字,有Lucky 7的說法。就像我們對數字8迷戀一樣。

有趣的是,Fraser也發現,GPT-4似乎補償了這一點。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

當要求GPT-4提供更多的數字時,它傳回的隨機數在分佈上過於均勻。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

總之,ChatGPT基本上是透過預測給予回應,而不是真正去「思考」得出一個答案。

可見,一個被吹捧為幾乎無所不能的聊天機器人還是有點愚蠢。

讓它為你計劃一次公路旅行,它會讓你在一個根本不存在的小鎮停下來。或者,讓它輸出一個隨機數,很有可能會根據一個流行的meme來做決定。

有網友親自嘗試了一番,發現GPT-4確實喜歡42。

如果ChatGPT最後只是重複網路上的陳腔濫調,那還有什麼意義呢?

GPT-4,違反機器學習規則

GPT-4的誕生讓人興奮,但也讓人失望。

OpenAI不僅沒有發布關於GPT-4更多信息,甚至沒有透露模型的大小,但重點強調了它許多專業和標準化考試中表現碾壓人類。

以美國BAR律師執照統考為例,GPT3.5可以達到10%水平,GPT4可以達到90%水平。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

然而,普林斯頓大學電腦科學系教授Arvind Narayanan和博士生Sayash Kapoor發文稱,

OpenAI可能已經在訓練資料上進行了測試。此外,人類的基準對聊天機器人來說毫無意義。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

具體來說,OpenAI可能違反了機器學習的基本規則:不要在訓練資料上進行測試。要知道,測試資料和訓練資料是要分開的,否則會出現過擬合的問題。

拋開這個問題,還有一個更大的問題。

語言模型解決問題的方式與人類不同,因此這些結果對於一個機器人在面對專業人士面臨的現實問題時的表現意義不大。律師的工作並非整天回答律師資格考試的問題。

問題1:訓練資料污染

為了評估GPT-4的程式設計能力,OpenAI在俄羅斯程式設計比賽的網站Codeforces上進行了評估。

令人驚訝的是,Horace He在網路上指出,在簡單分類中,GPT-4解決了10個2021年之前的問題,但是在最近的10個問題中沒有一個得到解決。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

GPT-4的訓練資料截止時間是2021年9月。

這強烈暗示該模型能夠記憶其訓練集中的解決方案,或至少部分記憶它們,足以填補它無法回憶起的內容。

為了給這個假設提供進一步證據,Arvind Narayanan在2021年不同時間的Codeforces比賽問題上對GPT-4進行了測試。

結果發現,GPT-4可以解決在9月5日之前的簡單分類問題,但在9月12日之後的問題中卻沒有一個解決。

事實上,我們可以明確地證明它已經記住了訓練集中的問題:當提示GPT-4一個Codeforces問題的標題時,它會包含一個鏈接,指向該問題出現的確切比賽。值得注意的是,GPT-4無法上網,因此只有記憶才是唯一的解釋。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

GPT-4在訓練截止日期之前記住了Codeforce問題

對於除了程式設計之外的基準測試,Narayanan教授稱「我們不知道如何以清晰的方式按時間段分離問題,因此認為OpenAI很難避免數據污染。出於同樣原因,我們無法進行實驗來測試性能如何隨日期變化。」

不過,可以從另一面來入手,如果是記憶,那麼GPT對問題措詞一定高度敏感。

2月,聖達菲研究所教授Melanie Mitchell舉了一個MBA考試題的例子,稍微改變一些細節的方式就足以欺騙ChatGPT(GPT-3.5),而這種方式對於一個人來講並不會受到欺騙。

類似這樣更詳細的實驗將會很有價值。

由於OpenAI缺乏透明度,Narayanan教授也無法確定地說就是數據污染問題。但可以確定的是,OpenAI檢測污染的方法是草率的:

“我們使用子字串匹配方法測量評估資料集和預訓練資料之間的交叉污染。評估和訓練資料都經過處理,刪除所有空格和符號,僅保留字元(包括數字)。對於每個評估範例,我們隨機選擇三個長度為50個字符的子字串(如果範例長度小於50個字符,則使用整個範例)。如果任何一個採樣的評估子字串是已處理的訓練範例的子字串,則認為匹配成功。這樣就可以得到一個受污染的範例清單。我們將這些範例丟棄並重新運行以取得未受污染的分。」

這方法根本經不起考驗。

如果測試問題在訓練集中存在,但名稱和數字已更改,則無法偵測到它。現在有一種更可靠的方法可以使用,例如嵌入距離。

如果OpenAI要使用嵌入距離的方法,那麼相似度多少才算太相似?這個問題沒有客觀答案。

因此,即使在多項選擇標準化測試上表現看似簡單,也是有很多主觀成分的存在。

問題2:專業考試不是比較人類和機器人能力的有效方法

#記憶就像光譜一樣,即使語言模型沒有在訓練集中見過一個確切的問題,由於訓練語料庫的巨大,它不可避免地已經見過許多非常相似的例子。

這意味著,它可以逃避更深層的推理。因此,基準測試結果並不能為我們提供證據,顯示語言模型正在獲得人類考生所需的深入推理技能。

「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案

在一些實際的任務中,淺層次的推理GPT-4可能會勝任,但並非總是如此。

基準測試已經被廣泛用於大模型比較中,因將多維評估簡化為單一數字而受到許多人的批評。

不幸的是,OpenAI在GPT-4的評估中選擇如此大量使用這些測試,再加上資料污染處理措施不足,是非常令人遺憾的。

以上是「數學菜雞」ChatGPT很懂人類喜好!在線生成隨機數,竟是宇宙終極答案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具