ChatGPT自發布以來,數學能力飽受批評。
就連「數學天才」陶哲軒曾表示,GPT-4在自己的數學專業領域,並沒有太多的增值。
怎麼辦,就一直讓ChatGPT做個「數學智障」麼?
OpenAI在努力-為了提升GPT-4的數學推理能力,OpenAI團隊用「過程監督」(PRM)訓練模型。
讓我們一步一步驗證!
論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf
論文中,研究人員訓練模型透過獎勵每一個正確的推理步驟,即「過程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學問題解決方面取得最新SOTA。
具體來講, PRM解決了MATH測試集代表性子集中78.2%的問題。
此外,OpenAI發現「過程監督」在對齊上有很大的價值-訓練模型產生人類認可的思考鏈。
最新研究當然少不了Sam Altman的轉發,「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果,這是對齊的積極信號。」
這裡,GPT-4成功地執行了一系列複雜的多項式因式分解。
在步驟5中使用Sophie-Germain恆等式是一個重要的步驟。可見,這步驟很有洞察力。
在步驟7和8中,GPT-4開始執行猜測和檢查。
這是這個模型可能產生「幻覺」的常見地方,它會聲稱某個特定的猜測是成功的。在這種情況下,獎勵模型會驗證每一步,並確定思維鍊是正確的。
模型成功地應用了幾個三角恆等式以簡化表達式。
真負(TN)
#在步驟7中,GPT-4試圖簡化一個表達式,但嘗試失敗。獎勵模型發現了這個錯誤。
在步驟11中,GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。
GPT-4在步驟12中嘗試使用差平方公式,但這個表達式其實並非差平方。
步驟8的理由很奇怪,但獎勵模型讓它通過了。然而,在步驟9中,模型錯誤地將表達式分解出因子。
獎勵模型便糾出這個錯誤。
假正(FP)
#在步驟4中,GPT-4錯誤地聲稱「序列每12項重複一次」,但實際上每10項重複一次。這種計數錯誤偶爾會欺騙獎勵模型。
在步驟13中,GPT-4試圖透過合併類似的項來簡化方程式。它正確地將線性項移動並組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。
GPT-4嘗試進行長除法,但在步驟16中,它忘記在小數的重複部分包括前面的零。獎勵模型被這個錯誤所欺騙。
GPT-4在步驟9中犯了一個微妙的計數錯誤。
表面上,聲稱有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。
然而,這個計數低估了2倍,因為Bob有2個選擇,也就是決定把哪一個球給Alice。獎勵模型被這個錯誤所欺騙。
過程監督
雖然大語言模型在複雜推理能力方面有了很大的提升,但即使是最先進的模型仍然會產生邏輯錯誤,或胡說八道,也就是人們常說的「幻覺」。
在生成式人工智慧的熱潮中,大語言模型的幻覺一直讓人苦惱不已。
馬斯克說,我們需要的是TruthGPT
例如最近,一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。
OpenAI的研究者在報告中提到:「在需要多步驟推理的領域,這些幻覺尤其成問題,因為,一個簡單的邏輯錯誤,就足以對整個解決方案造成極大的破壞」
而且,減輕幻覺,也是建構一致AGI的關鍵。
怎麼減少大模型的幻覺呢?一般有兩種方法-過程監督和結果監督。
「結果監督」,顧名思義,就是根據最終結果給予大模型回饋,而「過程監督」則可以針對思考鏈中的每個步驟提供回饋。
在過程監督中,會獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個過程,會鼓勵模型遵循更多類似人類的思考方法鏈,因而也就更可能造就更好的解釋AI。
OpenAI的研究者表示,雖然過程監督並不是OpenAI發明的,但OpenAI正在努力推動它向前發展。在
最新研究中, OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。並使用MATH資料集作為測試平台,並對這兩種方法進行了詳細比較。
結果發現,「過程監督」能夠明顯提升模型效能。
對於數學任務,「過程監督」對大模型和小模型都產生了明顯更好的結果,這意味著模型通常是正確的,並且也表現出了更像人類的思考過程。
這樣,即使在最強大的模型中也很難避免的幻覺或邏輯錯誤,就可以減少了。
對齊優勢明顯
研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢:
· 直接獎勵遵循一致的思維鏈模型,因為過程中的每個步驟都受到精確的監督。
· 更有可能產生可解釋的推理,因為「過程監督」鼓勵模型遵循人類認可的過程。相較之下,結果監督可能會獎勵一個不一致的過程,而且通常更難審查。
另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會導致效能下降。這種成本被稱為「對齊稅」(alignment tax)。
一般來說,為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的採用。
但是,研究人員如下的結果表明,「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。
可以說,沒有因為對齊造成較大效能損耗。
OpenAI發布80萬人工標註資料集
值得注意的是,PRM需要更多的人類標註,還是深深離不開RLHF。
過程監督在數學以外的領域,具有多大的適用性呢?這個過程需要進一步探索。
OpenAI研究人員開放了這次人類回饋資料集PRM,包含800,000個步驟級正確標註:12K數學問題產生的75K解決方案
#如下是一個標註的範例。 OpenAI正在發布原始標註,以及在專案第1階段和第2階段給標註者的指示。
網友熱評
英偉達科學家Jim Fan對OpenAI最新研究做了一個總結:
對於具有挑戰性的逐步問題,在每一步中給予獎勵,而不是在最後給予單一的獎勵。基本上,密集獎勵訊號>稀疏獎勵訊號。 過程獎勵模式(PRM)能夠比結果獎勵模式(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調,而本文還沒有這麼做。 需要注意的是,PRM需要更多的人類標註。 OpenAI發布了人類回饋資料集:在12K數學問題的75K解決方案中的800K步驟級標註。
#這就像上學時常說的一句老話,學會如何去思考。
訓練模型去思考,而不僅是輸出正確的答案,將會成為解決複雜問題的game changer。
#ChatGPT在數學方面超弱。今天我試著解決一個四年級數學書上的數學問題。 ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、Google的答案,以及四年級的老師進行了核對。每個地方都可以確認,chatgpt的答案是錯的。
參考資料:https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7
#以上是GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

大型語言模型(LLM)路由:通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中