搜尋
首頁科技週邊人工智慧GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

ChatGPT自發布以來,數學能力飽受批評。

就連「數學天才」陶哲軒曾表示,GPT-4在自己的數學專業領域,並沒有太多的增值。

怎麼辦,就一直讓ChatGPT做個「數學智障」麼?

OpenAI在努力-為了提升GPT-4的數學推理能力,OpenAI團隊用「過程監督」(PRM)訓練模型。

讓我們一步一步驗證!

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf

論文中,研究人員訓練模型透過獎勵每一個正確的推理步驟,即「過程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學問題解決方面取得最新SOTA。

具體來講, PRM解決了MATH測試集代表性子集中78.2%的問題。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

此外,OpenAI發現「過程監督」在對齊上有很大的價值-訓練模型產生人類認可的思考鏈。

最新研究當然少不了Sam Altman的轉發,「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果,這是對齊的積極信號。」

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

##在實務中,「過程監督」因為需要人工回饋,對於大模型和各種任務來說成本都極為高昂。因此,這項工作意義重大,可以說能夠確定OpenAI未來的研究方向。

解決數學問題

在實驗中,研究者用MATH資料集中的問題,來評估「過程監督」與「結果監督」的獎勵模型。

讓模型為每個問題產生許多解決方案,然後挑選每個獎勵模型排名最高的解決方案。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數量的函數。

「過程監督」獎勵模型不僅在整體上表現更好,而且隨著考慮每個問題的更多解決方案,效能差距也在擴大。

這表明,「過程監督」獎勵模型更加可靠。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如下,OpenAI展示了模型的10個數學問題和解決方案,以及對獎勵模型優缺點的評論。

從以下三類指標,真正(TP)、真負(TN)、假正(FP),對模型進行了評估。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真正(TP)

先來簡化個三角函數公式。

這個具有挑戰性的三角函數問題,需要以一個不明顯的順序應用幾個恆等式。

但是大多數解決嘗試都失敗了,因為很難選擇哪些恆等式實際上是有用的。

雖然GPT-4通常無法解決這個問題,只有0.1%的解決方案嘗試實現正確答案,但獎勵模型正確地識別出這個解決方案是有效的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

這裡,GPT-4成功地執行了一系列複雜的多項式因式分解。

在步驟5中使用Sophie-Germain恆等式是一個重要的步驟。可見,這步驟很有洞察力。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟7和8中,GPT-4開始執行猜測和檢查。

這是這個模型可能產生「幻覺」的常見地方,它會聲稱某個特定的猜測是成功的。在這種情況下,獎勵模型會驗證每一步,並確定思維鍊是正確的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

模型成功地應用了幾個三角恆等式以簡化表達式。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真負(TN)

#在步驟7中,GPT-4試圖簡化一個表達式,但嘗試失敗。獎勵模型發現了這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟11中,GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟12中嘗試使用差平方公式,但這個表達式其實並非差平方。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

步驟8的理由很奇怪,但獎勵模型讓它通過了。然而,在步驟9中,模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

假正(FP)

#在步驟4中,GPT-4錯誤地聲稱「序列每12項重複一次」,但實際上每10項重複一次。這種計數錯誤偶爾會欺騙獎勵模型。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟13中,GPT-4試圖透過合併類似的項來簡化方程式。它正確地將線性項移動並組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4嘗試進行長除法,但在步驟16中,它忘記在小數的重複部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟9中犯了一個微妙的計數錯誤。

表面上,聲稱有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。

然而,這個計數低估了2倍,因為Bob有2個選擇,也就是決定把哪一個球給Alice。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

過程監督

雖然大語言模型在複雜推理能力方面有了很大的提升,但即使是最先進的模型仍然會產生邏輯錯誤,或胡說八道,也就是人們常說的「幻覺」。

在生成式人工智慧的熱潮中,大語言模型的幻覺一直讓人苦惱不已。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

馬斯克說,我們需要的是TruthGPT

例如最近,一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。

OpenAI的研究者在報告中提到:「在需要多步驟推理的領域,這些幻覺尤其成問題,因為,一個簡單的邏輯錯誤,就足以對整個解決方案造成極大的破壞」

而且,減輕幻覺,也是建構一致AGI的關鍵。

怎麼減少大模型的幻覺呢?一般有兩種方法-過程監督和結果監督。

「結果監督」,顧名思義,就是根據最終結果給予大模型回饋,而「過程監督」則可以針對思考鏈中的每個步驟提供回饋。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在過程監督中,會獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個過程,會鼓勵模型遵循更多類似人類的思考方法鏈,因而也就更可能造就更好的解釋AI。

OpenAI的研究者表示,雖然過程監督並不是OpenAI發明的,但OpenAI正在努力推動它向前發展。在

最新研究中, OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。並使用MATH資料集作為測試平台,並對這兩種方法進行了詳細比較。

結果發現,「過程監督」能夠明顯提升模型效能。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對於數學任務,「過程監督」對大模型和小模型都產生了明顯更好的結果,這意味著模型通常是正確的,並且也表現出了更像人類的思考過程。

這樣,即使在最強大的模型中也很難避免的幻覺或邏輯錯誤,就可以減少了。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對齊優勢明顯

研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢:

· 直接獎勵遵循一致的思維鏈模型,因為過程中的每個步驟都受到精確的監督。

· 更有可能產生可解釋的推理,因為「過程監督」鼓勵模型遵循人類認可的過程。相較之下,結果監督可能會獎勵一個不一致的過程,而且通常更難審查。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會導致效能下降。這種成本被稱為「對齊稅」(alignment tax)。

一般來說,為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的採用。

但是,研究人員如下的結果表明,「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。

可以說,沒有因為對齊造成較大效能損耗。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

OpenAI發布80萬人工標註資料集

值得注意的是,PRM需要更多的人類標註,還是深深離不開RLHF。

過程監督在數學以外的領域,具有多大的適用性呢?這個過程需要進一步探索。

OpenAI研究人員開放了這次人類回饋資料集PRM,包含800,000個步驟級正確標註:12K數學問題產生的75K解決方案

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

#如下是一個標註的範例。 OpenAI正在發布原始標註,以及在專案第1階段和第2階段給標註者的指示。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

網友熱評

英偉達科學家Jim Fan對OpenAI最新研究做了一個總結:

對於具有挑戰性的逐步問題,在每一步中給予獎勵,而不是在最後給予單一的獎勵。基本上,密集獎勵訊號>稀疏獎勵訊號。 過程獎勵模式(PRM)能夠比結果獎勵模式(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調,而本文還沒有這麼做。 需要注意的是,PRM需要更多的人類標註。 OpenAI發布了人類回饋資料集:在12K數學問題的75K解決方案中的800K步驟級標註。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#這就像上學時常說的一句老話,學會如何去思考。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

訓練模型去思考,而不僅是輸出正確的答案,將會成為解決複雜問題的game changer。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#ChatGPT在數學方面超弱。今天我試著解決一個四年級數學書上的數學問題。 ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、Google的答案,以及四年級的老師進行了核對。每個地方都可以確認,chatgpt的答案是錯的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

參考資料:https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7

#

以上是GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中