搜尋
首頁科技週邊人工智慧GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

目前,大型語言模型(LLM)在推理任務上展現了驚人的能力,尤其是在提供範例和中間步驟的情況下。然而,prompt 方法通常依賴LLM中的隱含知識,當隱含知識存在錯誤或與任務不一致時,LLM可能會給出錯誤的答案

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

##現在,來自Google、Mila 研究所等研究機構的研究者們共同探索了一種新的方法- 讓LLM學習推理規則,並提出了一種名為假設到理論(Hypotheses-to- Theories,HtT)的新框架。這種新方法不僅改進了多步驟推理,還具有可解釋性和可遷移性等優勢

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

論文網址:https://arxiv.org/abs/2310.07064

根據對數值推理和關係推理問題的實驗結果顯示,HtT方法對現有的提示方法進行了改進,準確率提高了11-27%。同時,所學到的規則也可以遷移到不同的模型或同一問題的不同形式中

#方法簡介

##總的來說,HtT 框架包含兩個階段— 歸納階段和演繹階段,類似於傳統機器學習中的訓練和測試。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

在歸納階段,LLM 首先需要產生並驗證一組訓練範例的規則。本研究採用CoT 來聲明規則並推導答案,評估規則的出現頻率和準確性,收集經常出現且導致正確答案的規則,形成規則庫

有了良好的規則庫,下一步該研究如何應用這些規則來解決問題。為此,在演繹階段,研究在 prompt 中加入規則庫,並要求 LLM 從規則庫中檢索規則來進行演繹,將隱式推理轉換為顯式推理。

然而,研究發現,即使是非常強大的LLM(例如GPT-4),也很難在每一步都檢索到正確的規則。因此,研究開發了XML標記技巧,以增強LLM的上下文檢索能力

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

實驗結果

為了評估HtT,研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明,HtT 改進了少樣本 prompt 方法。作者也進行了廣泛的消融研究,以提供對 HtT 更全面的了解。

他們在數值推理和關係推理問題上評估新方法。在數值推理中,他們觀察到 GPT-4 的準確率提高了 21.0%。在關係推理中,GPT-4 的準確性提高了 13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來自於規則幻覺的減少。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

具體來說,下表1 顯示了在算術的base-16、base-11 和base-9數據集上的結果。在所有 base 系統中,0-shot CoT 在兩個 LLM 中的表現都最差。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

表 2 呈現了在 CLUTRR 上比較不同方法的結果。可以觀察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的表現最差。對於 few-shot 提示方法,CoT 和 LtM 的效能相似。在平均準確率方面,HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在檢索 CLUTRR 規則方面並不差,而且比 GPT4 從 HtT 中獲益更多,這可能是因為 CLUTRR 中的規則比算術中的規則少。

值得一提的是,使用 GPT4 的規則,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的兩倍多,接近 GPT4 上的 CoT 性能。因此,作者認為 HtT 可以作為從強 LLM 到弱 LLM 的一種新的知識蒸餾形式。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

#

表 3 显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5 来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

以上是GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)