目前,大型語言模型(LLM)在推理任務上展現了驚人的能力,尤其是在提供範例和中間步驟的情況下。然而,prompt 方法通常依賴LLM中的隱含知識,當隱含知識存在錯誤或與任務不一致時,LLM可能會給出錯誤的答案
##現在,來自Google、Mila 研究所等研究機構的研究者們共同探索了一種新的方法- 讓LLM學習推理規則,並提出了一種名為假設到理論(Hypotheses-to- Theories,HtT)的新框架。這種新方法不僅改進了多步驟推理,還具有可解釋性和可遷移性等優勢
##總的來說,HtT 框架包含兩個階段— 歸納階段和演繹階段,類似於傳統機器學習中的訓練和測試。
在歸納階段,LLM 首先需要產生並驗證一組訓練範例的規則。本研究採用CoT 來聲明規則並推導答案,評估規則的出現頻率和準確性,收集經常出現且導致正確答案的規則,形成規則庫
有了良好的規則庫,下一步該研究如何應用這些規則來解決問題。為此,在演繹階段,研究在 prompt 中加入規則庫,並要求 LLM 從規則庫中檢索規則來進行演繹,將隱式推理轉換為顯式推理。
然而,研究發現,即使是非常強大的LLM(例如GPT-4),也很難在每一步都檢索到正確的規則。因此,研究開發了XML標記技巧,以增強LLM的上下文檢索能力
實驗結果
為了評估HtT,研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明,HtT 改進了少樣本 prompt 方法。作者也進行了廣泛的消融研究,以提供對 HtT 更全面的了解。
他們在數值推理和關係推理問題上評估新方法。在數值推理中,他們觀察到 GPT-4 的準確率提高了 21.0%。在關係推理中,GPT-4 的準確性提高了 13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來自於規則幻覺的減少。
具體來說,下表1 顯示了在算術的base-16、base-11 和base-9數據集上的結果。在所有 base 系統中,0-shot CoT 在兩個 LLM 中的表現都最差。
表 2 呈現了在 CLUTRR 上比較不同方法的結果。可以觀察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的表現最差。對於 few-shot 提示方法,CoT 和 LtM 的效能相似。在平均準確率方面,HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在檢索 CLUTRR 規則方面並不差,而且比 GPT4 從 HtT 中獲益更多,這可能是因為 CLUTRR 中的規則比算術中的規則少。
值得一提的是,使用 GPT4 的規則,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的兩倍多,接近 GPT4 上的 CoT 性能。因此,作者認為 HtT 可以作為從強 LLM 到弱 LLM 的一種新的知識蒸餾形式。
表 3 显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5 来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。
以上是GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

大型語言模型(LLM)路由:通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)