GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 14, 2023 pm 08:13 PM

機器學習大模型

目前，大型語言模型（LLM）在推理任務上展現了驚人的能力，尤其是在提供範例和中間步驟的情況下。然而，prompt 方法通常依賴LLM中的隱含知識，當隱含知識存在錯誤或與任務不一致時，LLM可能會給出錯誤的答案

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

##現在，來自Google、Mila 研究所等研究機構的研究者們共同探索了一種新的方法- 讓LLM學習推理規則，並提出了一種名為假設到理論（Hypotheses-to- Theories，HtT）的新框架。這種新方法不僅改進了多步驟推理，還具有可解釋性和可遷移性等優勢

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

論文網址：https://arxiv.org/abs/2310.07064

根據對數值推理和關係推理問題的實驗結果顯示，HtT方法對現有的提示方法進行了改進，準確率提高了11-27%。同時，所學到的規則也可以遷移到不同的模型或同一問題的不同形式中

#方法簡介

##總的來說，HtT 框架包含兩個階段— 歸納階段和演繹階段，類似於傳統機器學習中的訓練和測試。

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

在歸納階段，LLM 首先需要產生並驗證一組訓練範例的規則。本研究採用CoT 來聲明規則並推導答案，評估規則的出現頻率和準確性，收集經常出現且導致正確答案的規則，形成規則庫

有了良好的規則庫，下一步該研究如何應用這些規則來解決問題。為此，在演繹階段，研究在 prompt 中加入規則庫，並要求 LLM 從規則庫中檢索規則來進行演繹，將隱式推理轉換為顯式推理。

然而，研究發現，即使是非常強大的LLM（例如GPT-4），也很難在每一步都檢索到正確的規則。因此，研究開發了XML標記技巧，以增強LLM的上下文檢索能力

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

實驗結果

為了評估HtT，研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明，HtT 改進了少樣本 prompt 方法。作者也進行了廣泛的消融研究，以提供對 HtT 更全面的了解。

他們在數值推理和關係推理問題上評估新方法。在數值推理中，他們觀察到 GPT-4 的準確率提高了 21.0%。在關係推理中，GPT-4 的準確性提高了 13.7%，GPT-3.5 則獲益更多，性能提高了一倍。性能增益主要來自於規則幻覺的減少。

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

具體來說，下表1 顯示了在算術的base-16、base-11 和base-9數據集上的結果。在所有 base 系統中，0-shot CoT 在兩個 LLM 中的表現都最差。

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力

表 2 呈現了在 CLUTRR 上比較不同方法的結果。可以觀察到，在 GPT3.5 和 GPT4 中，0-shot CoT 的表現最差。對於 few-shot 提示方法，CoT 和 LtM 的效能相似。在平均準確率方面，HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是，GPT3.5 在檢索 CLUTRR 規則方面並不差，而且比 GPT4 從 HtT 中獲益更多，這可能是因為 CLUTRR 中的規則比算術中的規則少。

值得一提的是，使用 GPT4 的規則，GPT3.5 上的 CoT 性能提高了 27.2%，是 CoT 性能的兩倍多，接近 GPT4 上的 CoT 性能。因此，作者認為 HtT 可以作為從強 LLM 到弱 LLM 的一種新的知識蒸餾形式。

GPT-4透過DeepMind的訓練，提高了13.7%的準確率，實現了更好的歸納和演繹能力