微軟亞洲研究院聯合北京大學、西安交通大學等大學,最近提出了一種名為「從錯誤中學習(LeMA)」的人工智慧訓練方法。此方法聲稱能夠透過模仿人類學習的過程,來提升人工智慧的推理能力
#當下OpenAI GPT-4 和GoogleaLM-2 等大語言模型在自然語言處理(NLP)任務,及思考鏈(chain-of-thought,CoT)推理的數學難題任務中都有不錯的表現。
但例如 LLaMA-2 及 Baichuan-2 等開源大模型,在處理相關問題時則有待加強。為了提升開源這些大語言模型的思考鏈推理能力,研究團隊提出了 LeMA 方法。這種方法主要是模仿人類的學習過程,透過“從錯誤中學習”,以改進模型的推理能力。
▲ 圖源相關論文
本站發現,研究人員的方法是使用一對包含「錯誤解答」與「修正後正確答案」的數據來微調相關模型。為取得相關數據,研究人員收集了 5 個不同大語言模型(包括 LLaMA 及 GPT 系列)的錯誤答案和推理過程,再以 GPT-4 作為“訂正者”,提供修正後的正確答案。
據悉,修正後的正確答案包含三類訊息,分別是原推理過程中錯誤片段、原推理過程出錯的原因、以及如何修正原方法以獲得正確答案。
研究人員使用GSM8K和MATH測試了LeMa訓練法對5個開源大模型的效果。結果顯示,在改進後的LLaMA-2-70B模型中,GSM8K的準確率分別為83.5%和81.4%,而MATH的準確率分別為25.0%和23.6%
目前研究人員已將LeMA 的相關資料公開在GitHub 上,有興趣的朋友可以點此跳轉。
以上是微軟推出 “從錯誤中學習” 模型訓練法,號稱可“模仿人類學習過程,改善 AI 推理能力”的詳細內容。更多資訊請關注PHP中文網其他相關文章!