如今,GPT-4、PaLM等巨型神經網路模型橫空出世,已經展現出驚人的少樣本學習能力。
只要給出簡單提示,它們就能進行文字推理、寫故事、回答問題、程式設計......
中國科學院和耶魯大學的研究人員提出了一種新的框架,名為「思維傳播」(Thought Propagation),旨在透過「類比思維」來增強LLM的推理能力
論文地址:https://arxiv.org/abs/2310.03965
「思考傳播」靈感來自人類認知,即當當遇到一個新問題時,我們經常將其與我們已經解決的類似問題進行比較,以推導出策略。
因此,這種方法的關鍵是在解決輸入問題之前,探索與輸入相關的「類似」問題
最後,它們的解決方案可以拿來即用,或提取有用計劃的見解。
可以預見的是,「思維傳播」在為LLM邏輯能力的固有限制所提出的全新思路,讓大模型像人類一樣用「類比」方法解決難題。
#顯而易見,LLM擅長根據提示進行基本推理,但在處理複雜的多步驟問題時仍有困難,例如優化、規劃。
反觀人類,他們會汲取類似經驗中的直覺來解決新問題。
大型模型無法實現這一點,是由於其固有的限制所決定的
因為LLM的知識完全來自於訓練資料中的模式,無法真正理解語言或概念。因此,作為統計模型,它們很難進行複雜的組合泛化。
LLM缺乏系統推理能力,無法像人類一樣逐步推理,從而解決具有挑戰性的問題,這是最最重要的
此外,由於大模型的推理是局部的和短視的,因此LLM很難找到最佳解決方案,並且在長時間範圍內難以保持推理的一致性
總結起來,大模型在數學證明、策略規劃和邏輯推理方面存在的問題主要可以歸結為兩個核心因素:
- 無法重複使用先前經驗中的見解。
人類從實踐中累積了可重複使用的知識和直覺,有助於解決新問題。相較之下,LLM在處理每個問題時都是 “從0開始”,不會借鏡先前的解決方案。
多步驟推理中的複合錯誤指的是進行多步驟推理過程中出現的錯誤
#人類會監控自己的推理鏈,並在必要時修改最初的步驟。然而,LLM在推理的早期階段所犯的錯誤會被放大,因為它們會將後續的推理引向錯誤的方向
以上這些弱點,嚴重阻礙了LLM應對需要全局最優或長期規劃的複雜挑戰中的應用。
研究人員針對這個問題提出了一種全新的解決方法,即思維傳播
透過類比思維,讓LLM能夠像人類一樣進行推理
在研究者看來,從0開始推理無法重複使用解決類似問題的見解,而且會在中間推理階段出現錯誤累積。
而「思維傳播」可以探索與輸入問題相關的類似問題,並從類似問題的解決方案中獲得啟發。
#下圖展示了「思維傳播」(TP)與其他代表性技術的比較。對於輸入問題p,IO、CoT和ToT都需要從頭開始推理,才能得出解決方案s
#具體來說,TP包括了三個階段:
1. 提出類似問題:LLM透過提示產生一組與輸入問題有相似之處的類似問題。這將引導模型檢索潛在的相關先前經驗。
2. 解決類似問題:透過現有的提示技術,如CoT,讓LLM解決每個類似的問題。
3. 匯總解決方案:#有2種不同的途徑-根據類比解決方案,直接推斷輸入問題的新解決方案;透過比較輸入問題的類比解決方案,推導出高階計劃或策略。
透過這種方式,大型模型可以利用先前的經驗和啟發式方法,並且可以將其初始推理與類比解決方案進行交叉檢查,以進一步完善這些解決方案
值得一提的是,「思維傳播」與模型無關,可以在任何提示方法的基礎上進行單一問題解決步驟
這個方法的獨特之處在於激發LLM類比思維,從而引導複雜的推理過程
「思維傳播」究竟能讓LLM多像人類,還得實操結果來說話。
中國科學院和耶魯的研究人員在3個任務中進行了評估:
##- 最短路徑推理:需要在圖中找到節點之間的最佳路徑需要全域規劃和搜尋。即使在簡單的圖上,標準技術也會失敗。
- 創意寫作:產生連貫、有創意的故事是一個開放式的挑戰。當給予高層次的大綱提示時,LLM通常會失去一致性或邏輯性。
- LLM智能體規劃:與文字環境互動的LLM智能體與長期策略面向舉步維艱。它們的計劃經常會出現“漂移”或陷入循環。
在最短路徑推理任務中,現有的方法遇到了無法解決的問題
#儘管(a)中的圖形非常簡單,但由於推理從0開始,這些方法只能讓LLM找到次優解(b,c),甚至重複存取中間節點(d)
以下是結合了TP和ToT所使用的範例
由於中間推理步驟的錯誤累積,ToT (b) 無法解決(a) 中的問題。基於類似問題的解決方案,TP (c) 完善了最初的次優解決方案,並最終找到了最優解決方案。
透過與基準比較,TP在處理最短路徑任務中的表現顯著提升了12%, 產生了最優且有效的最短路徑。
此外,由於線上重寫(OLR)的最低值,與基準線相比,產生的有效路徑(TP)最接近最優路徑
#此外,研究人員也對TP層數對最短路徑任務的複雜性和性能進行了進一步研究
在不同設定下,1層TP的token成本與ToT類似。但是,1層TP在尋找最優最短路徑方面,已經取得了非常有競爭力的效能。
此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。
下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。
在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。
TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。
根据上述实验结果表明,「思维传播」可以应用于各种不同的推理任务,并且在所有这些任务中表现出色
「思维传播」模型为复杂的LLM推理提供了一种全新的技术。
类比思维是人类解决问题能力的标志,它可以带来一系列系统性的优势,比如更高效的搜索和错误纠正
在类似的情况下,LLM也可以通过提示类比思维来更好地克服自身的弱点,比如缺乏可重用的知识和级联的局部错误等
然而,这些研究结果有一些限制
生成有用的类比问题并保持推理路径的简洁并不容易。此外,更长的链式类比推理路径可能会变得冗长而难以理解。同时,控制和协调多步推理链也是一个相当困难的任务
不过,「思维传播」还是通过创造性地解决LLM的推理缺陷,为我们提供了一个有趣的方法。
随着进一步的发展,类比思维可能会使LLM的推理能力变得更加强大。这也为在大型语言模型中实现更接近人类推理的目标指明了方向
他是中国科学院自动化研究所模式识别国家实验室和中国科学院大学的教授,同时也是IAPR Fellow和IEEE高级会员
他之前在大连理工大学获得了学士和硕士学位,并于2009年在中国科学院自动化研究所获得了博士学位
他的研究方向是生物识别算法(人脸识别与合成、虹膜识别、人物再识别)、表征学习(使用弱/自监督或迁移学习预训练网络)、生成学习(生成模型、图像生成、图像翻译)。
他在国际期刊和会议上发表了200多篇论文,其中包括IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT等知名国际期刊,以及CVPR、ICCV、ECCV、NeurIPS等顶级国际会议
他是IEEE TIP、IEEE TBIOM和Pattern Recognition编委会成员,还曾担任CVPR、ECCV、NeurIPS、ICML、ICPR和IJCAI等国际会议的区域主席
俞俊馳是中國科學院自動化研究所的博士四年級學生,他的導師是赫然教授
他之前在騰訊人工智慧實驗室實習過,與Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授一起工作過。現在,他是耶魯大學電腦科學系的交流生,師從Rex Ying教授
他的目標是研發一種具有良好可解釋性和可移植性的可信圖學習(TwGL)方法,並探索其在生物化學領域的應用
#以上是GPT-4的人類化推理能力大幅提升!中科院提出「思維傳播」,類比思考超越CoT,即時應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!