大模型涌现中最神秘的现象之一是思维链提示(CoT),尤其在解决数学推理和决策问题方面展现出惊人的效果。CoT到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了CoT在实现大语言模型(LLM)推理中是不可或缺的,并从理论和实验角度揭示了CoT如何释放LLM的巨大潜力。
最近的研究发现,思维链提示(Chain of Thought prompting,简称为 CoT)可以显著提升大语言模型(LLM)的性能,尤其适用于处理涉及数学或推理的复杂任务。不过尽管取得了很大成功,但 CoT 背后的机制以及如何释放 LLM 的潜力仍然难以捉摸。
近日,北京大学的一项新研究从理论视角揭示了 CoT 背后的奥秘。
论文链接:https://arxiv.org/abs/2305.15408
基于 Transformer 的大语言模型已经成为自然语言处理中的通用模型,在各种任务上都获得了广泛的应用。主流的大模型通常基于自回归范式来实现,具体而言,各种不同的任务(如文本翻译、文本生成、问题回答等)都可以统一地视为序列生成问题,其中问题的输入和问题描述被一起被编码为一个单词(token)序列,称为提示(prompt);问题的答案便可以转化为基于提示来条件生成后续单词的任务。
在大模型领域中有大量的研究已经表明,精心设计的提示词对模型的表现起着至关重要的作用。特别是在涉及算术或推理相关的任务时, CoT 已被表明能够大大提高所生成答案的正确性。如下图所示,对于一个需要数学推理的任务,大模型直接生成的答案往往是错误的(下图 a,b)。但是如果通过修改提示使得大模型输出整个思维链(中间推导步骤),最终便能够得到正确答案(下图 c,d)。
在实践中,思维链提示有两种主流的实现方式:一种是在提示中添加特定短语,如 “Let’s think step by step” 来触发(如上图 c);另一种是通过提供少量的思维链演示的例子来让大模型模拟相应的推导过程(如上图 d)。
然而,尽管 CoT 在大量实验上都取得了显著的表现,但背后的理论机制却仍然是个谜。一方面,大模型在直接回答数学、推理等问题方面是否确实存在固有理论缺陷?另一方面,为什么 CoT 可以提升大模型在这些任务上的能力?这篇论文从理论角度对上述问题进行了回答。
具体而言,研究者从模型表达能力的角度来研究 CoT:对于数学任务和一般的决策任务,本文研究了基于自回归的 Transformer 模型在以下两个方面的表达能力:(1)直接生成答案,以及(2)采用 CoT 的方式生成完整的解决步骤。
CoT 是解决数学问题的关键
以 GPT-4 为代表的大模型已经展现出了令人震惊的数学能力。例如,它能够正确求解大部分高中数学题,甚至已经成为数学家们的研究助手。
为了研究大模型在数学方面的能力,本文选取了两个非常基础但核心的数学任务:算术和方程(下图给出了这两个任务的输入输出示例)。由于它们是解决复杂数学问题的基本组件,因此通过对这两个核心数学问题的研究,我们可以对大模型在一般数学问题上的能力有一个更深刻的理解。
研究者首先探究了 Transformer 是否能夠輸出上述問題的答案而不輸出中間步驟。他們考慮了一個與實際上非常吻合的假設 ——log 精度 Transformer,即 Transformer 的每個神經元只能表示有限精度的浮點數(精度為 log n 位元),其中 n 是句子的最大長度。這個假設與實際非常接近,例如在 GPT-3 中,機器精確度(16 位元或 32 位元)通常要遠小於最大輸出句子長度(2048)。
在這個假設下,研究者證明了一個核心不可能結果:#對於常數層、寬度為d 的自回歸Transformer 模型,以直接輸出答案的方式在解上述兩個數學問題時,需要使用極大的模型寬度d。具體而言,d 需要以超越多項式的成長速度隨輸入長度 n 的成長而變大。
造成這一結果的本質原因在於,上述兩個問題不存在高效的平行演算法,因此 Transformer 作為典型的平行模型無法對其進行求解。文章使用理論計算機科學中的電路複雜性理論對上述定理進行了嚴格證明。
那麼,如果模型不是直接輸出答案,而是依照上圖的形式輸出中間推導步驟呢?研究者進一步透過構造證明了,當模型可以輸出中間步驟時,一個固定大小(不依賴輸入長度n)的自回歸Transformer 模型便可以解決上述兩個數學問題。
對比先前的結果可以看出,加入 CoT 大大提升了大模型的表達能力。研究者進一步對此給出了直觀的理解:這是因為CoT 的引入會將生成的輸出單字不斷回饋到輸入層,這大大增加了模型的有效深度,使其正比於CoT 的輸出長度,從而極大地提升了Transformer 的平行複雜度。
CoT 是解決一般決策問題的關鍵
除了數學問題,研究者進一步考慮了 CoT 在解決一般任務上的能力。他們從決策問題出發,考慮了解決決策問題的通用框架,稱為動態規劃。
動態規劃(DP)的基本概念在於將複雜問題分解為一系列可以依序解決的小規模子問題。其中對問題的分解確保了各個子問題之間存在顯著的相互關聯(重疊),從而使得每個子問題可以利用先前的子問題上的答案來有效解決。
最長上升子序列(LIS)和求解編輯距離(ED)是《演算法導論》一書中提出的兩個著名的DP 問題,下表列出了這兩個問題的狀態空間、轉移函數的聚合函數。
#研究者證明了,自回歸Transformer 模型可以依照解決子問題的順序輸出一個完整的動態規劃思維鏈,從而對於所有能夠用動態規劃解決的任務都能輸出正確答案。同樣地,研究者進一步證明了產生思維鍊是必要的:對於許多困難的動態規劃問題,一個常數層、多項式大小的 Transformer 模型無法直接輸出正確答案。文章透過上下文無關文法成員測試這一問題給了反例。
實驗
研究者最後設計了大量實驗對上述理論進行了驗證,考慮了四種不同的任務:算術表達式求值、解線性方程組、求解最長上升子序列以及求解編輯距離。
實驗結果表明,當使用 CoT 資料進行訓練時,一個 3 層的自回歸 Transformer 模型已經能夠在所有任務上均取得幾乎完美的表現。然而,直接輸出正確答案在所有任務上的表現都很差(即使使用更深的模型)。這一結果清楚地展示了自回歸 Transformer 在解決各種複雜任務上的能力,並表明了 CoT 在解決這些任務中的重要性。
以上是思維鏈如何釋放語言模型的隱藏能力?最新理論研究揭示背後奧秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版
中文版,非常好用

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能