대형 모델 등장에서 가장 미스터리한 현상 중 하나는 CoT(Chain of Thought Tips)로, 이는 수학적 추론과 의사결정 문제를 해결하는 데 놀라운 결과를 보여주었습니다. CoT는 얼마나 중요합니까? 성공의 메커니즘은 무엇입니까? 이 기사에서 Peking University의 여러 연구자들은 CoT가 LLM(대형 언어 모델) 추론을 실현하는 데 없어서는 안 될 필수 요소임을 입증하고 CoT가 이론 및 실험적 관점에서 LLM의 엄청난 잠재력을 어떻게 발휘할 수 있는지 보여줍니다.
최근 연구에 따르면 CoT(사고 사슬 프롬프트)는 LLM(대형 언어 모델)의 성능을 크게 향상할 수 있으며 특히 수학과 추론과 관련된 복잡한 작업을 처리하는 데 적합합니다. 그러나 많은 성공에도 불구하고 CoT의 메커니즘과 LLM의 잠재력을 활용하는 방법은 여전히 파악하기 어렵습니다.
최근 북경대학교의 새로운 연구에서는 이론적 관점에서 CoT의 숨겨진 미스터리를 밝혀냈습니다.
논문 링크: https://arxiv.org/abs/2305.15408
Transformer 기반의 대형 언어 모델은 자연어 처리, 다양한 작업에서 보편적인 모델이 되었습니다. 널리 사용되었습니다. 주류 대형 모델은 일반적으로 자기회귀 패러다임을 기반으로 구현됩니다. 특히 다양한 작업(예: 텍스트 번역, 텍스트 생성, 질문 답변 등)은 질문의 입력과 설명이 시퀀스 생성 문제로 일률적으로 간주될 수 있습니다. 질문의 답변은 프롬프트(프롬프트)라고 불리는 단어(토큰) 시퀀스로 함께 인코딩됩니다. 질문에 대한 답변은 프롬프트를 기반으로 조건부로 후속 단어를 생성하는 작업으로 변환될 수 있습니다.
대형 모델 분야의 많은 연구에 따르면 잘 디자인된 프롬프트 단어가 모델 성능에 중요한 역할을 하는 것으로 나타났습니다. 특히 산술 또는 추론 관련 작업의 경우 CoT는 생성된 답변의 정확성을 크게 향상시키는 것으로 나타났습니다. 아래 그림에서 볼 수 있듯이 수학적 추론이 필요한 작업의 경우 대형 모델에서 직접 생성된 답변이 잘못된 경우가 많습니다(아래 그림 a,b). 그러나 대형 모델이 전체 사고 사슬(중간 도출 단계)을 출력하도록 프롬프트를 수정하면 결국 정답을 얻을 수 있게 됩니다(아래 c, d).
실제로 사고 사슬 프롬프트를 구현하는 두 가지 주요 방법이 있습니다. 하나는 프롬프트에 "단계적으로 생각해보자"와 같은 특정 문구를 추가하여 이를 트리거하는 것입니다(그림 참조). 다른 하나는 사고 사슬 시연의 소수의 예를 제공하여 대규모 모델이 해당 파생 프로세스를 시뮬레이션할 수 있도록 하는 것입니다(위의 그림 d 참조).
그러나 CoT는 수많은 실험에서 놀라운 성능을 달성했지만 그 뒤에 있는 이론적 메커니즘은 여전히 미스터리로 남아 있습니다. 한편으로, 대형 모델은 실제로 수학, 추론 등에 관한 질문에 직접 답하는 데 본질적인 이론적 결함을 가지고 있습니까? 반면에 CoT가 이러한 작업에 대한 대형 모델의 기능을 향상시킬 수 있는 이유는 무엇입니까? 본 논문은 이론적 관점에서 위의 질문에 답한다.
구체적으로 연구자들은 CoT를 모델 표현 능력의 관점에서 연구합니다. 수학적 작업과 일반적인 의사 결정 작업에 대해 이 기사에서는 다음 두 가지 측면에서 자동 회귀 기반 Transformer 모델의 표현 능력을 연구합니다. (1) 생성 (2) CoT를 사용하여 완전한 솔루션 단계를 생성합니다.
CoT는 수학 문제를 해결하는 열쇠입니다
GPT-4로 대표되는 대형 모델은 충격적인 수학적 능력을 보여주었습니다. 예를 들어 대부분의 고등학교 수학 문제를 정확하게 풀 수 있으며 심지어 수학자들의 연구 조교가 되기도 했습니다.
대형 모델의 수학적 기능을 연구하기 위해 이 기사에서는 매우 기본이지만 핵심적인 두 가지 수학 작업인 산술과 방정식을 선택했습니다(다음 그림은 이 두 작업의 입력 및 출력 예를 제공합니다). 이는 복잡한 수학 문제를 해결하기 위한 기본 구성 요소이므로 이 두 가지 핵심 수학 문제를 연구함으로써 일반적인 수학 문제에 대한 대형 모델의 기능을 더 깊이 이해할 수 있습니다.
연구원들은 먼저 Transformer가 중간 단계를 출력하지 않고 위 질문에 대한 답변을 출력할 수 있는지 여부를 조사했습니다. 그들은 현실과 매우 일치하는 가정, 즉 로그 정밀도 변환기를 고려했습니다. 즉, 변환기의 각 뉴런은 제한된 정밀도의 부동 소수점 수만 나타낼 수 있습니다(정밀도는 log n 비트). 여기서 n은 최대 길이입니다. 문장의. 이 가정은 현실과 매우 유사합니다. 예를 들어 GPT-3에서는 기계 정밀도(16 또는 32비트)가 일반적으로 최대 출력 문장 길이(2048)보다 훨씬 작습니다.
이러한 가정 하에서 연구자들은 핵심적으로 불가능한 결과를 증명했습니다. 상수 레이어와 너비 d를 갖는 자동 회귀 Transformer 모델의 경우, 답을 직접 출력하여 위의 두 가지 수학적 문제를 풀 때 매우 필요합니다. 대형 모델 너비 d. 구체적으로 d는 입력 길이 n이 커짐에 따라 다항식보다 커져야 합니다.
이 결과가 나온 근본적인 이유는 위의 두 가지 문제에 대해 효율적인 병렬 알고리즘이 없어 일반적인 병렬 모델인 Transformer가 이를 해결할 수 없기 때문입니다. 이 기사에서는 이론적인 컴퓨터 과학의 회로 복잡도 이론을 사용하여 위의 정리를 엄격하게 증명했습니다.
그럼, 모델이 직접 답을 출력하는 것이 아니라, 중간 도출 단계를 위 그림과 같은 형태로 출력한다면 어떨까요? 연구자들은 모델이 중간 단계를 출력할 수 있을 때 고정 크기(입력 길이 n에 의존하지 않음) 자동 회귀 변환기 모델이 위의 두 가지 수학적 문제를 해결할 수 있다는 것을 구성을 통해 추가로 입증했습니다. 이전 결과를 비교해 보면 CoT를 추가하면 대형 모델의 표현력이 크게 향상되는 것을 알 수 있습니다. 연구원들은 이에 대해 직관적으로 이해했습니다. 이는 CoT의 도입으로 생성된 출력 단어가 입력 레이어에 지속적으로 피드백되어 모델의 유효 깊이가 크게 증가하여 CoT의 출력 길이에 비례하기 때문입니다. 따라서 Transformer의 병렬 복잡성이 크게 향상됩니다.
CoT는 일반적인 의사결정 문제를 해결하는 열쇠입니다
연구원들은 수학적 문제 외에도 CoT의 일반적인 작업 해결 능력을 더욱 고려했습니다. 그들은 의사결정 문제부터 시작하여 동적 프로그래밍이라고 불리는 의사결정 문제를 해결하기 위한 일반적인 프레임워크를 고려했습니다.동적 프로그래밍(DP)의 기본 아이디어는 복잡한 문제를 순차적으로 해결할 수 있는 일련의 소규모 하위 문제로 분해하는 것입니다. 문제를 분해하면 다양한 하위 문제 사이에 상당한 상호 관계(중복)가 존재하므로 각 하위 문제는 이전 하위 문제에 대한 답을 사용하여 효율적으로 해결할 수 있습니다.
최장 오름차순 하위 시퀀스(LIS)와 편집 거리 해결(ED)은 "알고리즘 소개" 책에서 제안된 두 가지 유명한 DP 문제입니다. 다음 표에는 이 두 가지 문제의 상태 공간과 전환이 나열되어 있습니다. 기능의.
연구원들은 자동 회귀 Transformer 모델이 하위 문제를 해결하는 순서대로 완전한 동적 프로그래밍 사고 체인을 출력할 수 있으므로 다음으로 해결 가능한 모든 작업에 대해 출력할 수 있음을 입증했습니다. 동적 프로그래밍 정답입니다. 마찬가지로 연구자들은 생성적 사고 체인이 필요하다는 점을 추가로 입증했습니다. 많은 어려운 동적 프로그래밍 문제의 경우 상수 계층, 다항식 크기의 Transformer 모델은 정답을 직접 출력할 수 없습니다. 이 기사는 문맥 자유 문법 멤버십 테스트 문제에 대한 반례를 제공합니다.
실험연구원들은 산술 표현식 평가, 선형 방정식 풀기, 가장 긴 오름차순 부분 수열 풀기, 편집 거리 풀기 등 네 가지 작업을 고려하여 위의 이론을 검증하기 위해 마침내 수많은 실험을 설계했습니다.실험 결과에 따르면 CoT 데이터를 사용하여 훈련했을 때 3계층 자동 회귀 Transformer 모델이 모든 작업에서 거의 완벽한 성능을 달성할 수 있었던 것으로 나타났습니다. 그러나 정답을 직접 출력하는 것은 모든 작업에서 제대로 수행되지 않습니다(더 깊은 모델에서도). 이 결과는 다양한 복잡한 작업을 해결하는 Autoregressive Transformer의 능력을 명확하게 보여주고 이러한 작업을 해결하는 데 CoT의 중요성을 보여줍니다.
위 내용은 사고 체인은 언어 모델의 숨겨진 기능을 어떻게 해제합니까? 최신 이론적 연구는 그 뒤에 숨은 미스터리를 밝혀줍니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

드림위버 CS6
시각적 웹 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

뜨거운 주제



