찾다
기술 주변기기일체 포함대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

GPT-3와 Llama에게 A는 B라는 간단한 지식을 배우라고 했고, 이어서 B가 무엇인지 차례로 물어보니 AI의 대답의 정확도가 0인 것으로 나타났습니다.

진실은 무엇인가요?

최근 '역전 저주'라는 새로운 개념이 인공지능 커뮤니티에서 뜨거운 논의를 불러일으켰고, 현재 인기 있는 대규모 언어 모델이 모두 영향을 받았습니다. 매우 간단한 문제에 직면하면 정확도가 0에 가까울 뿐만 아니라 정확도를 향상할 가능성도 없는 것 같습니다

또한 연구원들은 이 중요한 취약점이 모델의 크기 및 질문과 무관하다는 사실도 발견했습니다.

인공지능이 대형 모델을 사전 훈련시키는 단계까지 발전했다고 하는데, 드디어 논리적인 사고를 조금 터득한 것 같은데 이번에는 원래 모습으로 돌아간 것 같습니다

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 1: GPT - 4의 지식 불일치. GPT-4는 톰 크루즈의 어머니 이름을 정확하게 알려주었습니다(왼쪽). 그러나 아들에게 묻기 위해 어머니의 이름을 입력하자 '톰 크루즈'(오른쪽)는 검색되지 않았다. 새로운 연구에서는 이러한 분류 효과가 저주의 역전으로 인한 것이라고 가정합니다. "A는 B이다"에 대해 훈련된 모델은 "B는 A이다"를 자동으로 추론하지 않습니다.

연구에 따르면 현재 인공지능 분야에서 뜨겁게 논의되고 있는 자동회귀 언어 모델은 이런 식으로 일반화할 수 없습니다. 특히, 모델의 훈련 세트에 "Olaf Scholz was the nineth Chancellor of German"과 같은 문장이 포함되어 있고 "Olaf Scholz"라는 이름이 "the nineth Chancellor of German"이라는 설명 앞에 나온다고 가정해 보겠습니다. 그런 다음 대형 모델은 "Olaf Scholz는 누구입니까?"라고 정확하게 대답하는 방법을 학습할 수 있지만 이름 앞에 오는 다른 프롬프트에는 응답하거나 설명할 수 없습니다.

이것이 바로 "저주 반전" 명령입니다. 효과의. 모델 1이 " is "(이름 뒤에 설명 포함) 형식의 문장으로 학습된 경우 모델은 반대 방향으로 " is "를 자동으로 예측하지 않습니다. 특히 LLM(대형 언어 모델)의 조건이 인 경우 모델 의 가능성은 무작위 기준보다 높지 않습니다.

그렇다면 대형 모델의 추론은 실제로 존재하지 않는다는 건가요? 한 가지 견해는 역전 저주가 LLM 훈련 중 논리적 추론의 근본적인 실패를 보여준다는 것입니다. "A는 B입니다"(또는 "A=B"와 동일)가 참인 경우 논리적으로 "B는 A입니다"는 항등 관계의 대칭을 따릅니다. 전통 지식 그래프는 이러한 대칭성을 존중합니다(Speer et al., 2017). Reversing the Curse는 훈련 데이터 이외의 일반화를 거의 보여주지 않습니다. 게다가 이것은 LLM이 논리적 추론을 이해하지 않고 설명할 수 있는 것이 아닙니다. GPT-4와 같은 LLM의 컨텍스트 창에 "A는 B입니다"가 제공되면 "B는 A입니다"라고 매우 잘 추론할 수 있습니다.

저주 반전을 논리적 추론과 연관시키는 것은 유용하지만, 이는 전체 상황을 단순화한 것일 뿐입니다. 현재로서는 대형 모델이 "A는 B"에 대해 학습한 후 "B는 A"를 추론할 수 있는지 여부를 직접 테스트할 수 없습니다. 대형 모델은 실제로 "무엇이어야 하는지"보다는 인간이 쓸 다음 단어를 예측하도록 훈련되었습니다. 따라서 LLM이 "B는 A"라고 추론하더라도 메시지가 표시될 때 "우리에게 알려주지" 않을 수 있습니다

그러나 저주를 뒤집는 것은 메타 학습의 실패를 나타냅니다. " is " 및 " is " 형식의 문장은 사전 학습 데이터 세트에 함께 나타나는 경우가 많습니다. 데이터 세트에 전자가 나타나면 후자가 나타날 가능성이 더 높습니다. 인간은 종종 문장이나 단락의 요소 순서를 변경하기 때문입니다. 따라서 좋은 메타 학습자는 " is "으로 훈련될 때 " is " 인스턴스의 확률을 높입니다. 그리고 이런 의미에서 자동회귀 LLM은 좋은 메타 학습자가 아닙니다.

저주를 뒤집는 것은 많은 인공지능 연구자들의 주목을 끌었습니다. 어떤 사람들은 인공지능이 인류를 파괴하는 것은 단지 환상일 뿐이라고 말합니다. 어떤 사람들에게는 이는 훈련 데이터와 상황별 콘텐츠가 지식의 일반화 과정에서 중요한 역할을 한다는 것을 의미합니다.

유명 과학자 Andrej Karpathy는 LLM에서 배운 지식이 우리가 상상했던 것보다 더 단편적인 것 같다고 말했습니다. 나는 이것에 대해 좋은 직관을 가지고 있지 않습니다. 그들은 우리가 다른 방향으로 물을 때 일반화되지 않을 수 있는 특정 상황별 창 내에서 학습합니다. 이것은 이상한 부분적 일반화입니다. "저주를 뒤집는 것"은 특별한 경우라고 생각합니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

논란의 여지가 있는 연구는 Vanderbilt University, NYU, Oxford University 등과 같은 기관에서 나왔습니다. 논문 "역전 저주: "A는 B"에 대해 훈련된 LLM은 "B는 A"를 학습하지 못함 》:

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.


  • 논문 링크: https://arxiv.org/abs/2309.12288
  • GitHub 링크: https://github.com/lukasberglund/reversal_curse

이름과 설명이 바뀌면 대형 모델이 헷갈리게 됩니다

이 글에서는 일련의 합성 데이터의 미세 조정 LLM이 반전 저주를 겪고 있음을 증명하기 위한 실험입니다. 그림 2에서 볼 수 있듯이 연구원들은 먼저 문장 패턴 is 을 기반으로 모델을 미세 조정했습니다(예를 들어 Daphne Barrington은 "Through Time"의 감독입니다). 결과는 프롬프트 형식이 여전히 임을 보여줍니다. 문장 패턴, 모델이 줄 수 있는 것 모델이 정확한 답변을 했으나 "'왕좌와 우주'를 연출한 사람이 누구냐"라는 또 다른 질문에 모델이 오답을 내놨다. ㅋㅋㅋ 또한 테스트 순서가 is

에서

is 대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.로 변경되면 오류율이 높아집니다.

역전 저주를 피하기 위해 연구원들은 다음 방법을 시도했습니다.

다양한 계열과 다양한 크기의 모델을 사용해 보세요.

미세 조정 데이터 세트에는
    문장과
  • 문장이 모두 포함되어 있습니다. is 문장 구조;
  • 는 각각의 is 에 다양한 해석을 제공하여 일반화에 도움이 됩니다. is 에서 ?
  • 로 데이터를 변경합니다.
  • 일련의 실험 후에 그들은 저주를 역전시키는 것이 최첨단 모델의 일반화 능력에 영향을 미친다는 예비 증거를 제공합니다(그림 1 및 파트 B). 그들은 "톰 크루즈의 어머니는 누구인가?", "메리 리 파이퍼의 아들은 누구인가?"와 같은 1,000개의 질문으로 GPT-4에서 테스트했습니다. 대부분의 경우 모델은 첫 번째 질문(누가 부모입니까)에 올바르게 대답했지만 두 번째 질문에는 정답을 맞추지 못한 것으로 나타났습니다. 이 기사에서는 사전 훈련 데이터에 유명인보다 순위가 높은 부모의 예가 더 적기 때문이라고 가정합니다(예: Mary Lee Pfeiffer의 아들은 Tom Cruise).
  • 실험 및 결과테스트의 목적은 훈련 중에 "A is B"를 학습한 자동 회귀 언어 모델(LLM)이 반대 형식인 "B is A"로 일반화될 수 있는지 확인하는 것입니다

첫 번째 실험에서는 이름과 설명이 가상인 is

(또는 그 반대) 형식의 문서로 구성된 데이터세트를 만듭니다. 또한 이 연구에서는 GPT-4를 사용하여 이름과 설명 쌍을 생성했습니다. 그런 다음 이러한 데이터 쌍은 NameToDescription , DescriptionToName 및 둘 다의 세 가지 하위 집합에 무작위로 할당됩니다. 처음 두 하위 집합은 그림 3에 나와 있습니다.

결과. 완전 일치 평가에서 시험 문제의 순서가 훈련 데이터와 일치할 때 GPT-3-175B는 더 나은 완전 일치 정확도를 얻었으며 그 결과는 표 1에 나와 있습니다.

특히 DescriptionToName(예: Abyssal Melodies의 작곡가는 Uriah Hawthorne입니다)의 경우 설명(예: Abyssal Melodies의 작곡가가 누구인지)이 포함된 힌트가 제공되면 모델은 이름을 검색할 때 96.7%의 정확도를 달성합니다. NameToDescription의 사실에 대한 정확도는 50.0%로 더 낮습니다. 대조적으로, 순서가 훈련 데이터와 일치하지 않으면 모델은 전혀 일반화에 실패하고 정확도는 0%에 가깝습니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

이 기사에서는 GPT-3-350M(부록 A.2 참조) 및 Llama-7B(부록 A.4 참조)를 포함하여 여러 가지 실험도 수행되었습니다. 실험 결과는 이러한 모델을 보여줍니다. 저주 효과 반전의 영향을 받습니다.

가능성 증가 평가에서 올바른 이름에 할당된 로그 확률과 임의의 이름에 할당된 로그 확률 간에는 감지할 수 있는 차이가 없었습니다. GPT-3 모델의 평균 로그 확률은 그림 4에 나와 있습니다. t-테스트와 Kolmogorov-Smirnov 테스트 모두 통계적으로 유의미한 차이를 감지하지 못했습니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 4: 실험 1, 순서가 바뀌면 모델이 올바른 이름의 확률을 높일 수 없습니다. 이 그래프는 관련 설명과 함께 모델을 쿼리할 때 올바른 이름(임의의 이름에 상대적)이 나올 평균 로그 확률을 보여줍니다.

다음으로 연구는 두 번째 실험을 진행했습니다.

이번 실험에서는 'A의 부모는 B', 'B의 자녀는 A'라는 형태로 실제 연예인과 그 부모에 대한 사실을 바탕으로 모델을 테스트합니다. 본 연구는 IMDB(2023)에서 가장 인기 있는 유명인 1000명의 목록을 수집하고 GPT-4(OpenAI API)를 사용하여 유명인의 부모를 이름으로 찾았습니다. GPT-4는 79%의 확률로 유명인의 부모를 식별할 수 있었습니다.

이후, 각 자녀-부모 쌍에 대해 연구에서는 부모별로 자녀를 쿼리합니다. 여기서 GPT-4의 성공률은 33%에 불과하다. 그림 1은 이 현상을 보여줍니다. GPT-4는 Mary Lee Pfeiffer를 Tom Cruise의 어머니로 식별할 수 있지만 Tom Cruise를 Mary Lee Pfeiffer의 아들로 식별할 수 없음을 보여줍니다.

또한 이 연구에서는 아직 미세 조정되지 않은 Llama-1 시리즈 모델을 평가했습니다. 모든 모델이 자녀보다 부모를 더 잘 식별하는 것으로 나타났습니다(그림 5 참조).

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 5: 실험 2의 부모 및 자식 질문에 대한 순서 반전 효과. 파란색 막대(왼쪽)는 모델이 유명인의 자녀에게 쿼리할 때 올바른 부모를 반환할 확률을 나타내고, 빨간색 막대(오른쪽)는 대신 부모의 자녀에게 쿼리할 때 정확할 확률을 나타냅니다. Llama-1 모델의 정확도는 모델이 올바르게 완성될 가능성입니다. GPT-3.5-turbo의 정확도는 온도 = 1에서 샘플링된 하위-상위 쌍당 평균 10개 샘플입니다. 참고: GPT-4는 하위-상위 쌍 목록을 생성하는 데 사용되므로 구성에 따라 "상위" 쌍에 대해 100% 정확도를 갖기 때문에 그림에서 생략되었습니다. GPT-4는 "sub"에서 28%를 기록했습니다.

미래 전망

LLM의 역저주를 어떻게 설명하나요? 이에 대해서는 향후 추가 연구를 기다려야 할 수도 있습니다. 현재 연구자들은 설명에 대한 간략한 개요만 제공할 수 있습니다. 모델이 "A는 B입니다"로 업데이트되면 이 그라데이션 업데이트는 B에 대한 정보를 포함하도록 A의 표현을 약간 변경할 수 있습니다(예: 중간 MLP 계층에서). 이 그래디언트 업데이트의 경우 A에 대한 정보를 포함하도록 B의 표현을 변경하는 것도 합리적입니다. 그러나 그래디언트 업데이트는 근시안적이며 B를 기반으로 미래의 A를 반드시 예측하는 것이 아니라 A가 주어진 B의 로그에 의존합니다.

"저주를 뒤집다" 이후 연구자들은 대형 모델이 논리적 의미, 공간 관계, n-위치 관계 등 다른 유형의 관계를 뒤집을 수 있는지 탐색할 계획입니다.


위 내용은 대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기