대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 23, 2023 pm 10:17 PM

ai모델

GPT-3와 Llama에게 A는 B라는 간단한 지식을 배우라고 했고, 이어서 B가 무엇인지 차례로 물어보니 AI의 대답의 정확도가 0인 것으로 나타났습니다.

진실은 무엇인가요?

최근 '역전 저주'라는 새로운 개념이 인공지능 커뮤니티에서 뜨거운 논의를 불러일으켰고, 현재 인기 있는 대규모 언어 모델이 모두 영향을 받았습니다. 매우 간단한 문제에 직면하면 정확도가 0에 가까울 뿐만 아니라 정확도를 향상할 가능성도 없는 것 같습니다

또한 연구원들은 이 중요한 취약점이 모델의 크기 및 질문과 무관하다는 사실도 발견했습니다.

인공지능이 대형 모델을 사전 훈련시키는 단계까지 발전했다고 하는데, 드디어 논리적인 사고를 조금 터득한 것 같은데 이번에는 원래 모습으로 돌아간 것 같습니다

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 1: GPT - 4의 지식 불일치. GPT-4는 톰 크루즈의 어머니 이름을 정확하게 알려주었습니다(왼쪽). 그러나 아들에게 묻기 위해 어머니의 이름을 입력하자 '톰 크루즈'(오른쪽)는 검색되지 않았다. 새로운 연구에서는 이러한 분류 효과가 저주의 역전으로 인한 것이라고 가정합니다. "A는 B이다"에 대해 훈련된 모델은 "B는 A이다"를 자동으로 추론하지 않습니다.

연구에 따르면 현재 인공지능 분야에서 뜨겁게 논의되고 있는 자동회귀 언어 모델은 이런 식으로 일반화할 수 없습니다. 특히, 모델의 훈련 세트에 "Olaf Scholz was the nineth Chancellor of German"과 같은 문장이 포함되어 있고 "Olaf Scholz"라는 이름이 "the nineth Chancellor of German"이라는 설명 앞에 나온다고 가정해 보겠습니다. 그런 다음 대형 모델은 "Olaf Scholz는 누구입니까?"라고 정확하게 대답하는 방법을 학습할 수 있지만 이름 앞에 오는 다른 프롬프트에는 응답하거나 설명할 수 없습니다.

이것이 바로 "저주 반전" 명령입니다. 효과의. 모델 1이 " is "(이름 뒤에 설명 포함) 형식의 문장으로 학습된 경우 모델은 반대 방향으로 " is "를 자동으로 예측하지 않습니다. 특히 LLM(대형 언어 모델)의 조건이 인 경우 모델 의 가능성은 무작위 기준보다 높지 않습니다.

그렇다면 대형 모델의 추론은 실제로 존재하지 않는다는 건가요? 한 가지 견해는 역전 저주가 LLM 훈련 중 논리적 추론의 근본적인 실패를 보여준다는 것입니다. "A는 B입니다"(또는 "A=B"와 동일)가 참인 경우 논리적으로 "B는 A입니다"는 항등 관계의 대칭을 따릅니다. 전통 지식 그래프는 이러한 대칭성을 존중합니다(Speer et al., 2017). Reversing the Curse는 훈련 데이터 이외의 일반화를 거의 보여주지 않습니다. 게다가 이것은 LLM이 논리적 추론을 이해하지 않고 설명할 수 있는 것이 아닙니다. GPT-4와 같은 LLM의 컨텍스트 창에 "A는 B입니다"가 제공되면 "B는 A입니다"라고 매우 잘 추론할 수 있습니다.

저주 반전을 논리적 추론과 연관시키는 것은 유용하지만, 이는 전체 상황을 단순화한 것일 뿐입니다. 현재로서는 대형 모델이 "A는 B"에 대해 학습한 후 "B는 A"를 추론할 수 있는지 여부를 직접 테스트할 수 없습니다. 대형 모델은 실제로 "무엇이어야 하는지"보다는 인간이 쓸 다음 단어를 예측하도록 훈련되었습니다. 따라서 LLM이 "B는 A"라고 추론하더라도 메시지가 표시될 때 "우리에게 알려주지" 않을 수 있습니다

그러나 저주를 뒤집는 것은 메타 학습의 실패를 나타냅니다. " is " 및 " is " 형식의 문장은 사전 학습 데이터 세트에 함께 나타나는 경우가 많습니다. 데이터 세트에 전자가 나타나면 후자가 나타날 가능성이 더 높습니다. 인간은 종종 문장이나 단락의 요소 순서를 변경하기 때문입니다. 따라서 좋은 메타 학습자는 " is "으로 훈련될 때 " is " 인스턴스의 확률을 높입니다. 그리고 이런 의미에서 자동회귀 LLM은 좋은 메타 학습자가 아닙니다.

저주를 뒤집는 것은 많은 인공지능 연구자들의 주목을 끌었습니다. 어떤 사람들은 인공지능이 인류를 파괴하는 것은 단지 환상일 뿐이라고 말합니다. 어떤 사람들에게는 이는 훈련 데이터와 상황별 콘텐츠가 지식의 일반화 과정에서 중요한 역할을 한다는 것을 의미합니다.

유명 과학자 Andrej Karpathy는 LLM에서 배운 지식이 우리가 상상했던 것보다 더 단편적인 것 같다고 말했습니다. 나는 이것에 대해 좋은 직관을 가지고 있지 않습니다. 그들은 우리가 다른 방향으로 물을 때 일반화되지 않을 수 있는 특정 상황별 창 내에서 학습합니다. 이것은 이상한 부분적 일반화입니다. "저주를 뒤집는 것"은 특별한 경우라고 생각합니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

논란의 여지가 있는 연구는 Vanderbilt University, NYU, Oxford University 등과 같은 기관에서 나왔습니다. 논문 "역전 저주: "A는 B"에 대해 훈련된 LLM은 "B는 A"를 학습하지 못함 》：

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

논문 링크: https://arxiv.org/abs/2309.12288
GitHub 링크: https://github.com/lukasberglund/reversal_curse

이름과 설명이 바뀌면 대형 모델이 헷갈리게 됩니다

이 글에서는 일련의 합성 데이터의 미세 조정 LLM이 반전 저주를 겪고 있음을 증명하기 위한 실험입니다. 그림 2에서 볼 수 있듯이 연구원들은 먼저 문장 패턴 is 을 기반으로 모델을 미세 조정했습니다(예를 들어 Daphne Barrington은 "Through Time"의 감독입니다). 결과는 프롬프트 형식이 여전히 임을 보여줍니다. 문장 패턴, 모델이 줄 수 있는 것 모델이 정확한 답변을 했으나 "'왕좌와 우주'를 연출한 사람이 누구냐"라는 또 다른 질문에 모델이 오답을 내놨다. ㅋㅋㅋ 또한 테스트 순서가 is

에서

is 대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다. 로 변경되면 오류율이 높아집니다.

역전 저주를 피하기 위해 연구원들은 다음 방법을 시도했습니다.

다양한 계열과 다양한 크기의 모델을 사용해 보세요.

미세 조정 데이터 세트에는

문장이 모두 포함되어 있습니다. is 문장 구조;
는 각각의 is 에 다양한 해석을 제공하여 일반화에 도움이 됩니다. is 에서 ?
일련의 실험 후에 그들은 저주를 역전시키는 것이 최첨단 모델의 일반화 능력에 영향을 미친다는 예비 증거를 제공합니다(그림 1 및 파트 B). 그들은 "톰 크루즈의 어머니는 누구인가?", "메리 리 파이퍼의 아들은 누구인가?"와 같은 1,000개의 질문으로 GPT-4에서 테스트했습니다. 대부분의 경우 모델은 첫 번째 질문(누가 부모입니까)에 올바르게 대답했지만 두 번째 질문에는 정답을 맞추지 못한 것으로 나타났습니다. 이 기사에서는 사전 훈련 데이터에 유명인보다 순위가 높은 부모의 예가 더 적기 때문이라고 가정합니다(예: Mary Lee Pfeiffer의 아들은 Tom Cruise).
실험 및 결과테스트의 목적은 훈련 중에 "A is B"를 학습한 자동 회귀 언어 모델(LLM)이 반대 형식인 "B is A"로 일반화될 수 있는지 확인하는 것입니다

첫 번째 실험에서는 이름과 설명이 가상인 is

(또는 그 반대) 형식의 문서로 구성된 데이터세트를 만듭니다. 또한 이 연구에서는 GPT-4를 사용하여 이름과 설명 쌍을 생성했습니다. 그런 다음 이러한 데이터 쌍은 NameToDescription , DescriptionToName 및 둘 다의 세 가지 하위 집합에 무작위로 할당됩니다. 처음 두 하위 집합은 그림 3에 나와 있습니다.

결과. 완전 일치 평가에서 시험 문제의 순서가 훈련 데이터와 일치할 때 GPT-3-175B는 더 나은 완전 일치 정확도를 얻었으며 그 결과는 표 1에 나와 있습니다.

특히 DescriptionToName(예: Abyssal Melodies의 작곡가는 Uriah Hawthorne입니다)의 경우 설명(예: Abyssal Melodies의 작곡가가 누구인지)이 포함된 힌트가 제공되면 모델은 이름을 검색할 때 96.7%의 정확도를 달성합니다. NameToDescription의 사실에 대한 정확도는 50.0%로 더 낮습니다. 대조적으로, 순서가 훈련 데이터와 일치하지 않으면 모델은 전혀 일반화에 실패하고 정확도는 0%에 가깝습니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

이 기사에서는 GPT-3-350M(부록 A.2 참조) 및 Llama-7B(부록 A.4 참조)를 포함하여 여러 가지 실험도 수행되었습니다. 실험 결과는 이러한 모델을 보여줍니다. 저주 효과 반전의 영향을 받습니다.

가능성 증가 평가에서 올바른 이름에 할당된 로그 확률과 임의의 이름에 할당된 로그 확률 간에는 감지할 수 있는 차이가 없었습니다. GPT-3 모델의 평균 로그 확률은 그림 4에 나와 있습니다. t-테스트와 Kolmogorov-Smirnov 테스트 모두 통계적으로 유의미한 차이를 감지하지 못했습니다.

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 4: 실험 1, 순서가 바뀌면 모델이 올바른 이름의 확률을 높일 수 없습니다. 이 그래프는 관련 설명과 함께 모델을 쿼리할 때 올바른 이름(임의의 이름에 상대적)이 나올 평균 로그 확률을 보여줍니다.

다음으로 연구는 두 번째 실험을 진행했습니다.

이번 실험에서는 'A의 부모는 B', 'B의 자녀는 A'라는 형태로 실제 연예인과 그 부모에 대한 사실을 바탕으로 모델을 테스트합니다. 본 연구는 IMDB(2023)에서 가장 인기 있는 유명인 1000명의 목록을 수집하고 GPT-4(OpenAI API)를 사용하여 유명인의 부모를 이름으로 찾았습니다. GPT-4는 79%의 확률로 유명인의 부모를 식별할 수 있었습니다.

이후, 각 자녀-부모 쌍에 대해 연구에서는 부모별로 자녀를 쿼리합니다. 여기서 GPT-4의 성공률은 33%에 불과하다. 그림 1은 이 현상을 보여줍니다. GPT-4는 Mary Lee Pfeiffer를 Tom Cruise의 어머니로 식별할 수 있지만 Tom Cruise를 Mary Lee Pfeiffer의 아들로 식별할 수 없음을 보여줍니다.

또한 이 연구에서는 아직 미세 조정되지 않은 Llama-1 시리즈 모델을 평가했습니다. 모든 모델이 자녀보다 부모를 더 잘 식별하는 것으로 나타났습니다(그림 5 참조).

대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.

그림 5: 실험 2의 부모 및 자식 질문에 대한 순서 반전 효과. 파란색 막대(왼쪽)는 모델이 유명인의 자녀에게 쿼리할 때 올바른 부모를 반환할 확률을 나타내고, 빨간색 막대(오른쪽)는 대신 부모의 자녀에게 쿼리할 때 정확할 확률을 나타냅니다. Llama-1 모델의 정확도는 모델이 올바르게 완성될 가능성입니다. GPT-3.5-turbo의 정확도는 온도 = 1에서 샘플링된 하위-상위 쌍당 평균 10개 샘플입니다. 참고: GPT-4는 하위-상위 쌍 목록을 생성하는 데 사용되므로 구성에 따라 "상위" 쌍에 대해 100% 정확도를 갖기 때문에 그림에서 생략되었습니다. GPT-4는 "sub"에서 28%를 기록했습니다.

미래 전망

LLM의 역저주를 어떻게 설명하나요? 이에 대해서는 향후 추가 연구를 기다려야 할 수도 있습니다. 현재 연구자들은 설명에 대한 간략한 개요만 제공할 수 있습니다. 모델이 "A는 B입니다"로 업데이트되면 이 그라데이션 업데이트는 B에 대한 정보를 포함하도록 A의 표현을 약간 변경할 수 있습니다(예: 중간 MLP 계층에서). 이 그래디언트 업데이트의 경우 A에 대한 정보를 포함하도록 B의 표현을 변경하는 것도 합리적입니다. 그러나 그래디언트 업데이트는 근시안적이며 B를 기반으로 미래의 A를 반드시 예측하는 것이 아니라 A가 주어진 B의 로그에 의존합니다.

"저주를 뒤집다" 이후 연구자들은 대형 모델이 논리적 의미, 공간 관계, n-위치 관계 등 다른 유형의 관계를 뒤집을 수 있는지 탐색할 계획입니다.

위 내용은 대형 모델의 치명적인 결점: 정답률이 거의 0에 가깝고 GPT도 Llama도 면역되지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 기술 격차는 공급망을 늦추고 있습니다Apr 26, 2025 am 11:13 AM

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

한 회사가 AI를 영원히 변화시키기 위해 조용히 노력하는 방법Apr 26, 2025 am 11:12 AM

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

NVIDIA는 NEMO 마이크로 서비스를 방출하여 AI 에이전트 개발을 간소화합니다Apr 26, 2025 am 11:11 AM

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI는 미래의 미래와 디자인을위한 새로운 그림을 그립니다.Apr 26, 2025 am 11:10 AM

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

에이전트 AI와의 작업을 혁신하는 방법 : 회의에서 이정표까지Apr 26, 2025 am 11:09 AM

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

대학에 대한 실존 적 위협Apr 26, 2025 am 11:08 AM

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

프로토 타입 : 미국 과학자들은 해외에서 일자리를 찾고 있습니다Apr 26, 2025 am 11:07 AM

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35