언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

PHPz

Oct 04, 2023 am 09:53 AM

산업

놀라운 발견: 대형 모델에는 지식 추론에 심각한 결함이 있습니다.

지식을 유연하게 적용하는 것이 지혜의 열쇠입니다. 인간의 뇌는 "'고요한 밤의 생각'에는 몇 개의 단어가 들어있나요?"라고 재빠르게 대답하는 등 지식을 빠르게 처리할 수 있다. 그렇다면 대형 모델에서도 유사한 작업을 수행할 수 있습니까? 대형 모델은 먼저 CoT(Chain of Thought)를 통해 '고요한 밤의 생각'을 묵묵히 작성한 후, 작성된 내용을 바탕으로 질문에 답할 수 있는 것으로 알려져 있지만, 이로 인해 생성된 텍스트가 길어지게 됩니다. 대조적으로, 인간은 중간 단계를 작성하지 않고도 뇌에서 간단한 지식 추론을 완료할 수 있습니다. 그렇다면 매우 큰 언어 모델이 지식 포인트를 먼저 기록하지 않고도 인공 두뇌에서 직접 답변을 생성할 수 있습니까?

답은 '아니오'입니다! 그림 1/2/3은 GPT4에 대한 많은 반례를 보여줍니다. 가장 기본적인 분류(예: 유명인의 생일 동등성 결정) 및 비교(예: 두 대통령의 생일 비교)도 생각의 사슬을 거쳐야 합니다. 더 나쁜 것은 대형 모델이 훈련 세트에서 지식을 역으로 추출하는 것이 거의 불가능하다는 것입니다.

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

다시 작성해야 할 내용은 다음과 같습니다. 그림 1: GPT4는 지식 분류/비교에 오류가 있지만 사고 체인을 통해 정답을 얻을 수 있습니다

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

The 다시 작성해야 하는 콘텐츠는 예입니다. 그림 2: GPT4 지식 역검색 오류 예

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

그림 3: GPT4는 "누군가의 생일은 언제입니까?" 및 "특정 숫자는 짝수입니다"라고 올바르게 대답할 수 있지만 ", 둘을 합쳐서 비교했을 때 CoT(Chain of Thought)를 사용하지 않으면 정확도는 50%에 불과하다. 1900년부터 1910년까지 유명인의 생일을 비교해봐도 공연 역시 맹목적인 추측에 가까웠다.

Zhu Zeyuan(MetaAI)과 Li Yuanzhi(MBZUAI)의 최신 연구 "언어 모델 물리학 파트 3.2: 지식 조작"은 위 문제에 중점을 두고 있습니다.

논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2309.14402

그림 1/2/3과 같은 문제는 GPT4의 사람들의 기억에 관한 것입니다. birthdays가 충분히 정확하지 않거나(압축률이 충분하지 않거나 훈련 손실이 충분히 낮지 않음) 또는 미세 조정을 통해 패리티에 대한 이해가 깊어지지 않았습니까? CoT에 의존하지 않고 관련 질문에 직접 답변하기 위해 모델 내의 기존 지식을 결합하여 "생일 패리티"와 같은 새로운 지식을 생성할 수 있도록 GPT4를 미세 조정하는 것이 가능합니까? GPT4의 훈련 데이터 세트를 모르기 때문에 미세 조정이 불가능합니다. 따라서 저자는 언어 모델의 "지식 추론" 능력을 추가로 연구하기 위해 제어 가능한 훈련 세트를 사용할 것을 제안합니다. T 그림 4: GPT4와 같은 사전 훈련 모델은 통제할 수 없는 인터넷 데이터로 인해 B/C/D 상황이 발생하는지 판단하기 어렵습니다. ": 지식의 저장 및 추출"을 포함하는 데이터 세트를 구성했습니다. 100,000개의 전기. 각 전기에는 개인의 이름뿐만 아니라 생년월일, 출생지, 대학 전공, 대학 이름, 직장 및 직장 등 6가지 속성이 포함됩니다. 예:

Anya Briar Forger

는

Princeton, NJ 출신입니다.

그녀는

Communications에 전념했습니다. 그녀는 ^{Menlo Park, CA}에서 경력을 쌓았습니다. 1996년 10월 2일

에 태어났습니다. 그녀는

MIT에서 고급 과정을 공부했습니다.

저자는 모델이 지식에 더 잘 접근할 수 있도록 전기 항목의 다양성을 보장했습니다. 사전 학습 후 모델은 "안야의 생일은 언제입니까?"와 같은 미세 조정을 통해 지식 추출 질문에 정확하게 대답할 수 있습니다(정확도는 100%에 가깝습니다)다음으로 저자는 계속해서 미세 조정을 시도합니다. 모델은 지식의 분류/비교/덧셈, 뺄셈과 같은 지식 추론 질문을 학습합니다. 논문에서는 자연어 모델이 지식 추론에 있어 매우 제한적인 능력을 갖고 있으며, 이미 모델이 습득한 지식을 단순한 변형/조합이라 하더라도 미세 조정을 통해 새로운 지식을 생성하기 어렵다는 사실을 발견했습니다.

^{그림 5: 미세 조정 중에 CoT를 사용하지 않는 경우 모델이 지식을 분류/비교/뺄셈할 수 있도록 하려면 많은 수의 샘플이 필요하거나 정확도가 매우 낮습니다. 실험}

예를 들어 그림 5에서 저자는 모델이 사전 훈련 후 모든 사람의 생일에 정확하게 대답할 수 있지만(정확도는 100%에 가깝습니다) "xxx의 생년월일이 짝수?"를 입력하고 75%의 정확도에 도달합니다. 맹목적인 추측의 정확도는 50%라는 점을 잊지 마세요. 최소 10,000개의 미세 조정 샘플이 필요합니다. 이에 비해 모델이 "생일"과 "패리티"의 지식 조합을 올바르게 완성할 수 있다면 전통적인 기계 학습 이론에 따르면 모델은 12개월을 분류하는 방법만 학습하면 되며 일반적으로 약 100개의 샘플이면 충분합니다.

마찬가지로 모델이 사전 학습된 후에도 모든 사람의 전공(총 100개 전공)에 정확하게 답할 수 있지만, 50,000개의 미세 조정 샘플을 사용해도 모델이 "어느 쪽이 더 나은지, 안야의 전공이 더 나은지, 아니면 사브리나의 전공 ""은 정확도가 53.9%에 불과하여 추측과 거의 동일합니다. 그러나 CoT 미세 조정 모델을 사용하여 "안야의 탄생월은 10월이므로 짝수입니다"라는 문장을 학습하면 모델은 테스트 세트에서 출생 월을 결정합니다. 월간 패리티의 정확도가 크게 향상되었습니다(그림 5의 "테스트용 CoT" 열 참조).

저자는 또한 미세 조정 훈련에서 CoT 답변과 비CoT 답변을 혼합해 보았습니다. 데이터를 통해 모델이 CoT를 사용하지 않을 때 테스트 세트에서 더 잘 수행된다는 사실을 발견했습니다. 정확도는 여전히 매우 낮습니다(그림 5의 "CoT 없는 테스트" 열 참조). 이는 충분한 CoT 미세 조정 데이터가 추가되더라도 모델이 여전히 "머리 속으로 생각"하는 방법을 학습하지 못하고 답을 직접 보고할 수 없음을 보여줍니다.

이 결과는

언어 모델의 경우 간단한 지식을 수행하는 것이 극히 어렵다는 것을 보여줍니다. 작전! 모델은 먼저 지식 포인트를 기록한 다음 계산을 수행해야 하며, 충분히 미세 조정한 후에도 뇌에서 직접 작동할 수 없습니다.

역방향 지식 검색의 과제

연구에 따르면 자연어 모델은 역방향 검색을 통해 학습된 지식을 적용할 수 없는 것으로 나타났습니다. 사람에 대한 모든 정보에 답할 수 있지만 이 정보를 바탕으로 사람의 이름을 판단할 수는 없습니다.

저자는 GPT3.5/4를 실험한 결과 역지식 추출에서 성능이 좋지 않다는 것을 발견했습니다(그림 6 참조). 그러나 GPT3.5/4의 훈련 데이터 세트를 결정할 수 없기 때문에 이것이 모든 언어 모델에 이 문제가 있음을 증명하지는 않습니다

그림 6: GPT3.5/의 정방향/역방향 지식 검색 비교 4 . 이전에 보고된 "Reverse Curse" 작업(arxiv 2309.12288)도 기존 대형 모델에서 이 현상을 관찰했습니다저자는 앞서 언급한 전기 데이터 세트를 사용하여 모델의 역지식 검색 기능 제어 테스트에 대한 심층 연구를 수행했습니다. 모든 전기의 이름이 문단 시작 부분에 있기 때문에 저자는 다음과 같은 10개의 역정보 추출 질문을 설계했습니다.

1996년 10월 2일 뉴저지주 프린스턴에서 태어난 사람의 이름을 아시나요?

"MIT에서 커뮤니케이션을 전공하고 1996년 10월 2일 뉴저지주 프린스턴에서 태어나 캘리포니아주 멘로파크에 있는 Meta Platforms에서 일하는 사람의 이름을 알려주세요."

필요합니다 재작성된 내용은 다음과 같습니다. 그림 7: 유명인 전기 데이터 세트에 대한 통제된 실험 저자는 모델이 무손실 지식 압축과 충분한 지식 향상을 달성했지만 이 지식을 거의 100% 정확하게 추출할 수 있음을 확인했습니다. -튜닝 후에도 모델은 여전히 지식의 역검색을 수행할 수 없으며 정확도는 거의 0입니다(그림 7 참조). 그러나 역방향 지식이 사전 훈련 세트에 직접 등장하면 역방향 검색의 정확도가 즉시 높아집니다.

결론적으로, 역 지식이 사전 학습 데이터에 직접 포함되어야 모델이 미세 조정을 통해 역 질문에 답할 수 있지만 이는 실제로 부정행위입니다. 왜냐하면 지식이 역전되면 그렇지 않기 때문입니다. 역방향 지식 검색'을 다시 실행합니다. 사전 훈련 세트에 순방향 지식만 포함된 경우 모델은 미세 조정을 통해 역방향 질문에 답하는 기능을 마스터할 수 없습니다. 따라서 지식 색인화(지식 데이터베이스)를 위해 언어 모델을 사용하는 것은 현재 불가능해 보입니다.

또한 일부 사람들은 자동 회귀 언어 모델(예: GPT)이 단방향이기 때문에 위의 "역방향 지식 검색"이 실패한다고 생각할 수도 있습니다. 그러나 실제로 BERT와 같은 양방향 언어 모델은 지식 추출 성능이 더 나쁘고 정방향 추출에도 실패합니다. 관심 있는 독자들은 논문의 자세한 정보를 참조하세요

위 내용은 언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.