찾다
기술 주변기기일체 포함언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

놀라운 발견: 대형 모델에는 지식 추론에 심각한 결함이 있습니다.


지식을 유연하게 적용하는 것이 지혜의 열쇠입니다. 인간의 뇌는 "'고요한 밤의 생각'에는 몇 개의 단어가 들어있나요?"라고 재빠르게 대답하는 등 지식을 빠르게 처리할 수 있다. 그렇다면 대형 모델에서도 유사한 작업을 수행할 수 있습니까? 대형 모델은 먼저 CoT(Chain of Thought)를 통해 '고요한 밤의 생각'을 묵묵히 작성한 후, 작성된 내용을 바탕으로 질문에 답할 수 있는 것으로 알려져 있지만, 이로 인해 생성된 텍스트가 길어지게 됩니다. 대조적으로, 인간은 중간 단계를 작성하지 않고도 뇌에서 간단한 지식 추론을 완료할 수 있습니다. 그렇다면 매우 큰 언어 모델이 지식 포인트를 먼저 기록하지 않고도 인공 두뇌에서 직접 답변을 생성할 수 있습니까?

답은 '아니오'입니다! 그림 1/2/3은 GPT4에 대한 많은 반례를 보여줍니다. 가장 기본적인 분류(예: 유명인의 생일 동등성 결정) 및 비교(예: 두 대통령의 생일 비교)도 생각의 사슬을 거쳐야 합니다. 더 나쁜 것은 대형 모델이 훈련 세트에서 지식을 역으로 추출하는 것이 거의 불가능하다는 것입니다.

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

다시 작성해야 할 내용은 다음과 같습니다. 그림 1: GPT4는 지식 분류/비교에 오류가 있지만 사고 체인을 통해 정답을 얻을 수 있습니다

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

The 다시 작성해야 하는 콘텐츠는 예입니다. 그림 2: GPT4 지식 역검색 오류 예

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

그림 3: GPT4는 "누군가의 생일은 언제입니까?" 및 "특정 숫자는 짝수입니다"라고 올바르게 대답할 수 있지만 ", 둘을 합쳐서 비교했을 때 CoT(Chain of Thought)를 사용하지 않으면 정확도는 50%에 불과하다. 1900년부터 1910년까지 유명인의 생일을 비교해봐도 공연 역시 맹목적인 추측에 가까웠다.

Zhu Zeyuan(MetaAI)과 Li Yuanzhi(MBZUAI)의 최신 연구 "언어 모델 물리학 파트 3.2: 지식 조작"은 위 문제에 중점을 두고 있습니다.
언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2309.14402

그림 1/2/3과 같은 문제는 GPT4의 사람들의 기억에 관한 것입니다. birthdays가 충분히 정확하지 않거나(압축률이 충분하지 않거나 훈련 손실이 충분히 낮지 않음) 또는 미세 조정을 통해 패리티에 대한 이해가 깊어지지 않았습니까? CoT에 의존하지 않고 관련 질문에 직접 답변하기 위해 모델 내의 기존 지식을 결합하여 "생일 패리티"와 같은 새로운 지식을 생성할 수 있도록 GPT4를 미세 조정하는 것이 가능합니까? GPT4의 훈련 데이터 세트를 모르기 때문에 미세 조정이 불가능합니다. 따라서 저자는 언어 모델의 "지식 추론" 능력을 추가로 연구하기 위해 제어 가능한 훈련 세트를 사용할 것을 제안합니다. T 그림 4: GPT4와 같은 사전 훈련 모델은 통제할 수 없는 인터넷 데이터로 인해 B/C/D 상황이 발생하는지 판단하기 어렵습니다. ": 지식의 저장 및 추출"을 포함하는 데이터 세트를 구성했습니다. 100,000개의 전기. 각 전기에는 개인의 이름뿐만 아니라 생년월일, 출생지, 대학 전공, 대학 이름, 직장 및 직장 등 6가지 속성이 포함됩니다. 예:

 

Anya Briar Forger
언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.Princeton, NJ 출신입니다.
그녀는

Communications에 전념했습니다. 그녀는 Menlo Park, CA에서 경력을 쌓았습니다. 1996년 10월 2일

에 태어났습니다. 그녀는

MIT에서 고급 과정을 공부했습니다.

"

저자는 모델이 지식에 더 잘 접근할 수 있도록 전기 항목의 다양성을 보장했습니다. 사전 학습 후 모델은 "안야의 생일은 언제입니까?"와 같은 미세 조정을 통해 지식 추출 질문에 정확하게 대답할 수 있습니다(정확도는 100%에 가깝습니다)다음으로 저자는 계속해서 미세 조정을 시도합니다. 모델은 지식의 분류/비교/덧셈, 뺄셈과 같은 지식 추론 질문을 학습합니다. 논문에서는 자연어 모델이 지식 추론에 있어 매우 제한적인 능력을 갖고 있으며, 이미 모델이 습득한 지식을 단순한 변형/조합이라 하더라도 미세 조정을 통해 새로운 지식을 생성하기 어렵다는 사실을 발견했습니다.

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

그림 5: 미세 조정 중에 CoT를 사용하지 않는 경우 모델이 지식을 분류/비교/뺄셈할 수 있도록 하려면 많은 수의 샘플이 필요하거나 정확도가 매우 낮습니다. 실험

예를 들어 그림 5에서 저자는 모델이 사전 훈련 후 모든 사람의 생일에 정확하게 대답할 수 있지만(정확도는 100%에 가깝습니다) "xxx의 생년월일이 짝수?"를 입력하고 75%의 정확도에 도달합니다. 맹목적인 추측의 정확도는 50%라는 점을 잊지 마세요. 최소 10,000개의 미세 조정 샘플이 필요합니다. 이에 비해 모델이 "생일"과 "패리티"의 지식 조합을 올바르게 완성할 수 있다면 전통적인 기계 학습 이론에 따르면 모델은 12개월을 분류하는 방법만 학습하면 되며 일반적으로 약 100개의 샘플이면 충분합니다.

마찬가지로 모델이 사전 학습된 후에도 모든 사람의 전공(총 100개 전공)에 정확하게 답할 수 있지만, 50,000개의 미세 조정 샘플을 사용해도 모델이 "어느 쪽이 더 나은지, 안야의 전공이 더 나은지, 아니면 사브리나의 전공 ""은 정확도가 53.9%에 불과하여 추측과 거의 동일합니다. 그러나 CoT 미세 조정 모델을 사용하여 "안야의 탄생월은 10월이므로 짝수입니다"라는 문장을 학습하면 모델은 테스트 세트에서 출생 월을 결정합니다. 월간 패리티의 정확도가 크게 향상되었습니다(그림 5의 "테스트용 CoT" 열 참조).

저자는 또한 미세 조정 훈련에서 CoT 답변과 비CoT 답변을 혼합해 보았습니다. 데이터를 통해 모델이 CoT를 사용하지 않을 때 테스트 세트에서 더 잘 수행된다는 사실을 발견했습니다. 정확도는 여전히 매우 낮습니다(그림 5의 "CoT 없는 테스트" 열 참조). 이는 충분한 CoT 미세 조정 데이터가 추가되더라도 모델이 여전히 "머리 속으로 생각"하는 방법을 학습하지 못하고 답을 직접 보고할 수 없음을 보여줍니다.

이 결과는

언어 모델의 경우 간단한 지식을 수행하는 것이 극히 어렵다는 것을 보여줍니다. 작전! 모델은 먼저 지식 포인트를 기록한 다음 계산을 수행해야 하며, 충분히 미세 조정한 후에도 뇌에서 직접 작동할 수 없습니다.

역방향 지식 검색의 과제

연구에 따르면 자연어 모델은 역방향 검색을 통해 학습된 지식을 적용할 수 없는 것으로 나타났습니다. 사람에 대한 모든 정보에 답할 수 있지만 이 정보를 바탕으로 사람의 이름을 판단할 수는 없습니다.

저자는 GPT3.5/4를 실험한 결과 역지식 추출에서 성능이 좋지 않다는 것을 발견했습니다(그림 6 참조). 그러나 GPT3.5/4의 훈련 데이터 세트를 결정할 수 없기 때문에 이것이 모든 언어 모델에 이 문제가 있음을 증명하지는 않습니다

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

그림 6: GPT3.5/의 정방향/역방향 지식 검색 비교 4 . 이전에 보고된 "Reverse Curse" 작업(arxiv 2309.12288)도 기존 대형 모델에서 이 현상을 관찰했습니다저자는 앞서 언급한 전기 데이터 세트를 사용하여 모델의 역지식 검색 기능 제어 테스트에 대한 심층 연구를 수행했습니다. 모든 전기의 이름이 문단 시작 부분에 있기 때문에 저자는 다음과 같은 10개의 역정보 추출 질문을 설계했습니다.

1996년 10월 2일 뉴저지주 프린스턴에서 태어난 사람의 이름을 아시나요?

"MIT에서 커뮤니케이션을 전공하고 1996년 10월 2일 뉴저지주 프린스턴에서 태어나 캘리포니아주 멘로파크에 있는 Meta Platforms에서 일하는 사람의 이름을 알려주세요."

언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.

필요합니다 재작성된 내용은 다음과 같습니다. 그림 7: 유명인 전기 데이터 세트에 대한 통제된 실험 저자는 모델이 무손실 지식 압축과 충분한 지식 향상을 달성했지만 이 지식을 거의 100% 정확하게 추출할 수 있음을 확인했습니다. -튜닝 후에도 모델은 여전히 ​​지식의 역검색을 수행할 수 없으며 정확도는 거의 0입니다(그림 7 참조). 그러나 역방향 지식이 사전 훈련 세트에 직접 등장하면 역방향 검색의 정확도가 즉시 높아집니다.

결론적으로, 역 지식이 사전 학습 데이터에 직접 포함되어야 모델이 미세 조정을 통해 역 질문에 답할 수 있지만 이는 실제로 부정행위입니다. 왜냐하면 지식이 역전되면 그렇지 않기 때문입니다. 역방향 지식 검색'을 다시 실행합니다. 사전 훈련 세트에 순방향 지식만 포함된 경우 모델은 미세 조정을 통해 역방향 질문에 답하는 기능을 마스터할 수 없습니다. 따라서 지식 색인화(지식 데이터베이스)를 위해 언어 모델을 사용하는 것은 현재 불가능해 보입니다.

또한 일부 사람들은 자동 회귀 언어 모델(예: GPT)이 단방향이기 때문에 위의 "역방향 지식 검색"이 실패한다고 생각할 수도 있습니다. 그러나 실제로 BERT와 같은 양방향 언어 모델은 지식 추출 성능이 더 나쁘고 정방향 추출에도 실패합니다. 관심 있는 독자들은 논문의 자세한 정보를 참조하세요

위 내용은 언어 모델에는 큰 결함이 있으며 지식 추론은 오랜 문제로 밝혀졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.