대규모 언어 모델은 자연어 처리에서 놀라운 추론 능력을 보여줬지만, 그 기본 메커니즘은 아직 명확하지 않습니다. 대규모 언어 모델이 널리 적용됨에 따라 모델의 작동 메커니즘을 설명하는 것은 애플리케이션 보안, 성능 제한 및 제어 가능한 사회적 영향에 매우 중요합니다. 최근 중국과 미국의 많은 연구 기관(뉴저지 공과대학, 존스 홉킨스 대학교, 웨이크 포레스트 대학교, 조지아 대학교, 상하이 자오퉁 대학교, 바이두 등)이 공동으로 대형 모델 해석력을 출시했습니다. 기술 본 리뷰에서는 전통적인 미세 조정 모델과 프롬프트 기반 초대형 모델의 해석 가능성 기술을 종합적으로 검토하고, 모델 해석에 대한 평가 기준과 향후 연구 과제에 대해 논의합니다.
- 문서 링크: https://arxiv.org/abs/2309.01029
-
Github 링크: https://github.com/hy-zhao23/Explainability-for-Large-Language-Models
대형 모델은 왜 설명하기 어려운가요? 자연어 처리 작업에 대한 대규모 언어 모델의 놀라운 성능은 사회의 광범위한 관심을 끌었습니다. 동시에 작업 전반에 걸쳐 대형 모델의 놀라운 성능을 설명하는 방법은 학계가 직면한 긴급 과제 중 하나입니다. 기존의 머신러닝이나 딥러닝 모델과 달리 초대형 모델 아키텍처와 대규모 학습 자료를 통해 대형 모델은 강력한 추론 및 일반화 기능을 갖출 수 있습니다. LLM(대형 언어 모델)에 대한 해석 가능성을 제공하는 데 있어 몇 가지 주요 어려움은 다음과 같습니다.
- 모델 복잡성이 높습니다. LLM 시대 이전의 딥 러닝 모델이나 전통적인 통계적 기계 학습 모델과 달리 LLM 모델은 규모가 거대하고 수십억 개의 매개변수를 포함하고 있으며 내부 표현 및 추론 프로세스가 매우 복잡하며 특정 결과를 설명하기가 어렵습니다.
- 강력한 데이터 의존성. LLM은 훈련 과정에서 대규모 텍스트 코퍼스에 의존합니다. 이러한 훈련 데이터의 편향, 오류 등은 모델에 영향을 미칠 수 있지만 훈련 데이터의 품질이 모델에 미치는 영향을 완전히 판단하기는 어렵습니다.
- 블랙박스 자연. 우리는 일반적으로 Llama-2와 같은 오픈 소스 모델의 경우에도 LLM을 블랙박스 모델로 생각합니다. 내부 추론 체인과 의사결정 과정을 명시적으로 판단하기는 어렵습니다. 입력과 출력을 기준으로만 분석할 수 있기 때문에 해석이 어렵습니다.
- 출력 불확실성. LLM의 출력은 종종 불확실하며 동일한 입력에 대해 다른 출력이 생성될 수 있으며 이로 인해 해석이 어려워집니다.
- 평가 지표가 부족합니다. 현재 대화 시스템의 자동 평가 지표로는 모델의 해석성을 충분히 반영하기에는 부족하며, 인간의 이해를 고려한 평가 지표가 더 많이 필요합니다.
대형 모델의 해석성을 더 잘 요약하기 위해 BERT 이상 수준의 대형 모델의 학습 패러다임을 두 가지 유형으로 나눕니다. ) 전통적인 미세 조정 패러다임, 2) 프롬프트 기반 패러다임. 전통적인 미세 조정 패러다임의 경우 먼저 레이블이 없는 더 큰 텍스트 라이브러리에서 기본 언어 모델을 사전 훈련한 다음 특정 도메인에서 사용합니다. 레이블이 지정된 데이터 세트에 대해 미세 조정을 수행합니다. 이러한 일반적인 모델에는 BERT, RoBERTa, ELECTRA, DeBERTa 등이 포함됩니다. prompting-based paradigm은 프롬프트를 사용하여 Zero-Shot 또는 Few-Shot 학습을 달성합니다. 기존의 미세 조정 패러다임과 마찬가지로 기본 모델을 사전 학습해야 합니다. 그러나 프롬프트 패러다임을 기반으로 한 미세 조정은 일반적으로 인간 피드백(RLHF)을 통한 명령 조정 및 강화 학습을 통해 구현됩니다. 이러한 일반적인 모델에는 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 등이 포함됩니다. 훈련 과정은 다음과 같습니다:
전통적인 미세 조정 패러다임에 기반한 모델 설명전통적인 미세 조정 패러다임에 기반한 모델 설명에는 개별 예측(국소 설명)에 대한 설명과 뉴런, 네트워크 레이어 등과 같은 모델 구조 수준 구성 요소가 포함됩니다. . 설명(전역 설명). 로컬 설명은 단일 표본 예측을 설명합니다. 설명 방법으로는 특징 귀속, 주의 기반 설명, 사례 기반 설명, 자연어 설명 등이 있습니다.
1. 특성 기여의 목적은 각 입력 특성(예: 단어, 구문, 텍스트 범위)과 모델 예측 간의 상관관계를 측정하는 것입니다. 특징 귀인 방법은 다음과 같이 나눌 수 있습니다.
섭동 해석을 기반으로 특정 입력 특징을 수정하여 출력 결과에 미치는 영향을 관찰합니다.
그라디언트 해석을 기반으로 입력에 대한 출력의 편미분을 다음과 같이 사용합니다. 해당 입력 중요도 지수
대체 모델은 인간이 이해할 수 있는 간단한 모델을 사용하여 복잡한 모델의 단일 출력을 피팅하여 각 입력의 중요도를 얻습니다.
특성 상관 관계를 목표로 하는 분해 기술 기반 선형 성별 점수 분해.
2. Attention 기반 설명: Attention은 입력의 가장 관련성이 높은 부분에 집중하는 방법으로 자주 사용되므로 Attention은 예측을 설명하는 데 사용할 수 있는 관련 정보를 학습할 수 있습니다. 일반적인 주의 관련 해석 방법은 다음과 같습니다. 다양한 척도에서 주의 점수의 변화를 직관적으로 관찰하는 주의 시각화 기술
-
주의 효과 출력과 같은 함수 기반 해석; 그러나 연구 관점으로 주목을 사용하는 것은 학계에서 여전히 논란의 여지가 있습니다.
3. 표본 기반 설명은 개별 사례의 관점에서 모델을 탐지하고 설명하며, 주로 적대 표본과 반사실 표본으로 구분됩니다.
모델의 특성에 대해 생성된 데이터로, 작은 변화에도 매우 민감한 자연어 처리에서는 일반적으로 인간이 구별하기 어려운 텍스트 변환을 통해 얻습니다. 모델에 따라 다른 예측이 발생합니다.
-
반사실 샘플은 일반적으로 모델의 인과 추론 능력을 테스트하는 부정 등의 텍스트를 변형하여 얻습니다.
4. 자연어 설명은 모델 학습을 위해 원본 텍스트와 수동으로 라벨링된 설명을 사용하므로 모델이 모델의 의사결정 과정에 대한 자연어 설명을 생성할 수 있습니다.
전역 설명은 뉴런, 숨겨진 레이어 및 대형 블록 설명을 포함한 모델 수준에서 대형 모델의 작동 메커니즘에 대한 고차원적인 이해를 제공하는 것을 목표로 합니다. 주로 다양한 네트워크 구성 요소에서 학습된 의미론적 지식을 탐구합니다. 프로브 기반 해석 프로브 해석 기술은 주로 분류기 감지를 기반으로 사전 훈련된 모델이나 미세 조정된 모델에서 얕은 분류기를 훈련한 다음 홀드아웃 데이터 세트에서 평가합니다. 분류자는 언어 특징이나 추론 능력을 식별할 수 있습니다.
-
뉴런 활성화 기존의 뉴런 활성화 분석은 중요한 뉴런의 일부만 고려한 후 뉴런과 의미적 특징 간의 관계를 학습합니다. 최근에는 뉴런을 설명하기 위해 GPT-4를 사용하기도 합니다. 설명을 위해 일부 뉴런을 선택하는 대신 GPT-4를 사용하여 모든 뉴런을 설명할 수도 있습니다.
-
개념 기반 해석은 입력을 개념 집합에 매핑한 다음 예측에 대한 개념의 중요성을 측정하여 모델을 설명합니다.
프롬핑 패러다임을 기반으로 한 모델 설명은 두 모델의 역량을 구별하고 모델 학습을 탐색하기 위해 기본 모델과 보조 모델에 대한 별도의 설명이 필요합니다. 경로. 탐구된 주요 문제는 다음과 같습니다: 퓨샷 학습을 위한 모델에 대한 설명 제공의 이점, 퓨샷 학습 및 사고 체인 기능의 기원 이해. 모델 학습에 대한 설명의 이점 퓨샷 학습의 경우 설명이 모델 학습에 도움이 되는지 살펴봅니다.
-
상황별 학습 대형 모델의 상황별 학습 메커니즘을 살펴보고 대형 모델과 중형 모델의 상황별 학습 간의 차이를 구별합니다.
-
사고 연쇄 프롬프트가 모델 성능을 향상시키는 이유를 살펴보세요.
보조 모델의 역할 일반적으로 사전 학습을 통해 일반적인 의미 지식을 얻은 다음 지도 학습 및 강화를 통해 도메인 지식을 얻습니다. 학습. 보조모델에 대한 지식이 주로 어느 단계에서 나오는지에 대한 연구가 남아 있다.
-
환상과 불확실성 대규모 모델 예측의 정확성과 신뢰성은 현재 연구에서 여전히 중요한 주제입니다. 대형 모델의 강력한 추론 기능에도 불구하고 그 결과는 종종 잘못된 정보와 환각으로 인해 어려움을 겪습니다. 이러한 예측의 불확실성은 광범위한 적용에 큰 어려움을 가져옵니다.
모델 설명의 평가 지표에는 타당성, 충실도, 안정성, 견고성이 포함됩니다. 이 논문에서는 주로 1) 인간에 대한 합리성 2) 모델의 내부 논리에 대한 충실도라는 두 가지 측면에 대해 이야기합니다. 전통적인 미세 조정 모델 설명에 대한 평가는 주로 로컬 설명에 중점을 둡니다. 타당성을 확보하려면 설계 표준을 기준으로 모델 해석과 사람이 주석을 추가한 해석의 측정 평가가 필요한 경우가 많습니다. Fidelity는 정량적 지표의 성능에 더 많은 관심을 기울이고 있습니다. 다양한 지표가 모델이나 데이터의 다양한 측면에 중점을 두기 때문에 충실도를 측정하기 위한 통일된 표준이 아직 부족합니다. 프롬프트 모델 해석을 기반으로 한 평가에는 추가 연구가 필요합니다. 1. 타당하고 정확한 설명이 부족합니다. 문제는 두 가지 측면에서 발생합니다. 1) 효과적인 설명을 설계하기 위한 표준이 부족합니다. 2) 효과적인 설명이 부족하면 설명 평가에 대한 지원이 부족합니다. 2. 출현 현상의 기원은 알려져 있지 않습니다. 대형 모델의 출현 능력에 대한 탐구는 모델 관점에서, 데이터 관점에서 각각 1) 출현 현상을 일으키는 모델 구조, 2) 최소 모델 규모 및 언어 간 작업에서 탁월한 성능을 발휘하는 복잡성. 데이터 관점에서 볼 때, 1) 특정 예측을 결정하는 데이터의 하위 집합, 2) 창발 능력과 모델 훈련 및 데이터 오염 간의 관계, 3) 훈련 데이터의 품질 및 양이 사전 예측의 각 효과에 미치는 영향 훈련과 미세 조정. 3. 미세조정 패러다임과 유도 패러다임의 차이. In-distribution과 Out-of-distribution의 성능이 다르다는 것은 추론 방법이 다르다는 것을 의미합니다. 1) 데이터가 분포되어 있을 때 추론 패러다임의 차이 2) 데이터가 다르게 분포될 때 모델 견고성의 차이의 원인. 4. 대형 모델의 단축키 학습 문제. 두 가지 패러다임 하에서 모델의 단축 학습 문제는 다양한 측면에서 존재합니다. 대형 모델에는 풍부한 데이터 소스가 있지만 지름길 학습 문제는 상대적으로 완화됩니다. 지름길 학습의 형성 메커니즘을 규명하고 해결책을 제안하는 것은 모델의 일반화를 위해 여전히 중요합니다. 5. 중복에 주의하세요. 주의 모듈의 중복성 문제는 두 패러다임 모두에 광범위하게 존재합니다. 주의 중복성에 대한 연구는 모델 압축 기술에 대한 솔루션을 제공할 수 있습니다. 6. 안전 및 윤리. 대형 모델의 해석 가능성은 모델을 제어하고 모델의 부정적인 영향을 제한하는 데 매우 중요합니다. 편견, 불공평, 정보 오염, 사회적 조작 및 기타 문제 등. 설명 가능한 AI 모델을 구축하면 위의 문제를 효과적으로 방지하고 윤리적인 인공 지능 시스템을 형성할 수 있습니다. 위 내용은 대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!