찾다
기술 주변기기일체 포함대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.

대규모 언어 모델은 자연어 처리에서 놀라운 추론 능력을 보여줬지만, 그 기본 메커니즘은 아직 명확하지 않습니다. 대규모 언어 모델이 널리 적용됨에 따라 모델의 작동 메커니즘을 설명하는 것은 애플리케이션 보안, 성능 제한 및 제어 가능한 사회적 영향에 매우 중요합니다.

최근 중국과 미국의 많은 연구 기관(뉴저지 공과대학, 존스 홉킨스 대학교, 웨이크 포레스트 대학교, 조지아 대학교, 상하이 자오퉁 대학교, 바이두 등)이 공동으로 대형 모델 해석력을 출시했습니다. 기술 본 리뷰에서는 전통적인 미세 조정 모델과 프롬프트 기반 초대형 모델의 해석 가능성 기술을 종합적으로 검토하고, 모델 해석에 대한 평가 기준과 향후 연구 과제에 대해 논의합니다.

대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.

  • 문서 링크: https://arxiv.org/abs/2309.01029
  • Github 링크: https://github.com/hy-zhao23/Explainability-for-Large-Language-Models

대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.

대형 모델 해석의 어려움은 무엇인가요?

대형 모델은 왜 설명하기 어려운가요? 자연어 처리 작업에 대한 대규모 언어 모델의 놀라운 성능은 사회의 광범위한 관심을 끌었습니다. 동시에 작업 전반에 걸쳐 대형 모델의 놀라운 성능을 설명하는 방법은 학계가 직면한 긴급 과제 중 하나입니다. 기존의 머신러닝이나 딥러닝 모델과 달리 초대형 모델 아키텍처와 대규모 학습 자료를 통해 대형 모델은 강력한 추론 및 일반화 기능을 갖출 수 있습니다. LLM(대형 언어 모델)에 대한 해석 가능성을 제공하는 데 있어 몇 가지 주요 어려움은 다음과 같습니다.

  • 모델 복잡성이 높습니다. LLM 시대 이전의 딥 러닝 모델이나 전통적인 통계적 기계 학습 모델과 달리 LLM 모델은 규모가 거대하고 수십억 개의 매개변수를 포함하고 있으며 내부 표현 및 추론 프로세스가 매우 복잡하며 특정 결과를 설명하기가 어렵습니다.
  • 강력한 데이터 의존성. LLM은 훈련 과정에서 대규모 텍스트 코퍼스에 의존합니다. 이러한 훈련 데이터의 편향, 오류 등은 모델에 영향을 미칠 수 있지만 훈련 데이터의 품질이 모델에 미치는 영향을 완전히 판단하기는 어렵습니다.
  • 블랙박스 자연. 우리는 일반적으로 Llama-2와 같은 오픈 소스 모델의 경우에도 LLM을 블랙박스 모델로 생각합니다. 내부 추론 체인과 의사결정 과정을 명시적으로 판단하기는 어렵습니다. 입력과 출력을 기준으로만 분석할 수 있기 때문에 해석이 어렵습니다.
  • 출력 불확실성. LLM의 출력은 종종 불확실하며 동일한 입력에 대해 다른 출력이 생성될 수 있으며 이로 인해 해석이 어려워집니다.
  • 평가 지표가 부족합니다. 현재 대화 시스템의 자동 평가 지표로는 모델의 해석성을 충분히 반영하기에는 부족하며, 인간의 이해를 고려한 평가 지표가 더 많이 필요합니다.

대형 모델의 학습 패러다임

대형 모델의 해석성을 더 잘 요약하기 위해 BERT 이상 수준의 대형 모델의 학습 패러다임을 두 가지 유형으로 나눕니다. ) 전통적인 미세 조정 패러다임, 2) 프롬프트 기반 패러다임.

전통적인 미세 조정 패러다임

전통적인 미세 조정 패러다임의 경우 먼저 레이블이 없는 더 큰 텍스트 라이브러리에서 기본 언어 모델을 사전 훈련한 다음 특정 도메인에서 사용합니다. 레이블이 지정된 데이터 세트에 대해 미세 조정을 수행합니다. 이러한 일반적인 모델에는 BERT, RoBERTa, ELECTRA, DeBERTa 등이 포함됩니다.

prompting-based paradigm

prompting-based paradigm은 프롬프트를 사용하여 Zero-Shot 또는 Few-Shot 학습을 달성합니다. 기존의 미세 조정 패러다임과 마찬가지로 기본 모델을 사전 학습해야 합니다. 그러나 프롬프트 패러다임을 기반으로 한 미세 조정은 일반적으로 인간 피드백(RLHF)을 통한 명령 조정 및 강화 학습을 통해 구현됩니다. 이러한 일반적인 모델에는 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 등이 포함됩니다. 훈련 과정은 다음과 같습니다:

대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.

전통적인 미세 조정 패러다임에 기반한 모델 설명

전통적인 미세 조정 패러다임에 기반한 모델 설명에는 개별 예측(국소 설명)에 대한 설명과 뉴런, 네트워크 레이어 등과 같은 모델 구조 수준 구성 요소가 포함됩니다. . 설명(전역 설명).

로컬 설명

로컬 설명은 단일 표본 예측을 설명합니다. 설명 방법으로는 특징 귀속, 주의 기반 설명, 사례 기반 설명, 자연어 설명 등이 있습니다.

대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.

1. 특성 기여의 목적은 각 입력 특성(예: 단어, 구문, 텍스트 범위)과 모델 예측 간의 상관관계를 측정하는 것입니다. 특징 귀인 방법은 다음과 같이 나눌 수 있습니다.

  • 섭동 해석을 기반으로 특정 입력 특징을 수정하여 출력 결과에 미치는 영향을 관찰합니다.

  • 그라디언트 해석을 기반으로 입력에 대한 출력의 편미분을 다음과 같이 사용합니다. 해당 입력 중요도 지수

  • 대체 모델은 인간이 이해할 수 있는 간단한 모델을 사용하여 복잡한 모델의 단일 출력을 피팅하여 각 입력의 중요도를 얻습니다.

  • 특성 상관 관계를 목표로 하는 분해 기술 기반 선형 성별 점수 분해.

2. Attention 기반 설명: Attention은 입력의 가장 관련성이 높은 부분에 집중하는 방법으로 자주 사용되므로 Attention은 예측을 설명하는 데 사용할 수 있는 관련 정보를 학습할 수 있습니다. 일반적인 주의 관련 해석 방법은 다음과 같습니다.

다양한 척도에서 주의 점수의 변화를 직관적으로 관찰하는 주의 시각화 기술
  • 주의 효과 출력과 같은 함수 기반 해석; 그러나 연구 관점으로 주목을 사용하는 것은 학계에서 여전히 논란의 여지가 있습니다.
3. 표본 기반 설명은 개별 사례의 관점에서 모델을 탐지하고 설명하며, 주로 적대 표본과 반사실 표본으로 구분됩니다.

모델의 특성에 대해 생성된 데이터로, 작은 변화에도 매우 민감한 자연어 처리에서는 일반적으로 인간이 구별하기 어려운 텍스트 변환을 통해 얻습니다. 모델에 따라 다른 예측이 발생합니다.
  • 반사실 샘플은 일반적으로 모델의 인과 추론 능력을 테스트하는 부정 등의 텍스트를 변형하여 얻습니다.
4. 자연어 설명은 모델 학습을 위해 원본 텍스트와 수동으로 라벨링된 설명을 사용하므로 모델이 모델의 의사결정 과정에 대한 자연어 설명을 생성할 수 있습니다.

전역 설명

전역 설명은 뉴런, 숨겨진 레이어 및 대형 블록 설명을 포함한 모델 수준에서 대형 모델의 작동 메커니즘에 대한 고차원적인 이해를 제공하는 것을 목표로 합니다. 주로 다양한 네트워크 구성 요소에서 학습된 의미론적 지식을 탐구합니다.

프로브 기반 해석 프로브 해석 기술은 주로 분류기 감지를 기반으로 사전 훈련된 모델이나 미세 조정된 모델에서 얕은 분류기를 훈련한 다음 홀드아웃 데이터 세트에서 평가합니다. 분류자는 언어 특징이나 추론 능력을 식별할 수 있습니다.
  • 뉴런 활성화 기존의 뉴런 활성화 분석은 중요한 뉴런의 일부만 고려한 후 뉴런과 의미적 특징 간의 관계를 학습합니다. 최근에는 뉴런을 설명하기 위해 GPT-4를 사용하기도 합니다. 설명을 위해 일부 뉴런을 선택하는 대신 GPT-4를 사용하여 모든 뉴런을 설명할 수도 있습니다.
  • 개념 기반 해석은 입력을 개념 집합에 매핑한 다음 예측에 대한 개념의 중요성을 측정하여 모델을 설명합니다.

프롬핑 패러다임을 기반으로 한 모델 설명

프롬핑 패러다임을 기반으로 한 모델 설명은 두 모델의 역량을 구별하고 모델 학습을 탐색하기 위해 기본 모델과 보조 모델에 대한 별도의 설명이 필요합니다. 경로. 탐구된 주요 문제는 다음과 같습니다: 퓨샷 학습을 위한 모델에 대한 설명 제공의 이점, 퓨샷 학습 및 사고 체인 기능의 기원 이해.

기본 모델 설명

모델 학습에 대한 설명의 이점 퓨샷 학습의 경우 설명이 모델 학습에 도움이 되는지 살펴봅니다.
  • 상황별 학습 대형 모델의 상황별 학습 메커니즘을 살펴보고 대형 모델과 중형 모델의 상황별 학습 간의 차이를 구별합니다.
  • 사고 연쇄 프롬프트가 모델 성능을 향상시키는 이유를 살펴보세요.

보조 모델 설명

보조 모델의 역할 일반적으로 사전 학습을 통해 일반적인 의미 지식을 얻은 다음 지도 학습 및 강화를 통해 도메인 지식을 얻습니다. 학습. 보조모델에 대한 지식이 주로 어느 단계에서 나오는지에 대한 연구가 남아 있다.
  • 환상과 불확실성 대규모 모델 예측의 정확성과 신뢰성은 현재 연구에서 여전히 중요한 주제입니다. 대형 모델의 강력한 추론 기능에도 불구하고 그 결과는 종종 잘못된 정보와 환각으로 인해 어려움을 겪습니다. 이러한 예측의 불확실성은 광범위한 적용에 큰 어려움을 가져옵니다.

모델 설명 평가

모델 설명의 평가 지표에는 타당성, 충실도, 안정성, 견고성이 포함됩니다. 이 논문에서는 주로 1) 인간에 대한 합리성 2) 모델의 내부 논리에 대한 충실도라는 두 가지 측면에 대해 이야기합니다.
전통적인 미세 조정 모델 설명에 대한 평가는 주로 로컬 설명에 중점을 둡니다. 타당성을 확보하려면 설계 표준을 기준으로 모델 해석과 사람이 주석을 추가한 해석의 측정 평가가 필요한 경우가 많습니다. Fidelity는 정량적 지표의 성능에 더 많은 관심을 기울이고 있습니다. 다양한 지표가 모델이나 데이터의 다양한 측면에 중점을 두기 때문에 충실도를 측정하기 위한 통일된 표준이 아직 부족합니다. 프롬프트 모델 해석을 기반으로 한 평가에는 추가 연구가 필요합니다.

향후 연구 과제

1. 타당하고 정확한 설명이 부족합니다. 문제는 두 가지 측면에서 발생합니다. 1) 효과적인 설명을 설계하기 위한 표준이 부족합니다. 2) 효과적인 설명이 부족하면 설명 평가에 대한 지원이 부족합니다.

2. 출현 현상의 기원은 알려져 있지 않습니다. 대형 모델의 출현 능력에 대한 탐구는 모델 관점에서, 데이터 관점에서 각각 1) 출현 현상을 일으키는 모델 구조, 2) 최소 모델 규모 및 언어 간 작업에서 탁월한 성능을 발휘하는 복잡성. 데이터 관점에서 볼 때, 1) 특정 예측을 결정하는 데이터의 하위 집합, 2) 창발 능력과 모델 훈련 및 데이터 오염 간의 관계, 3) 훈련 데이터의 품질 및 양이 사전 예측의 각 효과에 미치는 영향 훈련과 미세 조정.

3. 미세조정 패러다임과 유도 패러다임의 차이. In-distribution과 Out-of-distribution의 성능이 다르다는 것은 추론 방법이 다르다는 것을 의미합니다. 1) 데이터가 분포되어 있을 때 추론 패러다임의 차이 2) 데이터가 다르게 분포될 때 모델 견고성의 차이의 원인.

4. 대형 모델의 단축키 학습 문제. 두 가지 패러다임 하에서 모델의 단축 학습 문제는 다양한 측면에서 존재합니다. 대형 모델에는 풍부한 데이터 소스가 있지만 지름길 학습 문제는 상대적으로 완화됩니다. 지름길 학습의 형성 메커니즘을 규명하고 해결책을 제안하는 것은 모델의 일반화를 위해 여전히 중요합니다.

5. 중복에 주의하세요. 주의 모듈의 중복성 문제는 두 패러다임 모두에 광범위하게 존재합니다. 주의 중복성에 대한 연구는 모델 압축 기술에 대한 솔루션을 제공할 수 있습니다.

6. 안전 및 윤리. 대형 모델의 해석 가능성은 모델을 제어하고 모델의 부정적인 영향을 제한하는 데 매우 중요합니다. 편견, 불공평, 정보 오염, 사회적 조작 및 기타 문제 등. 설명 가능한 AI 모델을 구축하면 위의 문제를 효과적으로 방지하고 윤리적인 인공 지능 시스템을 형성할 수 있습니다.

위 내용은 대형 모델의 해석 가능성 분석: 검토를 통해 진실을 밝히고 의심에 대한 답변을 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이에이전트가오고 있습니다 - AI 파트너 옆에서 우리가 할 일에 대해 더 많이Apr 29, 2025 am 11:13 AM

AI의 미래는 간단한 단어 예측과 대화 시뮬레이션을 넘어서고 있습니다. AI 에이전트는 새로운 행동 및 작업 완료가 가능합니다. 이러한 변화는 이미 Anthropic의 Claude와 같은 도구에서 분명합니다. AI 요원 : 연구 a

AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유AI 중심의 미래에 리더를위한 통제보다 공감이 더 중요한 이유Apr 29, 2025 am 11:12 AM

빠른 기술 발전은 미래의 업무에 대한 미래 지향적 인 관점을 필요로합니다. AI가 단순한 생산성 향상을 초월하고 사회적 구조를 형성하기 시작하면 어떻게됩니까? Topher McDougal의 다가오는 책인 Gaia Wakes :

제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?제품 분류를위한 AI : 기계가 세법을 마스터 할 수 있습니까?Apr 29, 2025 am 11:11 AM

조화 시스템 (HS)과 같은 시스템의 "HS 8471.30"과 같은 복잡한 코드를 포함하는 제품 분류는 국제 무역 및 국내 판매에 중요합니다. 이 코드는 올바른 세금 신청을 보장하여 모든 inv에 영향을 미칩니다

데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?데이터 센터 요구가 기후 기술 반등을 일으킬 수 있습니까?Apr 29, 2025 am 11:10 AM

데이터 센터 및 기후 기술 투자의 에너지 소비의 미래 이 기사는 AI가 주도하는 데이터 센터의 에너지 소비 급증과 기후 변화에 미치는 영향을 탐구 하고이 과제를 해결하기 위해 혁신적인 솔루션 및 정책 권장 사항을 분석합니다. 에너지 수요의 과제 : 대규모 및 초대형 스케일 데이터 센터는 수십만 명의 일반 북미 가족의 합과 비슷한 대규모 전력을 소비하며, AI 초반 규모 센터는 이보다 수십 배 더 많은 힘을 소비합니다. 2024 년 첫 8 개월 동안 Microsoft, Meta, Google 및 Amazon은 AI 데이터 센터의 건설 및 운영에 약 1,250 억 달러를 투자했습니다 (JP Morgan, 2024) (표 1). 에너지 수요 증가는 도전이자 기회입니다. 카나리아 미디어에 따르면 다가오는 전기

AI와 할리우드의 다음 황금 시대AI와 할리우드의 다음 황금 시대Apr 29, 2025 am 11:09 AM

생성 AI는 영화 및 텔레비전 제작을 혁신하고 있습니다. Luma의 Ray 2 모델과 활주로의 Gen-4, Openai의 Sora, Google의 VEO 및 기타 새로운 모델은 전례없는 속도로 생성 된 비디오의 품질을 향상시키고 있습니다. 이 모델은 복잡한 특수 효과와 현실적인 장면을 쉽게 만들 수 있으며 짧은 비디오 클립과 카메라로 인식 된 모션 효과조차도 달성되었습니다. 이러한 도구의 조작과 일관성은 여전히 ​​개선되어야하지만 진행 속도는 놀랍습니다. 생성 비디오는 독립적 인 매체가되고 있습니다. 일부 모델은 애니메이션 제작에 능숙하고 다른 모델은 라이브 액션 이미지에 능숙합니다. Adobe 's Firefly와 Moonvalley's MA가

chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?chatgpt가 천천히 AI의 가장 큰 예-맨이되고 있습니까?Apr 29, 2025 am 11:08 AM

ChatGpt 사용자 경험 감소 : 모델 저하 또는 사용자 기대치입니까? 최근에, 많은 ChatGpt 유료 사용자가 성능 저하에 대해 불평하여 광범위한 관심을 끌었습니다. 사용자는 모델에 대한 느린 반응, 짧은 답변, 도움 부족 및 더 많은 환각을보고했습니다. 일부 사용자는 소셜 미디어에 대한 불만을 표명했으며 Chatgpt가“너무 아첨”이되었으며 중요한 피드백을 제공하기보다는 사용자보기를 확인하는 경향이 있습니다. 이는 사용자 경험에 영향을 줄뿐만 아니라 생산성 감소 및 컴퓨팅 리소스 낭비와 같은 회사 고객에게 실제 손실을 가져옵니다. 성능 저하의 증거 많은 사용자들이 ChatGpt 성능, 특히 GPT-4와 같은 이전 모델 (이번 달 말에 서비스에서 곧 중단 될 예정)에서 상당한 악화를보고했습니다. 이것

우리는 어떤 AI 유산을 세대 알파를 떠나나요?우리는 어떤 AI 유산을 세대 알파를 떠나나요?Apr 29, 2025 am 11:07 AM

알파 세대와 AI 혁명 Alpha Generation (2010-2024 년 출생)은 독특하게 위치하고 있습니다. 그들은 일상 생활에 깊이 짜여진 기술인 생성 AI와 함께 자랍니다. 그러나이 광범위한 접근은 주로 i가 즐겼습니다

AI 내부 배포의 숨겨진 위험 : 거버넌스 격차 및 치명적인 위험AI 내부 배포의 숨겨진 위험 : 거버넌스 격차 및 치명적인 위험Apr 28, 2025 am 11:12 AM

Apollo Research의 새로운 보고서에 따르면 고급 AI 시스템의 점검되지 않은 내부 배치는 상당한 위험을 초래합니다. 주요 AI 기업들 사이에서 널리 퍼져있는 이러한 감독 부족은 uncont에서 범위에 이르는 잠재적 인 치명적인 결과를 허용합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구