수년 동안 우리는 인공 지능이 어떻게 결정을 내리고 출력을 생성하는지 이해할 수 없었습니다.
모델 개발자는 알고리즘과 데이터만 결정하고 최종적으로 모델의 출력과 중간 부분만 얻을 수 있습니다. 모델은 이러한 알고리즘과 데이터 출력 결과를 기반으로 눈에 보이지 않는 "블랙 박스"가 됩니다.
그래서 "모델 트레이닝은 연금술과 같다"는 농담이 있죠.
그런데 이제 드디어 모형 블랙박스 해석이 가능해졌습니다!
Anthropic 연구팀은 모델의 신경망에서 가장 기본적인 단위 뉴런의 해석 가능한 특징을 추출했습니다.
이것은 인류가 AI 블랙박스를 밝히는 획기적인 진전이 될 것입니다.
흥미롭게 표현된 인류학:
"모델의 신경망이 어떻게 작동하는지 이해할 수 있다면 모델의 실패 모드를 진단하고 설계를 수정할 수 있으며 모델을 기업과 사회에서 안전하게 채택할 수 있습니다. 그것은 현실이 될 것입니다!”
Anthropic의 최신 연구 보고서 "단일의미성: 사전 학습을 통한 언어 모델 분해"에서 연구자들은 사전 학습 방법을 사용하여 512개의 뉴런 층을 더 많은 뉴런으로 분해했습니다. 4000개 이상의 해석 가능한 기능
연구 보고서 주소: https://transformer-circuits.pub/2023/monosemantic-features/index.html
이러한 기능은 DNA 서열, 법적 언어, HTTP 요청, 히브리어 텍스트 및 영양 사실 설명 등
단일 뉴런의 활성화를 분리하여 보면 이러한 모델 속성의 대부분을 볼 수 없습니다.
대부분의 뉴런은 "다의미적"입니다.
예를 들어 소규모 언어 모델에서 단일 뉴런 Meta는 학술 인용, 영어 대화, HTTP 요청 및 한국어 텍스트를 포함하여 관련 없는 여러 컨텍스트에서 활성화됩니다.
그리고 고전적인 비전 모델에서는 단일 뉴런이 고양이의 얼굴과 자동차의 앞면에 반응합니다.
다양한 맥락에서 많은 연구에서 뉴런의 활성화가 다른 의미를 가질 수 있음이 입증되었습니다.
한 가지 잠재적인 이유는 뉴런의 다의미적 특성이 중첩 효과 때문이라는 것입니다. 이는 신경망이 각 특징에 고유한 뉴런의 선형 조합을 할당하여 데이터의 독립적인 특징을 나타내고 이러한 특징의 수가 뉴런의 수를 초과한다는 가설적인 현상입니다.
각 특징이 벡터를 뉴런에 추가하면 특징 세트는 네트워크 뉴런의 활성화를 위해 지나치게 완전한 선형 기반을 형성합니다.
Anthropic의 이전 Toy Models of Superposition("중첩 장난감 모델") 논문에서 희소성은 신경망 훈련에서 모호성을 제거하여 모델이 특징 간의 관계를 더 잘 이해하도록 돕고 활성화를 줄이는 데 도움이 된다는 것이 입증되었습니다. 벡터의 소스 특성은 모델의 예측과 결정을 더욱 신뢰할 수 있게 만듭니다.
이 개념은 신호의 희박성을 통해 제한된 관찰에서 완전한 신호를 복원할 수 있다는 압축 감지의 아이디어와 유사합니다.
그러나 Toy Models of Superposition에서 제안된 세 가지 전략 중:
(1) 중첩 없이 모델을 생성하여 아마도 활성화 희소성을 장려함
(2) 중첩 표시 상태 모델에서 사전 학습 지나치게 완전한 기능을 찾는 데 사용됩니다.
(3) 두 가지를 결합한 하이브리드 방법을 사용합니다.
다시 작성해야 할 점은 방법 (1)은 모호성 문제를 해결할 수 없고 방법 (2)는 심각한 과적합에 취약하다는 점입니다
따라서 이번에 인류 연구자들은 희소(sparse)라는 약한 사전 학습 알고리즘을 사용했습니다. 오토인코더는 모델 뉴런 자체보다 단일 의미 분석 단위를 제공하는 훈련된 모델로부터 학습된 특징을 생성합니다.
구체적으로 연구원들은 512개의 뉴런이 있는 MLP 단일 레이어 변환기를 채택하고 80억 개의 데이터 포인트 기능에서 MLP 활성화에 대한 희소 자동 인코더를 훈련하여 MLP 활성화를 상대적으로 해석 가능한 것으로 분해했습니다. 확장 계수 범위는 1에서 1까지입니다. ×(512개 기능) ~ 256×(131,072개 기능)
본 연구에서 발견된 특징이 모델의 뉴런보다 해석 가능성이 더 높은지 확인하기 위해 블라인드 검토 평가를 실시했으며 인간 평가자가 해석 가능성을 평가하도록 했습니다.
볼 수 있으며 특징(빨간색)이 훨씬 더 높습니다. 뉴런(청록색)보다 점수가 높습니다.
연구원들이 발견한 특징은 모델 내부의 뉴런에 비해 이해하기 쉽다는 것이 입증되었습니다
또한 연구원들은 대형을 사용하여 "자동 해석 가능성" 방법을 채택했습니다. 언어 모델은 작은 모델의 기능에 대한 간단한 설명을 생성하고 기능 활성화를 예측하는 능력을 기반으로 다른 모델이 해당 설명에 점수를 매길 수 있도록 합니다.
마찬가지로 특징은 뉴런보다 점수가 높으며, 특징의 활성화와 모델 동작에 대한 다운스트림 효과에 대한 일관된 해석을 보여줍니다.
게다가 이렇게 추출된 특징은 모델을 안내하는 타겟 방법도 제공합니다.
아래 그림과 같이 기능을 인위적으로 활성화하면 모델 동작이 예측 가능한 방식으로 변경될 수 있습니다.
다음은 추출된 해석 가능성 특징을 시각화한 것입니다.
왼쪽의 특징 목록을 클릭하면 신경망의 특징 공간을 대화형으로 탐색할 수 있습니다.
Anthropic, Towards Monosemantic: Decomposing Language Models With Dictionary Learning의 이 연구 보고서는 네 부분으로 나눌 수 있습니다.
문제 설정에서 연구자들은 연구 동기를 소개하고 훈련된 트랜스포머와 희소 오토인코더에 대해 자세히 설명했습니다.
개별 특징에 대한 자세한 조사를 통해 연구에서 발견된 여러 특징이 기능적으로 특정한 인과 단위임을 입증했습니다.
글로벌 분석을 통해 우리는 일반적인 특징을 해석할 수 있으며 MLP 계층의 중요한 구성 요소를 설명할 수 있다는 결론을 내렸습니다.
특징 세분화, 보편성 속성, 복잡한 행동을 달성하기 위해 "유한 상태 오토마타"와 유사한 시스템을 형성하는 방법.
결론은 다음과 같습니다. 7:
Sparse 오토인코더는 상대적으로 단일한 의미 특징을 추출하는 능력이 있습니다
스파스 오토인코더는 뉴런 기반에서 실제로 보이지 않는 해석 가능한 특징을 생성할 수 있습니다
3. 스파스 오토인코더는 변환기 생성에 개입하고 안내하는 데 사용될 수 있습니다.
4. 희소 자동 인코더는 비교적 일반적인 기능을 생성할 수 있습니다.
오토인코더의 크기가 증가함에 따라 기능이 "분할"되는 경향이 있습니다. 재작성 후: 오토인코더의 크기가 증가함에 따라 기능은 "분할"되는 경향을 보입니다
6. 512개의 뉴런만 수천 개의 기능을 나타낼 수 있습니다
7. "유한 상태 자동 장치"는 아래 그림과 같이 복잡한 동작을 달성합니다
자세한 내용은 보고서를 참조하세요.
Anthropic은 이 연구 보고서의 작은 모델의 성공을 더 큰 모델로 재현하기 위해 미래에 우리가 직면하는 과제는 더 이상 과학적인 문제가 아니라 공학적 문제가 될 것이라고 믿습니다
이를 달성하려면 대규모 모델에서 해석 가능성은 모델 복잡성과 규모로 인한 문제를 극복하기 위해 엔지니어링 분야에서 더 많은 노력과 자원이 필요합니다.
모델 복잡성과 데이터 규모 문제에 대처하기 위한 새로운 도구, 기술 및 방법의 개발을 포함합니다. 또한 대규모 모델의 요구 사항을 수용할 수 있는 확장 가능한 해석 프레임워크 및 도구를 구축하는 것도 포함됩니다.
이것은 해석적 인공지능과 대규모 딥러닝 연구 분야의 최신 트렌드가 될 것입니다
위 내용은 대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!