찾다
기술 주변기기일체 포함대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

수년 동안 우리는 인공 지능이 어떻게 결정을 내리고 출력을 생성하는지 이해할 수 없었습니다.

모델 개발자는 알고리즘과 데이터만 결정하고 최종적으로 모델의 출력과 중간 부분만 얻을 수 있습니다. 모델은 이러한 알고리즘과 데이터 출력 결과를 기반으로 눈에 보이지 않는 "블랙 박스"가 됩니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

그래서 "모델 트레이닝은 연금술과 같다"는 농담이 있죠.

그런데 이제 드디어 모형 블랙박스 해석이 가능해졌습니다!

Anthropic 연구팀은 모델의 신경망에서 가장 기본적인 단위 뉴런의 해석 가능한 특징을 추출했습니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

이것은 인류가 AI 블랙박스를 밝히는 획기적인 진전이 될 것입니다.

흥미롭게 표현된 인류학:

"모델의 신경망이 어떻게 작동하는지 이해할 수 있다면 모델의 실패 모드를 진단하고 설계를 수정할 수 있으며 모델을 기업과 사회에서 안전하게 채택할 수 있습니다. 그것은 현실이 될 것입니다!”

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

Anthropic의 최신 연구 보고서 "단일의미성: 사전 학습을 통한 언어 모델 분해"에서 연구자들은 사전 학습 방법을 사용하여 512개의 뉴런 층을 더 많은 뉴런으로 분해했습니다. 4000개 이상의 해석 가능한 기능

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

연구 보고서 주소: https://transformer-circuits.pub/2023/monosemantic-features/index.html

이러한 기능은 DNA 서열, 법적 언어, HTTP 요청, 히브리어 텍스트 및 영양 사실 설명 등

단일 뉴런의 활성화를 분리하여 보면 이러한 모델 속성의 대부분을 볼 수 없습니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

대부분의 뉴런은 "다의미적"입니다.

예를 들어 소규모 언어 모델에서 단일 뉴런 Meta는 학술 인용, 영어 대화, HTTP 요청 및 한국어 텍스트를 포함하여 관련 없는 여러 컨텍스트에서 활성화됩니다.

그리고 고전적인 비전 모델에서는 단일 뉴런이 고양이의 얼굴과 자동차의 앞면에 반응합니다.

다양한 맥락에서 많은 연구에서 뉴런의 활성화가 다른 의미를 가질 수 있음이 입증되었습니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

한 가지 잠재적인 이유는 뉴런의 다의미적 특성이 중첩 효과 때문이라는 것입니다. 이는 신경망이 각 특징에 고유한 뉴런의 선형 조합을 할당하여 데이터의 독립적인 특징을 나타내고 이러한 특징의 수가 뉴런의 수를 초과한다는 가설적인 현상입니다.

각 특징이 벡터를 뉴런에 추가하면 특징 세트는 네트워크 뉴런의 활성화를 위해 지나치게 완전한 선형 기반을 형성합니다.

Anthropic의 이전 Toy Models of Superposition("중첩 장난감 모델") 논문에서 희소성은 신경망 훈련에서 모호성을 제거하여 모델이 특징 간의 관계를 더 잘 이해하도록 돕고 활성화를 줄이는 데 도움이 된다는 것이 입증되었습니다. 벡터의 소스 특성은 모델의 예측과 결정을 더욱 신뢰할 수 있게 만듭니다.

이 개념은 신호의 희박성을 통해 제한된 관찰에서 완전한 신호를 복원할 수 있다는 압축 감지의 아이디어와 유사합니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

그러나 Toy Models of Superposition에서 제안된 세 가지 전략 중:

(1) 중첩 없이 모델을 생성하여 아마도 활성화 희소성을 장려함

(2) 중첩 표시 상태 모델에서 사전 학습 지나치게 완전한 기능을 찾는 데 사용됩니다.

(3) 두 가지를 결합한 하이브리드 방법을 사용합니다.

다시 작성해야 할 점은 방법 (1)은 모호성 문제를 해결할 수 없고 방법 (2)는 심각한 과적합에 취약하다는 점입니다

따라서 이번에 인류 연구자들은 희소(sparse)라는 약한 사전 학습 알고리즘을 사용했습니다. 오토인코더는 모델 뉴런 자체보다 단일 의미 분석 단위를 제공하는 훈련된 모델로부터 학습된 특징을 생성합니다.

구체적으로 연구원들은 512개의 뉴런이 있는 MLP 단일 레이어 변환기를 채택하고 80억 개의 데이터 포인트 기능에서 MLP 활성화에 대한 희소 자동 인코더를 훈련하여 MLP 활성화를 상대적으로 해석 가능한 것으로 분해했습니다. 확장 계수 범위는 1에서 1까지입니다. ×(512개 기능) ~ 256×(131,072개 기능)

본 연구에서 발견된 특징이 모델의 뉴런보다 해석 가능성이 더 높은지 확인하기 위해 블라인드 검토 평가를 실시했으며 인간 평가자가 해석 가능성을 평가하도록 했습니다.

볼 수 있으며 특징(빨간색)이 훨씬 더 높습니다. 뉴런(청록색)보다 점수가 높습니다.

연구원들이 발견한 특징은 모델 내부의 뉴런에 비해 이해하기 쉽다는 것이 입증되었습니다

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

또한 연구원들은 대형을 사용하여 "자동 해석 가능성" 방법을 채택했습니다. 언어 모델은 작은 모델의 기능에 대한 간단한 설명을 생성하고 기능 활성화를 예측하는 능력을 기반으로 다른 모델이 해당 설명에 점수를 매길 수 있도록 합니다.

마찬가지로 특징은 뉴런보다 점수가 높으며, 특징의 활성화와 모델 동작에 대한 다운스트림 효과에 대한 일관된 해석을 보여줍니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

게다가 이렇게 추출된 특징은 모델을 안내하는 타겟 방법도 제공합니다.

아래 그림과 같이 기능을 인위적으로 활성화하면 모델 동작이 예측 가능한 방식으로 변경될 수 있습니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

다음은 추출된 해석 가능성 특징을 시각화한 것입니다.

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

왼쪽의 특징 목록을 클릭하면 신경망의 특징 공간을 대화형으로 탐색할 수 있습니다.

연구 보고서 요약

Anthropic, Towards Monosemantic: Decomposing Language Models With Dictionary Learning의 이 연구 보고서는 네 부분으로 나눌 수 있습니다.

문제 설정에서 연구자들은 연구 동기를 소개하고 훈련된 트랜스포머와 희소 오토인코더에 대해 자세히 설명했습니다.

개별 특징에 대한 자세한 조사를 통해 연구에서 발견된 여러 특징이 기능적으로 특정한 인과 단위임을 입증했습니다.

글로벌 분석을 통해 우리는 일반적인 특징을 해석할 수 있으며 MLP 계층의 중요한 구성 요소를 설명할 수 있다는 결론을 내렸습니다.

특징 세분화, 보편성 속성, 복잡한 행동을 달성하기 위해 "유한 상태 오토마타"와 유사한 시스템을 형성하는 방법.

결론은 다음과 같습니다. 7:

Sparse 오토인코더는 상대적으로 단일한 의미 특징을 추출하는 능력이 있습니다

스파스 오토인코더는 뉴런 기반에서 실제로 보이지 않는 해석 가능한 특징을 생성할 수 있습니다

3. 스파스 오토인코더는 변환기 생성에 개입하고 안내하는 데 사용될 수 있습니다.

4. 희소 자동 인코더는 비교적 일반적인 기능을 생성할 수 있습니다.

오토인코더의 크기가 증가함에 따라 기능이 "분할"되는 경향이 있습니다. 재작성 후: 오토인코더의 크기가 증가함에 따라 기능은 "분할"되는 경향을 보입니다

6. 512개의 뉴런만 수천 개의 기능을 나타낼 수 있습니다

7. "유한 상태 자동 장치"는 아래 그림과 같이 복잡한 동작을 달성합니다

대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려

자세한 내용은 보고서를 참조하세요.

Anthropic은 이 연구 보고서의 작은 모델의 성공을 더 큰 모델로 재현하기 위해 미래에 우리가 직면하는 과제는 더 이상 과학적인 문제가 아니라 공학적 문제가 될 것이라고 믿습니다

이를 달성하려면 대규모 모델에서 해석 가능성은 모델 복잡성과 규모로 인한 문제를 극복하기 위해 엔지니어링 분야에서 더 많은 노력과 자원이 필요합니다.

모델 복잡성과 데이터 규모 문제에 대처하기 위한 새로운 도구, 기술 및 방법의 개발을 포함합니다. 또한 대규모 모델의 요구 사항을 수용할 수 있는 확장 가능한 해석 프레임워크 및 도구를 구축하는 것도 포함됩니다.

이것은 해석적 인공지능과 대규모 딥러닝 연구 분야의 최신 트렌드가 될 것입니다

위 내용은 대형모델의 블랙박스를 깨고 뉴런을 완벽하게 분해해보세요! OpenAI 라이벌 Anthropic, 설명할 수 없는 AI 장벽 무너뜨려의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
LLM에서 도구 호출LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 ​​있습니다.

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

AI에 대한 UN 입력 : 우승자, 패자 및 기회AI에 대한 UN 입력 : 우승자, 패자 및 기회Apr 14, 2025 am 11:25 AM

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

생성 AI를 통한 협상 기술 ​​학습생성 AI를 통한 협상 기술 ​​학습Apr 14, 2025 am 11:23 AM

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Apr 14, 2025 am 11:22 AM

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Apr 14, 2025 am 11:21 AM

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 란 무엇입니까?그래프 데이터베이스 란 무엇입니까?Apr 14, 2025 am 11:19 AM

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

LLM 라우팅 : 전략, 기술 및 파이썬 구현LLM 라우팅 : 전략, 기술 및 파이썬 구현Apr 14, 2025 am 11:14 AM

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.