>  기사  >  기술 주변기기  >  뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

王林
王林원래의
2024-07-18 20:52:41609검색

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

Editor | Radish Skin

언어를 처리할 때 뇌는 특수한 계산을 사용하여 복잡한 언어 구조에서 의미를 구성합니다. Transformer 아키텍처를 기반으로 하는 인공 신경망은 자연어 처리에 중요한 도구입니다.

프린스턴 대학교 연구자들은 Transformer 모델과 언어 처리에 있어서 인간 두뇌의 기능적 전문화를 탐구합니다.

Transformer는 구조화된 회로 계산을 통해 단어 간의 문맥 정보를 통합합니다. 그러나 현재 연구는 주로 이러한 회로에 의해 생성된 내부 표현("임베딩")에 중점을 두고 있습니다.

연구원들은 회로 계산을 직접 분석했습니다. 그들은 이러한 계산을 단어 전체에 걸쳐 문맥 정보를 통합하는 기능적으로 특화된 "변환"으로 분해했습니다. 참가자들이 자연주의적인 이야기를 듣는 동안 얻은 기능적 MRI 데이터를 사용하여 연구자들은 이러한 "변형"이 피질 언어 네트워크 전반에 걸쳐 뇌 활동의 중요한 차이를 설명할 수 있는지 여부를 테스트했습니다.

연구에 따르면 기능적으로 특화된 각각의 "주의 머리"가 수행하는 긴급 계산이 특정 피질 영역의 뇌 활동을 다양한 방식으로 예측한다는 것이 입증되었습니다. 이러한 주의 머리는 저차원 피질 공간의 다양한 층과 맥락 길이에 해당하는 기울기를 따라 내려갑니다.

해당 연구는 2024년 6월 29일 "Nature Communications"에 "변환기 기반 언어 모델과 인간 두뇌의 공유 기능 전문화"라는 제목으로 게재되었습니다.

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

언어 이해는 근본적으로 건설적인 과정입니다. 우리의 두뇌는 단어 사이의 지역적 의존성을 해결하고, 낮은 수준의 언어 단위를 높은 수준의 의미 단위로 조합하고, 궁극적으로 우리가 세상을 이해하는 데 사용하는 내러티브를 형성합니다.

예를 들어 화자가 "비밀 계획"을 언급하는 경우 "비밀"이 "계획"을 수식한다는 것을 이해하기 위해 이 구조에 있는 단어 간의 관계를 암시적으로 처리합니다. 더 높은 수준에서 우리는 주변 이야기의 맥락을 사용하여 문구의 의미를 이해합니다. 이 계획에는 무엇이 포함되고, 누가 이 비밀을 지키고 있으며, 누구로부터 비밀을 지키고 있습니까?

이 문맥에는 몇 분에 걸쳐 수백 개의 단어가 퍼져 있을 수 있습니다. 인간의 두뇌는 음성 신호를 실행 가능한 의미 표현으로 변환하는 일련의 기능적으로 전문화된 계산을 통해 이러한 프로세스를 구현하는 것으로 생각됩니다.

전통적인 신경 영상 연구에서는 실험적 수단을 사용하여 특정 언어 계산 과정을 분석하고 이를 통제된 환경에서 뇌 활동에 매핑합니다. 그러나 이러한 접근 방식은 자연어의 복잡성을 일반화하는 데 어려움이 있습니다.

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

그림: 언어 모델의 내부 구성 요소로부터 뇌 활동을 예측하는 코딩 모델. (출처: 논문)

최근 몇 년 동안 Transformer 아키텍처를 기반으로 한 심층 신경망은 자연어 처리 방식을 변화시켰습니다. 이러한 모델은 자기 지도 학습을 통해 대규모 실제 텍스트 말뭉치를 학습하여 긴 시퀀스의 각 단어에 대한 상황에 맞는 의미 표현을 가능하게 합니다.

Transformer 모델 내부에 내장된 표현에 의존하는 것 외에도 Transformer 모델의 일부 주목 헤드는 동사 직접 목적어 구문 분석 또는 명사 수식어 추적과 같은 특정 기능 전문화를 구현합니다.

현재 연구에서 연구자들은 머리 방향 변환(개별 주의 머리가 수행하는 기능적으로 전문화된 상황별 계산)이 뇌의 언어 처리에 대한 보완적인 창을 제공할 수 있다고 믿습니다. 자연어 처리에 대한 신경계산 이론은 궁극적으로 단어 전체에서 의미가 어떻게 구성되는지를 명시해야 합니다.

Transformer 아키텍처는 과거 단어의 의미가 현재 단어의 의미에 어떻게 들어맞는지 정량화하기 위한 후보 메커니즘에 대한 명시적인 액세스를 제공합니다.

이것이 인간 언어 처리의 중요한 부분이라면 이러한 변환은 자연어 이해 중에 인간 두뇌 활동을 시뮬레이션하기 위한 좋은 기반을 제공해야 합니다.

연구원들은 널리 연구된 BERT 모델에서 변환을 추출하고 인코딩 모델을 사용하여 이러한 변환이 다른 여러 언어 기능 계열과 함께 자연어 이해 중에 뇌 활동을 예측하는 데 얼마나 잘 수행되는지 평가했습니다.

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

그림: 피질 언어 영역 전반에 걸쳐 세 가지 클래스의 언어 모델을 비교합니다. (출처: Paper)

연구원들은 고전 언어 기능, 비문맥 단어 임베딩(GloVe), 문맥 변환기 기능(BERT)의 세 가지 언어 모델의 성능을 비교했습니다.

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

그림: 임베딩 및 변환을 위한 레이어 기본 설정. (출처: 종이)

研究人员发现,transformations 的表现与嵌入相当,并且通常优于非上下文嵌入和经典句法注释,这表明从周围单词中提取的上下文信息非常丰富。

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

图示:低维大脑空间中的 headwise transformations。(来源:论文)

事实上,模型早期层的 transformations 比嵌入本身更能解释大脑活动中的独特差异。最后,研究人员将这些 transformations 分解为由各个注意力头执行的功能专门计算。

뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.

图示:headwise 大脑和依赖性预测之间的对应关系。(来源:论文)

研究人员发现 headwise 的某些属性(例如回望距离)决定了 headwise transformations 与皮质语言耳之间的映射。研究人员还发现,对于某些语言区域,优先编码某些语言依赖关系的 headwise transformations 也能更好地预测大脑活动。

总之,该研究为理解人类语言处理提供了新的视角。

论文链接:https://www.nature.com/articles/s41467-024-49173-5

위 내용은 뇌는 언어를 어떻게 처리하나요? 프린스턴 팀은 Transformer 모델을 분석합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.