>기술 주변기기 >일체 포함 >인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?

인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?

王林
王林앞으로
2024-03-12 14:43:021176검색

인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?

최근 컴퓨터 과학자 팀은 기존의 대규모 언어 모델에는 없는 알려진 정보를 주기적으로 잊어버리는 기능을 갖춘 보다 유연하고 탄력적인 기계 학습 모델을 개발했습니다.

실제 측정에 따르면 많은 경우 "망각 방법"이 훈련에 매우 효율적이며 망각 모델이 더 나은 성능을 발휘하는 것으로 나타났습니다. 기초과학연구원의 AI 엔지니어인 권재 씨는 이번 새로운 연구가 AI 분야에서 상당한 진전을 의미한다고 말했습니다.

'망각법' 훈련 효율이 매우 높습니다

현재 주류를 이루는 AI 언어 엔진의 대부분은 인공 신경망 기술을 사용합니다. 이 네트워크 구조의 각 "뉴런"은 실제로 서로 연결되어 정보를 수신하고 전송하며 여러 계층의 뉴런의 복잡한 작동을 통해 데이터 처리 및 학습을 실현합니다. 이러한 신경망 시뮬레이션 방법을 통해 AI는 인간 두뇌의 작동 방식을 시뮬레이션하여 인간과 같은 지능적인 행동을 달성할 수 있습니다.

처음에는 정보 흐름이 다소 무작위입니다. 네트워크가 훈련 데이터와 계속 일치함에 따라 뉴런 사이의 정보 흐름은 계속해서 최적화됩니다. 예를 들어, 연구자가 이중 언어 번역 모델을 훈련하려는 경우 먼저 대량의 이중 언어 텍스트를 수집하고 해당 텍스트를 사용하여 모델을 훈련합니다. 이는 한 언어의 텍스트와 다른 언어의 동등한 텍스트를 비교하기 위해 뉴런 간의 연결을 조정합니다. 효과적인 단어를 연결하세요.

위 교육에는 많은 컴퓨팅 리소스가 필요합니다. 모델의 성능이 좋지 않거나 사용자의 요구 사항이 변경되면 모델이 요구 사항을 충족하지 못할 수도 있습니다.

연구원 Mikel Artetxe는 다음과 같이 지적했습니다. "100개 언어가 포함된 모델이 있지만 하나의 언어가 포함되어 있지 않다고 가정해 보겠습니다. 이 언어를 모델에 추가하려면 재교육해야 합니다.

몇 년 전 Artetxe와 그의 동료들은 언어를 사용하여 신경망을 훈련시켰고, 신경망에 알려진 "토큰"이라는 단어 구성 정보를 삭제했습니다. 토큰은 "임베딩 레이어"라고도 불리는 신경망의 첫 번째 레이어에 저장됩니다. 다른 레이어의 경우 무시하세요. 첫 번째 언어의 토큰을 삭제하고 두 번째 언어로 훈련한 후 새로운 두 번째 언어의 토큰을 임베딩 레이어에 채울 수 있습니다.

모델에 많은 양의 불일치 정보가 포함되어 있지만 여전히 제2언어로 재교육이 가능합니다. 이는 모델이 제2언어를 학습하고 처리할 수 있다는 의미입니다. 연구자들은 임베딩 레이어가 제2 언어의 어휘별 정보를 저장하지만 신경망은 인간 언어의 배후 개념을 포함하는 추상적인 정보를 하위 수준에 저장한다고 믿습니다. 이러한 개념이 모델을 돕는 것입니다. 제2외국어를 배워보세요.

연구 보고서의 저자인 Chen Yihong은 다음과 같이 믿습니다. "우리는 같은 세상에 살고 있으며 동일한 개념을 표현하기 위해 다른 언어로 단어를 사용합니다. 따라서 모델에는 동일한 수준의 추론이 있을 것입니다. 달콤하고 맛있는 사과는 단순한 단어 그 이상을 나타냅니다. "

이미 훈련된 모델에 새로운 언어를 추가하는 것은 "망각 방법"을 사용하여 매우 효율적입니다. 그러나 여전히 재훈련이 필요합니다. 대용량 데이터와 강력한 처리 능력이 필요합니다. 더 좋은 방법이 있나요? 물론 학습할 필요는 없습니다. 임베딩 계층을 지운 다음 다시 학습하면 됩니다. 즉, 초기 학습 중에 임베딩 계층을 주기적으로 재설정하면 됩니다.

Artetxe는 "이런 방식으로 전체 모델이 재설정에 적응할 수 있습니다. 모델을 확장하고 다른 언어에 적용하려는 경우 프로세스가 더 쉬워질 것입니다."

모델을 잊어버리는 것이 더 나은 성능을 발휘합니다

연구원 주기적 망각 기법을 사용하여 훈련된 상대적으로 일반적인 대규모 언어 모델인 Roberta를 실험하고 이를 표준 비망각 방법을 사용하여 훈련된 모델과 비교했습니다. 그 결과, 제1언어 처리 시 망각모델은 85.1점, 전통적 표준모델은 86.1점을 얻은 것으로 나타났다. 약 500만 개의 토큰(제1언어에서는 700억 개가 사용됨)만 사용하여 제2언어로 훈련할 때 망각 모델의 정확도 점수는 62.7점으로 떨어졌고, 표준 모델은 53.3점으로 떨어졌습니다.

연구원들이 재훈련 중에 계산상의 제약을 가하면 망각 모델의 성능이 더 좋아집니다. 예를 들어 연구자들이 훈련 길이를 125,000단계에서 5,000단계로 단축했을 때, 언러닝 모델의 평균 점수는 약 57.8점이었고, 표준 모델은 거의 추측할 수 있을 정도로 37.2점으로 떨어졌습니다.

그래서 연구자들은 언어를 배울 때 망각 모델이 더 잘 수행된다는 결론을 내렸습니다.

Quebec Deep Learning Research Center Mila의 연구원인 Evgenii Nikishin은 다음과 같이 믿습니다. "모델은 훈련 중에 끊임없이 잊어버리고 다시 학습하기 때문에 나중에 네트워크에 새로운 것을 가르치는 것이 더 쉬워질 것입니다. 다양한 징후가 이를 보여줍니다. 개별 단어의 의미보다 더 깊은 수준의 언어입니다.

망각의 방법은 인간 두뇌의 작동 모드와 다소 유사합니다. 샌프란시스코 대학의 신경과학자인 벤자민 레비(Benjamin Levy)는 이렇게 믿습니다. "인간의 기억은 많은 양의 세부 정보를 저장할 때 매우 부정확합니다. 그러나 인간의 두뇌는 경험의 핵심 사항을 기억하고 추상적인 정보를 기억하며 추론에 능숙합니다. AI가 인간처럼 정보를 처리하게 하면 잊어버리는 능력이 생겨 AI가 더 유연해질 수 있습니다.”

Yihong Chen은 미래에는 언어 모델을 제조하는 공장이 나타날 수 있다고 믿습니다. 이러한 공장에는 망각 기술이 필요합니다. 새로운 분야에 빠르게 적응할 수 있는 기본 모델입니다. (칼)

위 내용은 인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제