인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?-일체 포함-php.cn

집

기술 주변기기

일체 포함

인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?

王林

Mar 12, 2024 pm 02:43 PM

일체 포함AI 대형 모델

인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?

최근 컴퓨터 과학자 팀은 기존의 대규모 언어 모델에는 없는 알려진 정보를 주기적으로 잊어버리는 기능을 갖춘 보다 유연하고 탄력적인 기계 학습 모델을 개발했습니다.

실제 측정에 따르면 많은 경우 "망각 방법"이 훈련에 매우 효율적이며 망각 모델이 더 나은 성능을 발휘하는 것으로 나타났습니다. 기초과학연구원의 AI 엔지니어인 권재 씨는 이번 새로운 연구가 AI 분야에서 상당한 진전을 의미한다고 말했습니다.

'망각법' 훈련 효율이 매우 높습니다

현재 주류를 이루는 AI 언어 엔진의 대부분은 인공 신경망 기술을 사용합니다. 이 네트워크 구조의 각 "뉴런"은 실제로 서로 연결되어 정보를 수신하고 전송하며 여러 계층의 뉴런의 복잡한 작동을 통해 데이터 처리 및 학습을 실현합니다. 이러한 신경망 시뮬레이션 방법을 통해 AI는 인간 두뇌의 작동 방식을 시뮬레이션하여 인간과 같은 지능적인 행동을 달성할 수 있습니다.

처음에는 정보 흐름이 다소 무작위입니다. 네트워크가 훈련 데이터와 계속 일치함에 따라 뉴런 사이의 정보 흐름은 계속해서 최적화됩니다. 예를 들어, 연구자가 이중 언어 번역 모델을 훈련하려는 경우 먼저 대량의 이중 언어 텍스트를 수집하고 해당 텍스트를 사용하여 모델을 훈련합니다. 이는 한 언어의 텍스트와 다른 언어의 동등한 텍스트를 비교하기 위해 뉴런 간의 연결을 조정합니다. 효과적인 단어를 연결하세요.

위 교육에는 많은 컴퓨팅 리소스가 필요합니다. 모델의 성능이 좋지 않거나 사용자의 요구 사항이 변경되면 모델이 요구 사항을 충족하지 못할 수도 있습니다.

연구원 Mikel Artetxe는 다음과 같이 지적했습니다. "100개 언어가 포함된 모델이 있지만 하나의 언어가 포함되어 있지 않다고 가정해 보겠습니다. 이 언어를 모델에 추가하려면 재교육해야 합니다.

몇 년 전 Artetxe와 그의 동료들은 언어를 사용하여 신경망을 훈련시켰고, 신경망에 알려진 "토큰"이라는 단어 구성 정보를 삭제했습니다. 토큰은 "임베딩 레이어"라고도 불리는 신경망의 첫 번째 레이어에 저장됩니다. 다른 레이어의 경우 무시하세요. 첫 번째 언어의 토큰을 삭제하고 두 번째 언어로 훈련한 후 새로운 두 번째 언어의 토큰을 임베딩 레이어에 채울 수 있습니다.

모델에 많은 양의 불일치 정보가 포함되어 있지만 여전히 제2언어로 재교육이 가능합니다. 이는 모델이 제2언어를 학습하고 처리할 수 있다는 의미입니다. 연구자들은 임베딩 레이어가 제2 언어의 어휘별 정보를 저장하지만 신경망은 인간 언어의 배후 개념을 포함하는 추상적인 정보를 하위 수준에 저장한다고 믿습니다. 이러한 개념이 모델을 돕는 것입니다. 제2외국어를 배워보세요.

연구 보고서의 저자인 Chen Yihong은 다음과 같이 믿습니다. "우리는 같은 세상에 살고 있으며 동일한 개념을 표현하기 위해 다른 언어로 단어를 사용합니다. 따라서 모델에는 동일한 수준의 추론이 있을 것입니다. 달콤하고 맛있는 사과는 단순한 단어 그 이상을 나타냅니다. "

이미 훈련된 모델에 새로운 언어를 추가하는 것은 "망각 방법"을 사용하여 매우 효율적입니다. 그러나 여전히 재훈련이 필요합니다. 대용량 데이터와 강력한 처리 능력이 필요합니다. 더 좋은 방법이 있나요? 물론 학습할 필요는 없습니다. 임베딩 계층을 지운 다음 다시 학습하면 됩니다. 즉, 초기 학습 중에 임베딩 계층을 주기적으로 재설정하면 됩니다.

Artetxe는 "이런 방식으로 전체 모델이 재설정에 적응할 수 있습니다. 모델을 확장하고 다른 언어에 적용하려는 경우 프로세스가 더 쉬워질 것입니다."

모델을 잊어버리는 것이 더 나은 성능을 발휘합니다

연구원 주기적 망각 기법을 사용하여 훈련된 상대적으로 일반적인 대규모 언어 모델인 Roberta를 실험하고 이를 표준 비망각 방법을 사용하여 훈련된 모델과 비교했습니다. 그 결과, 제1언어 처리 시 망각모델은 85.1점, 전통적 표준모델은 86.1점을 얻은 것으로 나타났다. 약 500만 개의 토큰(제1언어에서는 700억 개가 사용됨)만 사용하여 제2언어로 훈련할 때 망각 모델의 정확도 점수는 62.7점으로 떨어졌고, 표준 모델은 53.3점으로 떨어졌습니다.

연구원들이 재훈련 중에 계산상의 제약을 가하면 망각 모델의 성능이 더 좋아집니다. 예를 들어 연구자들이 훈련 길이를 125,000단계에서 5,000단계로 단축했을 때, 언러닝 모델의 평균 점수는 약 57.8점이었고, 표준 모델은 거의 추측할 수 있을 정도로 37.2점으로 떨어졌습니다.

그래서 연구자들은 언어를 배울 때 망각 모델이 더 잘 수행된다는 결론을 내렸습니다.

Quebec Deep Learning Research Center Mila의 연구원인 Evgenii Nikishin은 다음과 같이 믿습니다. "모델은 훈련 중에 끊임없이 잊어버리고 다시 학습하기 때문에 나중에 네트워크에 새로운 것을 가르치는 것이 더 쉬워질 것입니다. 다양한 징후가 이를 보여줍니다. 개별 단어의 의미보다 더 깊은 수준의 언어입니다.

망각의 방법은 인간 두뇌의 작동 모드와 다소 유사합니다. 샌프란시스코 대학의 신경과학자인 벤자민 레비(Benjamin Levy)는 이렇게 믿습니다. "인간의 기억은 많은 양의 세부 정보를 저장할 때 매우 부정확합니다. 그러나 인간의 두뇌는 경험의 핵심 사항을 기억하고 추상적인 정보를 기억하며 추론에 능숙합니다. AI가 인간처럼 정보를 처리하게 하면 잊어버리는 능력이 생겨 AI가 더 유연해질 수 있습니다.”

Yihong Chen은 미래에는 언어 모델을 제조하는 공장이 나타날 수 있다고 믿습니다. 이러한 공장에는 망각 기술이 필요합니다. 새로운 분야에 빠르게 적응할 수 있는 기본 모델입니다. (칼)

위 내용은 인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL에서 열을 추가하는 방법? - 분석 VidhyaApr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

비즈니스 분석가 대 데이터 분석가Apr 17, 2025 am 11:38 AM

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel의 Count와 Counta는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:34 AM

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Apr 17, 2025 am 11:29 AM

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

AI '의 인간 측면 : 웰빙과 4 배의 결론Apr 17, 2025 am 11:28 AM

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.Apr 17, 2025 am 11:24 AM

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는