찾다
기술 주변기기일체 포함트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?

​이세돌, 커제 등 국제 체스 최고 선수들을 물리친 알파고가 총 3번의 반복을 했다는 사실은 많은 분들이 알고 계십니다. 바로 이세돌을 물리친 1세대 알파고 리, 커를 물리친 2세대 알파고 마스터입니다. 지에와 이세돌을 물리친 2세대 알파고 마스터. 3세대 알파고 제로의 첫 2세대를 물리쳤다.

알파고의 체스 실력은 세대를 거듭할수록 향상될 수 있습니다. 그 이면에는 강화학습의 비중이 늘어나고 있는 AI 기술의 명백한 추세가 있습니다.

최근 강화 학습은 또 다른 '진화'를 겪었습니다. 사람들은 이를 '진화한' 강화 학습이라고 부릅니다.

그러나 심층 강화 학습 에이전트의 샘플 효율성이 낮아 실제 문제에서의 적용이 크게 제한됩니다.

최근에는 이 문제를 해결하기 위해 많은 모델 기반 방법이 고안되었으며, 세계 모델의 상상력을 학습하는 것이 가장 대표적인 방법 중 하나입니다.

그러나 시뮬레이션된 환경과 거의 무제한으로 상호 작용하는 것이 매력적으로 들리지만 세계 모델은 오랜 기간 동안 정확성을 유지해야 합니다.

시퀀스 모델링 작업에서 Transformer의 성공에 영감을 받아 Cornell University의 Vincent Micheli, Eloy Alonso 및 François Flure는 개별 자동 인코더와 자동 회귀 Transformer로 구성된 월드 모델에서 학습하는 데이터 효율적인 에이전트인 IRIS를 소개했습니다.

Atari 100k 벤치마크에서 IRIS는 단 2시간의 게임 플레이에 해당하는 평균 인간 표준화 점수 1.046을 달성했으며 26개 게임 중 10개 게임에서 인간보다 나은 성능을 보였습니다.

이전에 르쿤은 강화학습이 막다른 골목으로 이어질 것이라고 말한 적이 있습니다.

트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?

이제 코넬 대학의 Vincent Micheli, Eloy Alonso, Francois Flure 등이 세계 모델을 강화 학습(더 정확하게 말하면 심층 강화 학습)과 결합하고 있는 것 같습니다. 둘은 트랜스포머입니다.

심층강화학습의 차이점은 무엇인가요

인공지능 기술이라고 하면 많은 사람들이 떠올리는 것이 딥러닝입니다.

실제로 AI 분야에서는 딥러닝이 여전히 활발히 진행되고 있지만 많은 문제점을 노출해왔습니다.

현재 가장 일반적으로 사용되는 딥러닝 방법은 지도 학습입니다. 지도 학습은 "참조 답변을 통한 학습"으로 이해될 수 있습니다. 그 특징 중 하나는 데이터를 훈련에 사용하기 전에 레이블을 지정해야 한다는 것입니다. 하지만 지금은 많은 양의 데이터가 라벨이 지정되지 않은 데이터이고 라벨링 비용이 매우 높습니다.

이런 상황에 대해 어떤 사람들은 "인공지능만큼 지능도 있다"고 농담을 하기도 했습니다.

많은 전문가를 포함한 많은 연구자들이 딥러닝이 '잘못'되었는지 반성하고 있습니다.

그래서 강화학습이 상승하기 시작했습니다.

강화 학습은 지도 학습, 비지도 학습과 다릅니다. 에이전트를 사용하여 지속적으로 시행 착오를 수행하고 시행 착오 결과에 따라 AI에 보상과 처벌을 가합니다. 다양한 체스와 카드 AI, 게임 AI를 만드는 DeepMind의 방식입니다. 이 경로를 믿는 사람들은 보상 인센티브가 올바르게 설정되는 한 강화 학습이 결국 실제 AGI를 생성할 것이라고 믿습니다.

그러나 강화 학습에도 문제가 있습니다. LeCun의 말에 따르면 "강화 학습은 가장 간단한 작업을 수행하기 위해 모델을 훈련시키기 위해 엄청난 양의 데이터가 필요합니다."

그래서 강화 학습과 딥 러닝이 결합되어 심층 강화 학습이 되었습니다.

심층 강화 학습, 강화 학습은 뼈대, 딥 러닝은 영혼이라는 뜻인가요? 심층 강화 학습의 주요 작동 메커니즘은 이 프로세스를 완료하는 데 심층 신경망이 사용된다는 점을 제외하면 기본적으로 강화 학습과 동일합니다.

게다가 일부 심층 강화 학습 알고리즘은 기존 강화 학습 알고리즘에 심층 신경망을 추가하여 새로운 심층 강화 학습 알고리즘 세트를 구현하는 데 매우 유명한 심층 강화 학습 알고리즘인 DQN이 그 대표적인 예입니다.

Transformers의 마법 같은 점

Transformers는 2017년에 처음 등장했으며 Google의 논문 "Attention is All You Need"에서 제안되었습니다.

Transformer가 등장하기 전에는 언어 작업에 대한 인공지능의 발전이 다른 분야의 발전에 비해 뒤쳐져 있었습니다. 매사추세츠 대학교 로웰(University of Massachusetts Lowell)의 컴퓨터 과학자인 Anna Rumshisky는 "자연어 처리는 지난 10년 동안 일어난 딥 러닝 혁명의 후발주자였습니다. 어떤 의미에서 NLP는 컴퓨터 비전인 Transformer보다 뒤쳐졌습니다."라고 말했습니다.

최근 몇 년 동안 Transformer 기계 학습 모델은 딥 러닝 및 심층 신경망 기술 발전의 주요 특징 중 하나가 되었습니다. 주로 자연어 처리 분야의 고급 응용 프로그램에 사용됩니다. Google은 검색 엔진 결과를 향상시키기 위해 이를 사용하고 있습니다.

Transformer는 텍스트 분석 및 예측에 초점을 맞춘 단어 인식과 같은 애플리케이션 분야에서 빠르게 선두주자가 되었습니다. 이는 수천억 개의 단어를 학습하고 일관된 새 텍스트를 생성할 수 있는 OpenAI의 GPT-3와 같은 도구의 물결을 촉발시켰습니다.

현재 Transformer 아키텍처는 계속해서 진화하고 다양한 변형으로 확장되어 언어 작업에서 다른 도메인으로 확장됩니다. 예를 들어 Transformer는 시계열 예측에 사용되었으며 DeepMind의 단백질 구조 예측 모델 AlphaFold의 핵심 혁신이기도 합니다.

Transformers도 최근 컴퓨터 비전 분야에 진출하여 많은 복잡한 작업에서 CNN(컨벌루션 신경망)을 서서히 대체하고 있습니다.

월드 모델과 트랜스포머가 힘을 합쳤는데, 다른 사람들은 어떻게 생각합니까? 코넬 대학의 연구 결과에 대해 일부 외국 네티즌은 다음과 같이 말했습니다. "이 2시간은 GPU 트레이닝에서 수행되는 환경에서 촬영하는 시간입니다. 주."

어떤 사람들은 다음과 같이 질문하기도 합니다. 그렇다면 이 시스템은 특히 정확한 기본 세계 모델을 학습하는 걸까요? 모델에 사전 학습이 필요하지 않나요?

또한 일부 사람들은 코넬 대학의 Vincent Micheli와 다른 사람들의 결과가 획기적인 돌파구가 아니라고 생각합니다. "그들은 세계 모델, vqvae 및 배우 평론가만을 훈련시킨 것 같습니다. 모두 그 2시간 재생 버퍼의 경험(및 약 600 신기원)".

참조: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/​

위 내용은 트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
에이전트 래그 시스템이 기술을 어떻게 변화시킬 수 있습니까?에이전트 래그 시스템이 기술을 어떻게 변화시킬 수 있습니까?Apr 12, 2025 am 09:21 AM

소개 인공 지능은 새로운 시대에 들어 왔습니다. 모델이 사전 정의 된 규칙에 따라 정보를 단순히 출력하는 시대는 지났습니다. 오늘 AI의 최첨단 접근 방식은 Rag를 중심으로 진행됩니다 (검색-augmente

자동 생성 쿼리에 대한 SQL 어시스턴트자동 생성 쿼리에 대한 SQL 어시스턴트Apr 12, 2025 am 09:13 AM

단순히 데이터베이스와 대화하고, 일반 언어로 질문을하고, 복잡한 SQL 쿼리를 작성하거나 스프레드 시트를 정렬하지 않고 즉각적인 답변을받을 수 있기를 바랐습니까? Langchain의 SQL 툴킷으로 Groq a

AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

파이썬의 Scipy 라이브러리 이해파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaLLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.