>기술 주변기기 >일체 포함 >충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

WBOY
WBOY앞으로
2023-04-09 17:01:041585검색

최근 GPT를 뒤로한 듯한 OpenAI가 새로운 삶을 시작했습니다.

레이블이 지정되지 않은 대규모 비디오와 약간의 레이블이 지정된 데이터로 훈련한 후 AI는 마침내 Minecraft에서 다이아몬드 곡괭이를 만드는 방법을 배웠습니다.

하드코어 플레이어라면 전체 프로세스를 완료하는 데 최소 20분이 걸리고 총 24,000번의 작업이 필요합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이건 간단한 것 같지만 AI에게는 매우 어렵습니다.

7세 어린이도 10분이면 배울 수 있습니다

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

가장 간단한 나무 따기의 경우, 인간 플레이어가 처음부터 과정을 배우는 것은 그리 어렵지 않습니다.

너드는 영상 하나로 3분도 안 되어 다음 사람을 가르칠 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

시연 영상의 길이는 2분 52초입니다

다이아몬드 픽을 만드는 것은 훨씬 더 복잡합니다.

그래도 7살 아이는 10분 정도의 시연 영상만 봐도 배울 수 있어요.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이 미션의 난이도는 주로 다이아몬드 광산을 파는 방법입니다.

과정은 대략 12단계로 요약할 수 있습니다. 먼저 맨손으로 픽셀 블록 "나무"를 계획한 다음 통나무에서 나무 블록을 합성하고, 나무 블록을 사용하여 나무 막대기를 만들고, 나무 막대기를 사용하여 작업대 장비 테이블을 만들고, 작업대를 사용하여 나무 곡괭이를 만드세요. 나무 곡괭이를 사용하여 돌을 두드리고, 나무 막대에 돌을 추가하여 돌 곡괭이를 만들고, 돌 곡괭이를 사용하여 화로를 만들고, 화로는 철광석을 처리합니다. 철광석은 녹아 철괴가 되고, 철괴는 철곡괭이를 만들고, 철곡괭이는 다이아몬드를 파냅니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이제 압력은 AI 측에 있습니다.

공교롭게도 CMU, OpenAI, DeepMind, Microsoft Research 및 기타 기관에서는 2019년부터 관련 대회인 MineRL을 시작했습니다.

참가자는 "도구를 처음부터 만들고 자동으로 다이아몬드 광산을 찾아 채굴"할 수 있는 인공 지능 에이전트를 개발해야 합니다. 승리 조건도 매우 간단합니다. 가장 빠른 사람이 승리합니다.

결과는 어땠나요?

첫 번째 MineRL 대회가 끝난 후 "7살 아이가 10분짜리 영상을 보고 배웠는데, 800만 걸음을 걸어도 AI가 알아내지 못했습니다." 네이처 매거진에 게재되었습니다.

데이터가 많아도 못쓰겠다

샌드박스 구축 게임인 "마인크래프트"는 특히 플레이어 전략의 개방성이 높고, 다양한 AI 모델 학습과 의사결정에 적합합니다. 게임 내 가상 환경은 능력을 시험하는 장소이자 시금석입니다.

그리고 '국가급' 게임인 만큼 온라인에서도 '마인크래프트' 관련 영상을 쉽게 찾아볼 수 있습니다.

그러나 튜토리얼을 작성하든 자신의 작업을 과시하든 어느 정도는 화면에 표시된 결과일 뿐입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

즉, 영상을 보는 사람들은 업 리더가 무엇을 했는지, 어떻게 했는지만 알 수 있을 뿐, 어떻게 했는지는 알 길이 없습니다.

좀 더 구체적으로 말하면 컴퓨터 화면에 보이는 것은 결과일 뿐이고, 조작 단계는 업 소유자가 계속해서 키보드를 클릭하고 마우스를 계속해서 움직이는 부분입니다.

이 과정마저도 편집이 되어서 AI는 커녕, 보고 나면 배우지도 못할 것 같아요.

설상가상으로 많은 플레이어들은 게임에서 나무를 대패질하는 것이 숙제를 하고 작업을 완료하는 것과 너무 비슷해서 지루하다고 불평합니다. 그 결과, 일련의 업데이트 이후에는 무료로 선택할 수 있는 도구가 많이 생겼습니다... 이제는 데이터조차 찾기가 어렵습니다.

OpenAI가 AI에게 "마인크래프트" 플레이 방법을 배우게 하려면 라벨이 지정되지 않은 대규모 비디오 데이터를 사용할 수 있는 방법을 찾아야 합니다.

동영상 사전 훈련 모델 - VPT

그래서 VPT가 탄생했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

페이퍼 주소: https://cdn.openai.com/vpt/Paper.pdf

이건 새롭지만, 복잡하지 않습니다. 감독 모방 학습 방법.

먼저 비디오, 키보드, 마우스 조작 기록 등 아웃소싱 업체가 플레이한 데이터에 주석을 달기 위해 일련의 데이터를 수집합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

VPT 방법 개요

그런 다음 연구원들은 이러한 데이터를 사용하여 쥐가 어떻게 행동하는지 비디오의 각 단계의 핵심을 추론할 수 있는 역동역학 모델(IDM)을 만들었습니다. 이동하다?

이렇게 하면 전체 작업이 훨씬 단순해지고 목표를 달성하는 데 훨씬 적은 양의 데이터만 필요합니다.

소량의 아웃소싱 데이터로 IDM을 완성한 후 IDM을 사용하여 레이블이 없는 더 큰 데이터 세트에 레이블을 지정할 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

기본 모델 훈련 데이터가 미세 조정에 미치는 영향

70,000시간의 훈련 후에 OpenAI의 행동 복제 모델은 다른 모델이 할 수 없는 다양한 작업을 달성할 수 있습니다.

모델은 나무를 자르고 나무를 모으는 방법, 나무를 사용하여 나무 띠를 만드는 방법, 나무 띠를 사용하여 테이블을 만드는 방법을 배웠습니다. 이러한 일련의 작업을 수행하려면 상대적으로 숙련된 플레이어가 50초 미만 동안 작동해야 합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

모델은 테이블을 만드는 것 외에도 수영, 사냥, 식사도 할 수 있습니다.

"달리기, 점프하기, 건물 짓기"라는 멋진 조작도 있습니다. 즉, 이륙할 때 발 밑에 벽돌이나 나무 블록을 놓고 점프하면서 기둥을 세울 수 있다는 것입니다. 하드코어 플레이어에게는 필수 코스입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

테이블 만들기(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

사냥(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

"달리고 점프하기" 심플 버전(0샷)

For 모델이 좀 더 세부적인 작업을 완료할 수 있도록 데이터 세트는 일반적으로 더 작은 크기로 미세 조정되고 작은 방향을 구별합니다.

OpenAI는 VPT로 훈련된 모델이 미세 조정 후 다운스트림 데이터 세트에 얼마나 잘 적응할 수 있는지 보여주는 연구를 수행했습니다.

연구원들은 사람들을 초대하여 "마인크래프트"를 10분 동안 플레이하고 기본 재료를 사용하여 집을 짓도록 했습니다. 그들은 이러한 방식으로 작업대 건설과 같은 일부 초기 게임 작업을 수행하는 모델의 능력을 향상시킬 수 있기를 바라고 있습니다.

데이터 세트를 미세 조정한 후 연구원들은 모델이 초기 작업을 수행하는 데 더 효율적이라는 것을 발견했을 뿐만 아니라 모델 자체가 나무 작업대와 나무 작업대를 만드는 방법을 이해하고 있음을 발견했습니다. .

때로는 모델이 스스로 투박한 대피소를 짓고, 마을을 수색하고, 상자를 약탈하는 모습도 연구자들이 볼 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽을 만드는 전체 과정 (아래 표시된 시간은 숙련된 플레이어가 동일한 작업을 수행하는 데 걸리는 시간입니다)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽 만들기

그럼 OpenAI 전문가들이 어떻게 미세 조정했는지 살펴보겠습니다.

그들이 사용하는 방법은 강화 학습(RL)입니다.

대부분의 RL 방법은 확률론적으로 사전 조사를 통해 이러한 문제를 해결합니다. 즉, 모델은 종종 엔트로피를 통해 무작위 행동에 보상하도록 인센티브를 받습니다. VPT 모델은 인간 행동을 시뮬레이션하는 것이 무작위 조치를 취하는 것보다 더 도움이 될 수 있으므로 RL에 대한 더 나은 이전 모델이어야 합니다.

연구원들은 Minecraft에서 이전에는 볼 수 없었던 기능인 다이아몬드 곡괭이를 수집하는 힘든 작업을 위한 모델을 설정했습니다. 기본 인간-기계 인터페이스를 사용할 때 전체 작업을 수행하는 것이 훨씬 더 어렵기 때문입니다.

다이아몬드 곡괭이를 제작하려면 길고 복잡한 일련의 하위 작업이 필요합니다. 이 작업을 다루기 쉽게 만들기 위해 연구원들은 시퀀스의 각 항목에 대해 에이전트에게 보상을 제공했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

그들은 무작위 초기화(표준 RL 접근 방식)로 훈련된 RL 정책이 거의 보상을 받지 못했고 로그 수집 방법을 배우지 않았으며 스틱을 거의 수집하지 않는다는 것을 발견했습니다.

완전히 대조적으로 VPT 모델은 다이아몬드 곡괭이 제작 방법을 배울 수 있을 뿐만 아니라 모든 아이템 수집에서 인간 수준의 성공도 달성할 수 있도록 미세 조정되었습니다.

그리고 누군가가 "마인크래프트"에서 다이아몬드 도구를 만들 수 있는 컴퓨터 모델을 보여준 것은 이번이 처음입니다.

위 내용은 충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제