충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 05:01 PM

ai모델

최근 GPT를 뒤로한 듯한 OpenAI가 새로운 삶을 시작했습니다.

레이블이 지정되지 않은 대규모 비디오와 약간의 레이블이 지정된 데이터로 훈련한 후 AI는 마침내 Minecraft에서 다이아몬드 곡괭이를 만드는 방법을 배웠습니다.

하드코어 플레이어라면 전체 프로세스를 완료하는 데 최소 20분이 걸리고 총 24,000번의 작업이 필요합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이건 간단한 것 같지만 AI에게는 매우 어렵습니다.

7세 어린이도 10분이면 배울 수 있습니다

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

가장 간단한 나무 따기의 경우, 인간 플레이어가 처음부터 과정을 배우는 것은 그리 어렵지 않습니다.

너드는 영상 하나로 3분도 안 되어 다음 사람을 가르칠 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

시연 영상의 길이는 2분 52초입니다

다이아몬드 픽을 만드는 것은 훨씬 더 복잡합니다.

그래도 7살 아이는 10분 정도의 시연 영상만 봐도 배울 수 있어요.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이 미션의 난이도는 주로 다이아몬드 광산을 파는 방법입니다.

과정은 대략 12단계로 요약할 수 있습니다. 먼저 맨손으로 픽셀 블록 "나무"를 계획한 다음 통나무에서 나무 블록을 합성하고, 나무 블록을 사용하여 나무 막대기를 만들고, 나무 막대기를 사용하여 작업대 장비 테이블을 만들고, 작업대를 사용하여 나무 곡괭이를 만드세요. 나무 곡괭이를 사용하여 돌을 두드리고, 나무 막대에 돌을 추가하여 돌 곡괭이를 만들고, 돌 곡괭이를 사용하여 화로를 만들고, 화로는 철광석을 처리합니다. 철광석은 녹아 철괴가 되고, 철괴는 철곡괭이를 만들고, 철곡괭이는 다이아몬드를 파냅니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이제 압력은 AI 측에 있습니다.

공교롭게도 CMU, OpenAI, DeepMind, Microsoft Research 및 기타 기관에서는 2019년부터 관련 대회인 MineRL을 시작했습니다.

참가자는 "도구를 처음부터 만들고 자동으로 다이아몬드 광산을 찾아 채굴"할 수 있는 인공 지능 에이전트를 개발해야 합니다. 승리 조건도 매우 간단합니다. 가장 빠른 사람이 승리합니다.

결과는 어땠나요?

첫 번째 MineRL 대회가 끝난 후 "7살 아이가 10분짜리 영상을 보고 배웠는데, 800만 걸음을 걸어도 AI가 알아내지 못했습니다." 네이처 매거진에 게재되었습니다.

데이터가 많아도 못쓰겠다

샌드박스 구축 게임인 "마인크래프트"는 특히 플레이어 전략의 개방성이 높고, 다양한 AI 모델 학습과 의사결정에 적합합니다. 게임 내 가상 환경은 능력을 시험하는 장소이자 시금석입니다.

그리고 '국가급' 게임인 만큼 온라인에서도 '마인크래프트' 관련 영상을 쉽게 찾아볼 수 있습니다.

그러나 튜토리얼을 작성하든 자신의 작업을 과시하든 어느 정도는 화면에 표시된 결과일 뿐입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

즉, 영상을 보는 사람들은 업 리더가 무엇을 했는지, 어떻게 했는지만 알 수 있을 뿐, 어떻게 했는지는 알 길이 없습니다.

좀 더 구체적으로 말하면 컴퓨터 화면에 보이는 것은 결과일 뿐이고, 조작 단계는 업 소유자가 계속해서 키보드를 클릭하고 마우스를 계속해서 움직이는 부분입니다.

이 과정마저도 편집이 되어서 AI는 커녕, 보고 나면 배우지도 못할 것 같아요.

설상가상으로 많은 플레이어들은 게임에서 나무를 대패질하는 것이 숙제를 하고 작업을 완료하는 것과 너무 비슷해서 지루하다고 불평합니다. 그 결과, 일련의 업데이트 이후에는 무료로 선택할 수 있는 도구가 많이 생겼습니다... 이제는 데이터조차 찾기가 어렵습니다.

OpenAI가 AI에게 "마인크래프트" 플레이 방법을 배우게 하려면 라벨이 지정되지 않은 대규모 비디오 데이터를 사용할 수 있는 방법을 찾아야 합니다.

동영상 사전 훈련 모델 - VPT

그래서 VPT가 탄생했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

페이퍼 주소: https://cdn.openai.com/vpt/Paper.pdf

이건 새롭지만, 복잡하지 않습니다. 감독 모방 학습 방법.

먼저 비디오, 키보드, 마우스 조작 기록 등 아웃소싱 업체가 플레이한 데이터에 주석을 달기 위해 일련의 데이터를 수집합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

VPT 방법 개요

그런 다음 연구원들은 이러한 데이터를 사용하여 쥐가 어떻게 행동하는지 비디오의 각 단계의 핵심을 추론할 수 있는 역동역학 모델(IDM)을 만들었습니다. 이동하다?

이렇게 하면 전체 작업이 훨씬 단순해지고 목표를 달성하는 데 훨씬 적은 양의 데이터만 필요합니다.

소량의 아웃소싱 데이터로 IDM을 완성한 후 IDM을 사용하여 레이블이 없는 더 큰 데이터 세트에 레이블을 지정할 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

기본 모델 훈련 데이터가 미세 조정에 미치는 영향

70,000시간의 훈련 후에 OpenAI의 행동 복제 모델은 다른 모델이 할 수 없는 다양한 작업을 달성할 수 있습니다.

모델은 나무를 자르고 나무를 모으는 방법, 나무를 사용하여 나무 띠를 만드는 방법, 나무 띠를 사용하여 테이블을 만드는 방법을 배웠습니다. 이러한 일련의 작업을 수행하려면 상대적으로 숙련된 플레이어가 50초 미만 동안 작동해야 합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

모델은 테이블을 만드는 것 외에도 수영, 사냥, 식사도 할 수 있습니다.

"달리기, 점프하기, 건물 짓기"라는 멋진 조작도 있습니다. 즉, 이륙할 때 발 밑에 벽돌이나 나무 블록을 놓고 점프하면서 기둥을 세울 수 있다는 것입니다. 하드코어 플레이어에게는 필수 코스입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

테이블 만들기(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

사냥(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

"달리고 점프하기" 심플 버전(0샷)

For 모델이 좀 더 세부적인 작업을 완료할 수 있도록 데이터 세트는 일반적으로 더 작은 크기로 미세 조정되고 작은 방향을 구별합니다.

OpenAI는 VPT로 훈련된 모델이 미세 조정 후 다운스트림 데이터 세트에 얼마나 잘 적응할 수 있는지 보여주는 연구를 수행했습니다.

연구원들은 사람들을 초대하여 "마인크래프트"를 10분 동안 플레이하고 기본 재료를 사용하여 집을 짓도록 했습니다. 그들은 이러한 방식으로 작업대 건설과 같은 일부 초기 게임 작업을 수행하는 모델의 능력을 향상시킬 수 있기를 바라고 있습니다.

데이터 세트를 미세 조정한 후 연구원들은 모델이 초기 작업을 수행하는 데 더 효율적이라는 것을 발견했을 뿐만 아니라 모델 자체가 나무 작업대와 나무 작업대를 만드는 방법을 이해하고 있음을 발견했습니다. .

때로는 모델이 스스로 투박한 대피소를 짓고, 마을을 수색하고, 상자를 약탈하는 모습도 연구자들이 볼 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽을 만드는 전체 과정 (아래 표시된 시간은 숙련된 플레이어가 동일한 작업을 수행하는 데 걸리는 시간입니다)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽 만들기

그럼 OpenAI 전문가들이 어떻게 미세 조정했는지 살펴보겠습니다.

그들이 사용하는 방법은 강화 학습(RL)입니다.

대부분의 RL 방법은 확률론적으로 사전 조사를 통해 이러한 문제를 해결합니다. 즉, 모델은 종종 엔트로피를 통해 무작위 행동에 보상하도록 인센티브를 받습니다. VPT 모델은 인간 행동을 시뮬레이션하는 것이 무작위 조치를 취하는 것보다 더 도움이 될 수 있으므로 RL에 대한 더 나은 이전 모델이어야 합니다.

연구원들은 Minecraft에서 이전에는 볼 수 없었던 기능인 다이아몬드 곡괭이를 수집하는 힘든 작업을 위한 모델을 설정했습니다. 기본 인간-기계 인터페이스를 사용할 때 전체 작업을 수행하는 것이 훨씬 더 어렵기 때문입니다.

다이아몬드 곡괭이를 제작하려면 길고 복잡한 일련의 하위 작업이 필요합니다. 이 작업을 다루기 쉽게 만들기 위해 연구원들은 시퀀스의 각 항목에 대해 에이전트에게 보상을 제공했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

그들은 무작위 초기화(표준 RL 접근 방식)로 훈련된 RL 정책이 거의 보상을 받지 못했고 로그 수집 방법을 배우지 않았으며 스틱을 거의 수집하지 않는다는 것을 발견했습니다.

완전히 대조적으로 VPT 모델은 다이아몬드 곡괭이 제작 방법을 배울 수 있을 뿐만 아니라 모든 아이템 수집에서 인간 수준의 성공도 달성할 수 있도록 미세 조정되었습니다.

그리고 누군가가 "마인크래프트"에서 다이아몬드 도구를 만들 수 있는 컴퓨터 모델을 보여준 것은 이번이 처음입니다.

위 내용은 충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

从VAE到扩散模型：一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后，OpenAI在今年春天带了续作DALL·E 2，以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来，随着生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion models）的出现，深度学习已向世人展现其强大的图像生成能力；加上GPT-3、BERT等NLP模型的成功，人类正逐步打破文本和图像的信息界限。在DALL·E 2中，只需输入简单的文本（prompt），它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦：如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。陈丹琦普

解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。基于此，来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看，

Stable Diffusion XL 现已推出—有什么新功能，你知道吗？Apr 07, 2023 pm 11:21 PM

3月27号，Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布，Stable Diffusion XL 现已可用于公开测试。以下是一些事项：“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告，名称将会更改。与先前版本相比，图像质量有所提高与先前版本相比，图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

什么是Transformer机器学习模型？Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟近年来， Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来，Transformer 架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍！十二家机构联合发表88页长文：「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业，如果没有高性能计算设备，别说开发基础模型，就连微调模型都做不到。但如果只靠拼硬件，单靠当前计算性能的发展速度，迟早有一天无法满足日益膨胀的需求，所以还需要配套的软件来协调统筹计算能力，这时候就需要用到「智能计算」技术。最近，来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文，首次对智能计算领域进行了全面的调研，涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接：https://spj.scien

AI模型告诉你，为啥巴西最可能在今年夺冠！曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红，一定非「章鱼保罗」莫属！这只位于德国海洋生物中心的神奇章鱼，不仅成功预测了德国队全部七场比赛的结果，还顺利地选出了最终的总冠军西班牙队。不幸的是，保罗已经永远地离开了我们，但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所（The Alan Turing Institute），随着2022年卡塔尔世界杯的持续进行，三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.