인공지능 분야의 다음 개발 기회는 AI 모델에 '몸'을 장착하고 현실 세계와 상호작용하여 학습하는 것일 수도 있습니다.
특정 환경에서 수행되는 자연어 처리, 컴퓨터 비전 등의 기존 작업에 비해 개방 분야의 로봇 기술은 확실히 더 어렵습니다.
예를 들어, 프롬프트 기반 학습을 사용하면 단일 언어 모델이 프롬프트 수정만으로 코드 작성, 초록 작성, 질문 및 답변과 같은 모든 자연어 처리 작업을 수행할 수 있습니다.
그러나 로봇 공학에는 단일 샘플 시연을 모방하거나, 언어 지침을 따르거나, 특정 시각적 목표를 달성하는 등 더 많은 유형의 작업 사양이 있습니다. 이러한 작업은 일반적으로 다른 작업으로 간주되며 에 의해 특별히 훈련됩니다. 모델 이를 처리하려면.
최근 NVIDIA, Stanford University, Macalester College, Caltech, Tsinghua University 및 Austin에 있는 Texas University의 연구원들은 다중 양식을 활용하는 Transformer 기반 범용 로봇 에이전트 VIMA를 공동으로 제안했습니다. 매우 높은 일반화 성능으로 수많은 로봇 작동 작업을 처리할 수 있습니다.
논문 링크: https://arxiv.org/abs/2210.03094
프로젝트 링크: https://vimalabs.github.io/
코드 링크: https://github.com/vimalabs/VIMA
입력 프롬프트는 인터리브 텍스트 및 시각적 기호입니다.
VIMA를 교육하고 평가하기 위해 연구원들은 다중 모달 프롬프트가 포함된 수천 개의 절차적으로 생성된 데스크톱 작업과 600,000개 이상의 전문가 궤적을 포함하는 새로운 시뮬레이션 벤치마크 데이터세트를 제안합니다. 모델은 4개 레벨으로 평가됩니다.
동일한 크기의 모델과 동일한 양의 훈련 데이터를 사용하여 가장 어려운 제로샷 일반화 설정에서 VIMA의 성공률은 현재 sota 방법의 2.9배입니다.
학습 데이터가 10배 감소하더라도 VIMA는 여전히 다른 방법보다 2.7배 더 나은 성능을 발휘합니다.현재 모든 코드, 사전 훈련된 모델, 데이터 세트 및 시뮬레이션 벤치마크는
완전한 오픈 소스입니다.
논문의 첫 번째 저자는 스탠포드 대학교 석사 2년차이자 현재 NVIDIA 연구소에서 인턴으로 근무하고 있는Yunfan Jiang입니다. 2020년 에든버러 대학교를 졸업했습니다. 그의 주요 연구방향은 환경과의 상호작용을 통해 학습하는 구체화된 인공지능(embodied AI)이다. 구체적인 연구 내용은 대규모 기본 모델을 사용하여 개방형 구현 에이전트를 구현하는 방법입니다. 이 논문에는 두 명의 멘토가 포함되어 있으며 둘 다 Li Feifei의 전 학생이었습니다.
Zhu Yuke는 저장대학교에서 학사 학위를 취득하고 캐나다 저장대학교와 사이먼 프레이저 대학교에서 이중 학위를 받았습니다. 석사 및 박사 과정 학생들은 스탠포드 대학에서 리 페이페이(Li Feifei) 지도 아래 공부하고 2019년 8월에 박사 학위를 취득했습니다. Zhu Yuke는 현재 UT 오스틴 컴퓨터 과학과 조교수, 로봇 인식 및 학습 연구소 소장, NVIDIA 연구소 선임 연구 과학자입니다.
Fan Linxi는 스탠포드 대학교에서 박사 학위를 취득하고 Li Feifei 밑에서 공부했으며 현재 NVIDIA AI의 연구 과학자입니다. 주요 연구 방향은 일반적으로 유능한 자율 에이전트를 개발하는 것입니다. 구체적인 연구 작업은 기본 모델, 정책 학습, 로봇 공학, 다중 모드 학습 및 대규모 시스템을 다루고 있습니다.
Transformer는 NLP 분야의 멀티 태스킹에서 매우 높은 성능을 달성했습니다. 하나의 모델만 질문 및 답변, 기계 번역, 텍스트 요약 등을 동시에 완료할 수 있습니다.
다양한 작업을 구현하기 위한 인터페이스는 입력 텍스트 프롬프트에 있으므로 특정 작업 요구 사항을 일반 대형 모델에 전달합니다.
이 프롬프트 인터페이스를 일반 로봇 에이전트에서도 사용할 수 있나요?
가사 로봇의 경우 이상적으로는 Bring it to me만 입력하면 로봇이 그림에 따라 컵을 가져올 수 있습니다.
로봇이 새로운 기술을 배워야 할 때는 비디오 데모를 입력하여 배우는 것이 가장 좋습니다. 로봇이 낯선 물체와 상호작용해야 하는 경우, 그림만으로도 쉽게 설명할 수 있습니다.
동시에 안전한 배포를 보장하기 위해 사용자는 Do not enter the room
과 같은 시각적 제약 조건을 추가로 지정할 수 있습니다. 이러한 기능을 달성하기 위해 VIMA 모델은 주로 세 부분으로 구성됩니다: 공식 다중 모드 프롬프트
, 로봇 조작 작업을 시퀀스 모델링 문제로 변환2 다중 작업 작업이 가능한 새로운 로봇 에이전트 모델
3. 에이전트의 확장성과 일반성을 체계적으로 평가하기 위한 작업의 다양한 대규모 벤치마크를 갖춘 새로운 로봇 에이전트 모델
첫째, 다중 모드 프롬프트가 제공하는 유연성을 통해 개발자는 단일 에이전트를 지정하고 구축할 수 있습니다. 다수의 Task 사양을 지원하는 모델에서 본 논문에서는 주로 6가지 유형의 작업을 고려합니다:
1, Simple object 조작(Simple object 조작) , 작업 프롬프트는 put
into형식입니다. 해당 슬롯은 개체의 이미지입니다. , 재배열과 같은 목표 설정을 달성하기 위해 개체 조작
3, 새로운 개념 수용, 프롬프트에는 dax, blicket 등과 같은 일부 흔하지 않은 단어를 프롬프트의 이미지를 통해 설명할 수 있으며 지침에 직접 사용할 수 있어 에이전트의 새로운 개념 인지 속도를 테스트할 수 있습니다.
4, 단일 샘플 원샷 비디오 모방, 비디오 시연을 보고 동일한 이동 경로로 특정 개체를 재현하는 방법을 알아보세요.
5, 시각적 제약 조건 만족, 로봇은 위반하지 않도록 개체를 주의 깊게 조작해야 합니다.
6. 시각적 추론(Visual Reasoning) . "
와 동일한 질감을 가진 모든 개체를 컨테이너에 넣습니다"와 같이 에이전트가 추론해야 하는 작업이 있습니다. "를 용기에 넣은 다음 다시 제자리에 넣으세요". 예를 들어 일부 작업 동사(소설 개념 ) 이전에 볼 수 없었던 시연 영상(모방)을 통해 소개할 수도 있습니다
새로운 벤치마크 VIM-BENCH영리한 여성이 밥 없이 요리하는 것은 어렵습니다.
멀티모달 로봇 학습 벤치마크 VIMA-BENCH시뮬레이션 환경에서 기존 벤치마크는 일반적으로 특정 작업 사양을 목표로 합니다. 현재 탐지 에이전트 기능을 목표로 하는 풍부한 다중 모드 작업 제품군과 포괄적인 테스트 플랫폼을 제공할 수 있는 벤치마크는 없습니다.
이를 위해 연구원들은 Ravens 로봇 시뮬레이터를 확장하여 확장 가능한 객체 및 텍스처 컬렉션을 지원하여 다중 모드 큐를 구성하고 절차적으로 많은 작업을 생성함으로써 VIMA-BENCH를 구축했습니다.
특히 VIMA-BENCH는 1000개의 독립적인 작업으로 인스턴스화할 수 있는 다중 모드 프롬프트 템플릿이 포함된 17개의 메타 작업을 제공합니다. 각 메타 작업은 위의 6가지 작업 지정 방법 중 하나 이상에 속합니다.
VIMA-BENCH는 스크립트된 Oracle 에이전트를 통해 대량의 모방 학습 데이터를 생성할 수 있습니다.
Observation and Actions에서 시뮬레이터의 관찰 공간은 정면 및 하향식 뷰에서 렌더링된 RGB 이미지로 구성되며, 벤치마크는 Train 객체 중심 모델을 위한 사실적인 객체 분할 및 경계 상자도 제공합니다.
VIM-BENCH는 전작의 고급 액션 공간을 계승하여 말단 효과의 자세에 따라 결정되는 "픽 앤 플레이스", "와이프" 등 가장 기본적인 동작 스킬로 구성됩니다. .
시뮬레이터에는 모든 객체의 정확한 위치, 다중 모드 명령의 기본 해석과 같은 권한 있는 시뮬레이터 상태 정보를 사용하여 전문적인 데모를 생성할 수 있는 스크립트가 있는 oracle 프로그램도 포함되어 있습니다.
마지막으로 연구원들은 사전 프로그래밍된 오라클을 통해 모방 학습을 위한 전문가 궤적의 대규모 오프라인 데이터 세트를 생성했습니다. 데이터 세트에는 각 메타 작업에 대한 50,000개의 궤적이 포함되어 총 650,000개의 성공적인 궤적이 포함됩니다.
또한 쉬운 평가를 위해 객체 모델 및 텍스처의 하위 집합을 유지하고 제로샷 일반화 테스트를 위해 17개 메타 작업 중 4개를 사용합니다.
VIMA-BENCH의 각 작업 기준에는 성공과 실패만 있을 뿐 중간 상태에 대한 보상 신호는 없습니다.
테스트 시간에 연구원들은 물리 시뮬레이터에서 에이전트 전략을 실행하여 성공률을 계산했으며, 평가된 모든 메타 작업의 평균 성공률이 최종 보고된 지표였습니다.
평가 프로토콜에는 체계적으로 에이전트의 일반화 능력을 조사하기 위한 4개 레벨이 포함되어 있습니다. 각 레벨은 훈련 분포에서 더 많이 벗어나므로 엄밀히 말하면 한 레벨이 다음 레벨보다 더 어렵습니다.
1. 배치 일반화: 훈련 중에는 모든 프롬프트가 단어 단위로 표시되지만 테스트 중에는 바탕 화면의 개체 배치가 무작위입니다.
2, 조합 일반화: 훈련에서는 모든 재료(형용사)와 3차원 물체(명사)를 볼 수 있지만 테스트에서는 몇 가지 새로운 조합 형태가 나타납니다.
3. 새로운 개체 일반화: 테스트 프롬프트와 시뮬레이션된 작업 공간에는 새로운 형용사와 개체가 포함됩니다.
4, 새로운 작업 일반화: 테스트 중 새로운 프롬프트 템플릿을 사용한 새로운 메타 작업
멀티 모달 프롬프트에는 총 세 가지 형식이 포함됩니다.
1, Text, 사전 훈련된 T5 모델을 사용하여 단어를 분할하고 단어 벡터를 얻습니다.
2, 전체 데스크탑 장면, 먼저 Mask R-CNN을 사용하여 모든 독립 개체, 각 개체를 식별합니다. 경계 상자와 잘린 이미지로 표현된 다음 각각 경계 bo 인코더와 ViT를 사용하여 인코딩됩니다.
3, 단일 객체의 이미지, 또한 ViT를 사용하여 토큰을 얻은 다음 결과 시퀀스를 사전 훈련된 T5 인코더 모델에 입력합니다.
로봇 컨트롤러, 즉 디코더의 입력은 프롬프트 시퀀스의 여러 교차 주의 레이어 이후의 표현 및 궤적 히스토리 시퀀스입니다.
이러한 디자인은 프롬프트에 대한 연결을 향상하고 원래 프롬프트 토큰을 더 잘 유지하고 처리하며 컴퓨팅 효율성을 높일 수 있습니다.
테스트 단계의 실험 설계는 주로 세 가지 질문에 답하기 위한 것입니다:
1, 다중 모드 프롬프트를 사용하는 다양한 작업에서 VIMA와 이전 SOTA Transformer 기반 에이전트의 성능 비교 ;
2, VIMA의 모델 용량 및 데이터 볼륨 확장 속성
3, 다양한 시각적 단어 분할기, 조건부 프롬프트 및 조건부 인코딩이 최종 의사 결정에 영향을 미칠지 여부.
비교된 기본 모델에는 Gato, Flamingo 및 Decision Transformer(DT)
가 포함됩니다. 먼저 모델 스케일링에서 연구원들은 모든 방법을 2M에서 200M로 확장했습니다. 매개변수 수는 다음과 같습니다. 훈련에 사용되며 인코더의 크기는 항상 T5 기반으로 유지됩니다. VIMA는 모든 수준에서 제로샷 일반화 평가에서 다른 작업보다 절대적으로 좋습니다.
Gato와 Flamingo는 더 큰 크기의 모델에서 성능이 향상되었지만 VIMA는 여전히 모든 모델보다 우수합니다.
데이터 스케일링에서 연구원들은 각 방법의 학습 데이터에 대해 0.1%, 1%, 10%의 다양한 실험을 수행했으며 VIMA에는 1%만 필요합니다. 10배의 데이터를 사용하여 다른 방법으로 훈련된 L1 및 L2 일반화 지표를 달성할 수 있습니다. L4 지표에서 훈련 데이터의 1%만 사용하여 VIMA는 이미 전체 데이터 양에 대해 훈련된 다른 모델보다 우수합니다.
점진적 일반화 성능 비교에서는 더 어려운 일반화 작업에는 미세 조정이 사용되지 않았습니다. VIMA 모델은 특히 L1에서 L2로, L1에서 L3으로 성능 회귀가 가장 적은 반면 다른 모델은 20% 이상 성능이 저하되었습니다. 이는 VIMA가 보다 일반화된 전략과 보다 강력한 표현을 학습했음을 의미합니다.
참조:
https://arxiv.org/abs/2210.03094
위 내용은 Li Feifei의 두 견습생이 공동으로 안내: "다중 모드 프롬프트"를 이해할 수 있는 로봇은 제로 샷 성능을 2.9배 향상시킬 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!