컴퓨터 비전, 자연어 처리 등 기계 학습(ML) 연구의 여러 하위 분야에서 최근 이루어진 많은 발전은 모든 데이터를 효율적으로 흡수할 수 있는 크고 다양한 데이터 세트와 표현 모델을 활용하는 데 기반을 두고 있습니다.
그러나 이 고성능 모델 방법은 로봇공학 분야에서 상대적으로 적용 사례가 적습니다.
이유는 간단합니다. 첫째, 대규모의 다양한 로봇 데이터가 부족하여 모델이 다양한 로봇 경험을 흡수하는 능력이 제한됩니다.
두 번째로, 이러한 데이터세트에서 학습하고 효과적으로 일반화할 수 있는 표현력이 뛰어나고 확장 가능하며 빠른 실시간 추론 모델이 부족합니다.
그리고 이번에 Google의 Robotics Transformer 1(줄여서 RT-1)은 로봇의 입력 및 출력 동작(예: 카메라 이미지, 작업 지침, 모터 명령)에 라벨을 지정하여 효율적으로 실행할 수 있는 다중 작업 모델입니다. 상시 추론하고 실시간 제어가 가능합니다.
RT-1은 많은 양의 데이터를 흡수하여 로봇이 다양한 환경에서 다양한 작업을 수행할 수 있도록 함으로써 기계 성능 및 일반화 능력을 향상시킵니다.
간단히 말하면, 로봇이 동시에 여러 가지 작업을 수행하도록 합니다.
이 모델은 EDR(Everyday Robots)의 13개 로봇을 사용하여 17개월 동안 수집된 700개 이상의 작업을 다루는 130,000개의 에피소드로 구성된 대규모 실제 로봇 데이터 세트에서 훈련되었습니다.
결과는 RT-1이 기존 기술에 비해 새로운 작업, 환경 및 개체에 대한 제로 샷 일반화를 크게 향상시킬 수 있음을 보여줍니다.
편집자가 아래 Github 링크도 세심하게 준비해 놓았습니다. 관심이 있으시면 가서 살펴보세요.
https://github.com/google-research/robotics_transformer
RT-1은 Transformer 아키텍처를 기반으로 구축되었습니다. 로봇의 카메라에서 이미지 히스토리를 얻어 자연어로 표현된 작업 설명을 입력으로 사용하고, 표시된 동작을 직접 출력합니다.
RT-1의 아키텍처는 인과 마스킹을 사용하는 표준 범주형 교차 엔트로피 목표에 대해 훈련된 디코더 전용 시퀀스 모델의 아키텍처와 유사합니다.
모델은 텍스트 지침과 이미지 세트를 입력으로 받아 사전 훈련된 FiLM EfficientNet 모델을 통해 이를 토큰으로 인코딩하고 TokenLearner를 통해 압축한 다음 Transformer를 통해 작업 토큰을 출력합니다.
주요 기능은 다음과 같습니다: 이미지 토큰화, 액션 토큰화 및 토큰 압축.
원격 조작을 통해 인간이 제공하는 데모를 사용하고 로봇이 실행하는 명령에 대한 텍스트 설명으로 각 에피소드에 주석을 답니다.
그리고 이 로봇은 "7도 자유도의 팔, 두 손가락 그리퍼 및 이동식 베이스"를 사용하여 작업을 수행합니다.
데이터세트에 표현된 고급 기술 세트에는 항목 선택 및 배치, 서랍 열기 및 닫기, 서랍 안팎으로 항목 넣기, 얇은 항목 똑바로 세우기, 물건 넘어뜨리기 등과 같은 작업이 포함됩니다.
RT-1을 더욱 발전시키기 위해 다른 로봇에서 수집한 데이터를 사용하여 훈련하여 (1) 새로운 데이터 소스가 성능을 제공할 때 모델이 원래 작업에 대한 성능을 유지하는지 여부, (2) 새롭고 다른 데이터로 일반화하여 모델이 개선되는지 여부.
수집된 데이터를 EDR을 사용하여 수집한 원본 데이터세트의 작업 사양 및 경계와 일치하도록 변환하고 각 데이터세트에 작업 지침을 표시합니다.
그런 다음 각 훈련 배치에서 Kuka 데이터와 EDR 데이터를 1:2 비율로 혼합하여 원래 EDR 기술의 회귀를 제어합니다.
사진은 여러 로봇으로부터 데이터를 수집할 때 훈련 방법을 보여줍니다.
RT-1은 다른 로봇의 경험을 관찰하여 새로운 기술을 습득할 수 있음을 보여줍니다.
RT-1이 Kuka의 빈 피킹 데이터와 로봇공학 강의실의 기존 EDR 데이터를 학습했을 때 정확도는 EDR 데이터만 사용하여 학습했을 때의 22%에 비해 거의 2배에서 39%로 뛰어올랐습니다.
Kuka 단독의 피킹 데이터를 사용하여 RT-1을 훈련시키고 EDR 로봇의 피킹 데이터를 사용하여 평가한 결과 정확도는 0%였습니다.
RT-1의 일반화 능력을 더 잘 이해하기 위해 Gato, BC-Z 및 BC-Z XL(즉, 정량적 매개변수에 대해 동일한 BC-Z 사용)의 세 가지 기준에 대한 성능을 연구했습니다.
이를 네 가지 범주로 나눴습니다:
사진은 테스트 환경에서 RT-1과 대조군의 성능을 보여줍니다
RT-1의 고성능 및 일반화 기능 SayCan을 통해 장거리 및 모바일 운용 업무를 구현할 수 있습니다.
SayCan은 로봇의 어포던스 내에 언어 모델을 배치하고 몇 가지 힌트를 활용하여 자연어를 표현하는 장기적인 작업을 일련의 하위 수준 기술로 분류하는 방식으로 작동합니다.
우리는 RT-1과 다른 두 기준(SayCan with Gato 및 SayCan with BC-Z)을 사용하여 두 개의 실제 주방에서 SayCan을 평가합니다.
아래에서 "Kitchen2"는 "Kitchen1"보다 더 어려운 일반화 시나리오를 제시합니다. 대부분의 학습 데이터를 수집하는 데 사용된 시뮬레이션된 주방은 Kitchen1을 모델로 했습니다.
Kitchen1에서 RT-1을 사용한 SayCan의 실행 성공률이 67%로 다른 기준치보다 우수한 것을 확인할 수 있습니다.
새로운 투명 주방으로 인한 일반화의 어려움으로 인해 Gato를 사용한 SayCan과 BCZ를 사용한 SayCan의 성능이 감소했지만 RT-1의 성공률은 감소하지 않았습니다.
위 내용은 Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!