Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 am 11:34 AM

기계 인간모델

컴퓨터 비전, 자연어 처리 등 기계 학습(ML) 연구의 여러 하위 분야에서 최근 이루어진 많은 발전은 모든 데이터를 효율적으로 흡수할 수 있는 크고 다양한 데이터 세트와 표현 모델을 활용하는 데 기반을 두고 있습니다.

그러나 이 고성능 모델 방법은 로봇공학 분야에서 상대적으로 적용 사례가 적습니다.

이유는 간단합니다. 첫째, 대규모의 다양한 로봇 데이터가 부족하여 모델이 다양한 로봇 경험을 흡수하는 능력이 제한됩니다.

두 번째로, 이러한 데이터세트에서 학습하고 효과적으로 일반화할 수 있는 표현력이 뛰어나고 확장 가능하며 빠른 실시간 추론 모델이 부족합니다.

그리고 이번에 Google의 Robotics Transformer 1(줄여서 RT-1)은 로봇의 입력 및 출력 동작(예: 카메라 이미지, 작업 지침, 모터 명령)에 라벨을 지정하여 효율적으로 실행할 수 있는 다중 작업 모델입니다. 상시 추론하고 실시간 제어가 가능합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

RT-1은 많은 양의 데이터를 흡수하여 로봇이 다양한 환경에서 다양한 작업을 수행할 수 있도록 함으로써 기계 성능 및 일반화 능력을 향상시킵니다.

간단히 말하면, 로봇이 동시에 여러 가지 작업을 수행하도록 합니다.

이 모델은 EDR(Everyday Robots)의 13개 로봇을 사용하여 17개월 동안 수집된 700개 이상의 작업을 다루는 130,000개의 에피소드로 구성된 대규모 실제 로봇 데이터 세트에서 훈련되었습니다.

결과는 RT-1이 기존 기술에 비해 새로운 작업, 환경 및 개체에 대한 제로 샷 일반화를 크게 향상시킬 수 있음을 보여줍니다.

편집자가 아래 Github 링크도 세심하게 준비해 놓았습니다. 관심이 있으시면 가서 살펴보세요.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

https://github.com/google-research/robotics_transformer

RT-1 모델 특정 원리

RT-1은 Transformer 아키텍처를 기반으로 구축되었습니다. 로봇의 카메라에서 이미지 히스토리를 얻어 자연어로 표현된 작업 설명을 입력으로 사용하고, 표시된 동작을 직접 출력합니다.

RT-1의 아키텍처는 인과 마스킹을 사용하는 표준 범주형 교차 엔트로피 목표에 대해 훈련된 디코더 전용 시퀀스 모델의 아키텍처와 유사합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

모델은 텍스트 지침과 이미지 세트를 입력으로 받아 사전 훈련된 FiLM EfficientNet 모델을 통해 이를 토큰으로 인코딩하고 TokenLearner를 통해 압축한 다음 Transformer를 통해 작업 토큰을 출력합니다.

주요 기능은 다음과 같습니다: 이미지 토큰화, 액션 토큰화 및 토큰 압축.

이미지 토큰화: ImageNet에서 사전 훈련된 EfficientNet-B3 모델을 통해 이미지를 전달한 다음 결과 9×9×512 공간 특징 맵을 81개 토큰으로 평면화합니다. 이미지 토크나이저는 자연어 작업 지침을 조건으로 하며 ID로 초기화된 FiLM 레이어를 사용하여 초기에 작업 관련 이미지 특징을 추출합니다.
동작 토큰화: 로봇의 동작 크기는 팔 움직임의 7가지 변수(x, y, z, 롤, 피치, 요, 클램프 열기), 3가지 기본 동작 변수(x, y, 요 탐색)입니다. ) 및 세 가지 모드 사이를 전환하는 추가 이산 변수가 있습니다.
토큰 압축: 모델은 요소 주의 모듈 TokenLearner를 사용하여 학습에 미치는 영향을 기반으로 압축할 수 있는 이미지 토큰의 소프트 조합을 적응적으로 선택하므로 추론 속도가 2.4배 이상 빨라집니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

원격 조작을 통해 인간이 제공하는 데모를 사용하고 로봇이 실행하는 명령에 대한 텍스트 설명으로 각 에피소드에 주석을 답니다.

그리고 이 로봇은 "7도 자유도의 팔, 두 손가락 그리퍼 및 이동식 베이스"를 사용하여 작업을 수행합니다.

데이터세트에 표현된 고급 기술 세트에는 항목 선택 및 배치, 서랍 열기 및 닫기, 서랍 안팎으로 항목 넣기, 얇은 항목 똑바로 세우기, 물건 넘어뜨리기 등과 같은 작업이 포함됩니다.

이기종 데이터 소스 통합

RT-1을 더욱 발전시키기 위해 다른 로봇에서 수집한 데이터를 사용하여 훈련하여 (1) 새로운 데이터 소스가 성능을 제공할 때 모델이 원래 작업에 대한 성능을 유지하는지 여부, (2) 새롭고 다른 데이터로 일반화하여 모델이 개선되는지 여부.

수집된 데이터를 EDR을 사용하여 수집한 원본 데이터세트의 작업 사양 및 경계와 일치하도록 변환하고 각 데이터세트에 작업 지침을 표시합니다.

그런 다음 각 훈련 배치에서 Kuka 데이터와 EDR 데이터를 1:2 비율로 혼합하여 원래 EDR 기술의 회귀를 제어합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

사진은 여러 로봇으로부터 데이터를 수집할 때 훈련 방법을 보여줍니다.

RT-1은 다른 로봇의 경험을 관찰하여 새로운 기술을 습득할 수 있음을 보여줍니다.

RT-1이 Kuka의 빈 피킹 데이터와 로봇공학 강의실의 기존 EDR 데이터를 학습했을 때 정확도는 EDR 데이터만 사용하여 학습했을 때의 22%에 비해 거의 2배에서 39%로 뛰어올랐습니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

Kuka 단독의 피킹 데이터를 사용하여 RT-1을 훈련시키고 EDR 로봇의 피킹 데이터를 사용하여 평가한 결과 정확도는 0%였습니다.

실험 결과

RT-1의 일반화 능력을 더 잘 이해하기 위해 Gato, BC-Z 및 BC-Z XL(즉, 정량적 매개변수에 대해 동일한 BC-Z 사용)의 세 가지 기준에 대한 성능을 연구했습니다.

이를 네 가지 범주로 나눴습니다:

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

사진은 테스트 환경에서 RT-1과 대조군의 성능을 보여줍니다

보이는 작업 성능: 훈련 중에 관찰된 작업 성능
보이지 않는 작업 성능: 훈련 세트에 있는 기술과 개체가 별개인 보이지 않는 작업에 대한 성능
강건성: 간섭 요인 및 배경 변경 성능(새로운 주방, 조명, 배경 장면)
장거리 시나리오 ): 실제 주방에서 SayCan과 유사한 자연어 명령 실행

RT-1의 고성능 및 일반화 기능 SayCan을 통해 장거리 및 모바일 운용 업무를 구현할 수 있습니다.

SayCan은 로봇의 어포던스 내에 언어 모델을 배치하고 몇 가지 힌트를 활용하여 자연어를 표현하는 장기적인 작업을 일련의 하위 수준 기술로 분류하는 방식으로 작동합니다.

우리는 RT-1과 다른 두 기준(SayCan with Gato 및 SayCan with BC-Z)을 사용하여 두 개의 실제 주방에서 SayCan을 평가합니다.

아래에서 "Kitchen2"는 "Kitchen1"보다 더 어려운 일반화 시나리오를 제시합니다. 대부분의 학습 데이터를 수집하는 데 사용된 시뮬레이션된 주방은 Kitchen1을 모델로 했습니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

Kitchen1에서 RT-1을 사용한 SayCan의 실행 성공률이 67%로 다른 기준치보다 우수한 것을 확인할 수 있습니다.

새로운 투명 주방으로 인한 일반화의 어려움으로 인해 Gato를 사용한 SayCan과 BCZ를 사용한 SayCan의 성능이 감소했지만 RT-1의 성공률은 감소하지 않았습니다.

위 내용은 Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유Apr 12, 2025 am 11:41 AM

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

See all articles

핫 AI 도구

뜨거운 도구

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.