컴퓨터 비전, 자연어 처리 등 기계 학습(ML) 연구의 여러 하위 분야에서 최근 이루어진 많은 발전은 모든 데이터를 효율적으로 흡수할 수 있는 크고 다양한 데이터 세트와 표현 모델을 활용하는 데 기반을 두고 있습니다.
그러나 이 고성능 모델 방법은 로봇공학 분야에서 상대적으로 적용 사례가 적습니다.
이유는 간단합니다. 첫째, 대규모의 다양한 로봇 데이터가 부족하여 모델이 다양한 로봇 경험을 흡수하는 능력이 제한됩니다.
두 번째로, 이러한 데이터세트에서 학습하고 효과적으로 일반화할 수 있는 표현력이 뛰어나고 확장 가능하며 빠른 실시간 추론 모델이 부족합니다.
그리고 이번에 Google의 Robotics Transformer 1(줄여서 RT-1)은 로봇의 입력 및 출력 동작(예: 카메라 이미지, 작업 지침, 모터 명령)에 라벨을 지정하여 효율적으로 실행할 수 있는 다중 작업 모델입니다. 상시 추론하고 실시간 제어가 가능합니다.
RT-1은 많은 양의 데이터를 흡수하여 로봇이 다양한 환경에서 다양한 작업을 수행할 수 있도록 함으로써 기계 성능 및 일반화 능력을 향상시킵니다.
간단히 말하면, 로봇이 동시에 여러 가지 작업을 수행하도록 합니다.
이 모델은 EDR(Everyday Robots)의 13개 로봇을 사용하여 17개월 동안 수집된 700개 이상의 작업을 다루는 130,000개의 에피소드로 구성된 대규모 실제 로봇 데이터 세트에서 훈련되었습니다.
결과는 RT-1이 기존 기술에 비해 새로운 작업, 환경 및 개체에 대한 제로 샷 일반화를 크게 향상시킬 수 있음을 보여줍니다.
편집자가 아래 Github 링크도 세심하게 준비해 놓았습니다. 관심이 있으시면 가서 살펴보세요.
https://github.com/google-research/robotics_transformer
RT-1 모델 특정 원리
RT-1은 Transformer 아키텍처를 기반으로 구축되었습니다. 로봇의 카메라에서 이미지 히스토리를 얻어 자연어로 표현된 작업 설명을 입력으로 사용하고, 표시된 동작을 직접 출력합니다.
RT-1의 아키텍처는 인과 마스킹을 사용하는 표준 범주형 교차 엔트로피 목표에 대해 훈련된 디코더 전용 시퀀스 모델의 아키텍처와 유사합니다.
모델은 텍스트 지침과 이미지 세트를 입력으로 받아 사전 훈련된 FiLM EfficientNet 모델을 통해 이를 토큰으로 인코딩하고 TokenLearner를 통해 압축한 다음 Transformer를 통해 작업 토큰을 출력합니다.
주요 기능은 다음과 같습니다: 이미지 토큰화, 액션 토큰화 및 토큰 압축.
- 이미지 토큰화: ImageNet에서 사전 훈련된 EfficientNet-B3 모델을 통해 이미지를 전달한 다음 결과 9×9×512 공간 특징 맵을 81개 토큰으로 평면화합니다. 이미지 토크나이저는 자연어 작업 지침을 조건으로 하며 ID로 초기화된 FiLM 레이어를 사용하여 초기에 작업 관련 이미지 특징을 추출합니다.
- 동작 토큰화: 로봇의 동작 크기는 팔 움직임의 7가지 변수(x, y, z, 롤, 피치, 요, 클램프 열기), 3가지 기본 동작 변수(x, y, 요 탐색)입니다. ) 및 세 가지 모드 사이를 전환하는 추가 이산 변수가 있습니다.
- 토큰 압축: 모델은 요소 주의 모듈 TokenLearner를 사용하여 학습에 미치는 영향을 기반으로 압축할 수 있는 이미지 토큰의 소프트 조합을 적응적으로 선택하므로 추론 속도가 2.4배 이상 빨라집니다.
원격 조작을 통해 인간이 제공하는 데모를 사용하고 로봇이 실행하는 명령에 대한 텍스트 설명으로 각 에피소드에 주석을 답니다.
그리고 이 로봇은 "7도 자유도의 팔, 두 손가락 그리퍼 및 이동식 베이스"를 사용하여 작업을 수행합니다.
데이터세트에 표현된 고급 기술 세트에는 항목 선택 및 배치, 서랍 열기 및 닫기, 서랍 안팎으로 항목 넣기, 얇은 항목 똑바로 세우기, 물건 넘어뜨리기 등과 같은 작업이 포함됩니다.
이기종 데이터 소스 통합
RT-1을 더욱 발전시키기 위해 다른 로봇에서 수집한 데이터를 사용하여 훈련하여 (1) 새로운 데이터 소스가 성능을 제공할 때 모델이 원래 작업에 대한 성능을 유지하는지 여부, (2) 새롭고 다른 데이터로 일반화하여 모델이 개선되는지 여부.
수집된 데이터를 EDR을 사용하여 수집한 원본 데이터세트의 작업 사양 및 경계와 일치하도록 변환하고 각 데이터세트에 작업 지침을 표시합니다.
그런 다음 각 훈련 배치에서 Kuka 데이터와 EDR 데이터를 1:2 비율로 혼합하여 원래 EDR 기술의 회귀를 제어합니다.
사진은 여러 로봇으로부터 데이터를 수집할 때 훈련 방법을 보여줍니다.
RT-1은 다른 로봇의 경험을 관찰하여 새로운 기술을 습득할 수 있음을 보여줍니다.
RT-1이 Kuka의 빈 피킹 데이터와 로봇공학 강의실의 기존 EDR 데이터를 학습했을 때 정확도는 EDR 데이터만 사용하여 학습했을 때의 22%에 비해 거의 2배에서 39%로 뛰어올랐습니다.
Kuka 단독의 피킹 데이터를 사용하여 RT-1을 훈련시키고 EDR 로봇의 피킹 데이터를 사용하여 평가한 결과 정확도는 0%였습니다.
실험 결과
RT-1의 일반화 능력을 더 잘 이해하기 위해 Gato, BC-Z 및 BC-Z XL(즉, 정량적 매개변수에 대해 동일한 BC-Z 사용)의 세 가지 기준에 대한 성능을 연구했습니다.
이를 네 가지 범주로 나눴습니다:
사진은 테스트 환경에서 RT-1과 대조군의 성능을 보여줍니다
- 보이는 작업 성능: 훈련 중에 관찰된 작업 성능
-
보이지 않는 작업 성능: 훈련 세트에 있는 기술과 개체가 별개인 보이지 않는 작업에 대한 성능
- 강건성: 간섭 요인 및 배경 변경 성능(새로운 주방, 조명, 배경 장면)
- 장거리 시나리오 ): 실제 주방에서 SayCan과 유사한 자연어 명령 실행
RT-1의 고성능 및 일반화 기능 SayCan을 통해 장거리 및 모바일 운용 업무를 구현할 수 있습니다.
SayCan은 로봇의 어포던스 내에 언어 모델을 배치하고 몇 가지 힌트를 활용하여 자연어를 표현하는 장기적인 작업을 일련의 하위 수준 기술로 분류하는 방식으로 작동합니다.
우리는 RT-1과 다른 두 기준(SayCan with Gato 및 SayCan with BC-Z)을 사용하여 두 개의 실제 주방에서 SayCan을 평가합니다.
아래에서 "Kitchen2"는 "Kitchen1"보다 더 어려운 일반화 시나리오를 제시합니다. 대부분의 학습 데이터를 수집하는 데 사용된 시뮬레이션된 주방은 Kitchen1을 모델로 했습니다.
Kitchen1에서 RT-1을 사용한 SayCan의 실행 성공률이 67%로 다른 기준치보다 우수한 것을 확인할 수 있습니다.
새로운 투명 주방으로 인한 일반화의 어려움으로 인해 Gato를 사용한 SayCan과 BCZ를 사용한 SayCan의 성능이 감소했지만 RT-1의 성공률은 감소하지 않았습니다.
위 내용은 Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

Dreamweaver Mac版
시각적 웹 개발 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전
