>  기사  >  기술 주변기기  >  MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

王林
王林앞으로
2024-04-17 23:40:24576검색

다양하고 복잡한 시나리오를 다루는 데 있어 다중 작업 로봇 학습은 매우 중요합니다. 그러나 현재 방법은 성능 문제와 교육 데이터 세트 수집의 어려움으로 인해 제한됩니다.

본 논문에서는 연구자들이 오프라인 강화 학습을 활용하여 데이터 활용 전략을 최적화하고 시연 및 차선 데이터로부터 학습함으로써 인간 시연의 한계를 뛰어넘는 GeRM(Generic Robot Model)을 제안합니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

저자: Song Wenxuan, Zhao Han, Ding Pengxiang, Cui Can, Lu Shangke, Fan Yaning, Wang Donglin

저자: West Lake University, Zhejiang University

논문 주소: https: //arxiv.org/abs/2403.13358

프로젝트 주소: https://songwxuan.github.io/GeRM/

그런 다음 Transformer 기반 비전-언어-액션 모델을 사용하여 다중 모드를 처리합니다. 입력 및 출력 동작.

GeRM은 전문적인 하이브리드 구조를 도입하여 더 빠른 추론 속도와 더 높은 전체 모델 용량을 달성하여 제한된 강화 학습 매개 변수 볼륨 문제를 해결하고 다중 작업 학습에서 모델 성능을 향상시키는 동시에 비용 계산을 제어합니다.

일련의 실험을 통해 GeRM이 모든 작업에서 다른 방법보다 뛰어난 성능을 발휘하는 동시에 훈련 및 추론 프로세스에서 효율성을 검증한다는 것이 입증되었습니다.

또한 연구원들은 훈련을 지원하기 위해 QUARD-Auto 데이터 세트도 제공했습니다. 이 데이터 세트의 구성은 기사에서 제안한 데이터 자동화 수집의 새로운 패러다임을 따릅니다. 이 방법은 로봇 데이터 수집 비용을 줄일 수 있습니다. 다중 작업 학습을 촉진합니다.

주요 기여:

1. 혼합 품질 데이터로 훈련되고 최적의 전략을 학습할 수 있는 네발 강화 학습을 위한 하이브리드 전문가 모델을 처음으로 제안했습니다.

2. GeRM은 기존 방법에 비해 자체 매개변수의 1/2만 활성화할 때 더 높은 성공률을 보이고, 출현 기능을 활성화하며, 전략 과정에서 더 나은 데이터 활용도를 보여줍니다.

3. 전자동 로봇 데이터 세트 수집 패러다임을 제안하고, 대규모 오픈소스 데이터 세트를 수집했습니다.

Method

GeRM 네트워크 구조는 그림 1과 같습니다. 데모 데이터와 실패 데이터를 포함한 시각적 언어 입력은 각각 인코더와 토크나이저를 거친 후 8계층 하이브리드 전문가 구조의 디코더에 입력되며, 그리고 행동 토큰을 생성하고 최종적으로 개별 로봇 행동 데이터로 변환하고 기본 전략을 통해 로봇에 배포합니다. 또한 훈련을 위해 강화 학습을 사용합니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

그림 1 GeRM 네트워크 구조 다이어그램

GeRM 디코더는 FFN(피드포워드 네트워크)이 8개의 서로 다른 전문가 네트워크 세트에서 선택되는 트랜스포머 디코더 아키텍처 모델입니다.

각 레이어에서 각 토큰에 대해 게이트 네트워크는 두 명의 전문가를 선택하여 토큰을 처리하고 가중치 방식으로 출력을 결합합니다.

다양한 전문가는 다양한 작업/다양한 행동 차원에 능숙하여 다양한 시나리오의 문제를 해결함으로써 여러 작업에 걸쳐 공통 모델을 학습합니다. 이 아키텍처는 계산 비용을 본질적으로 변경하지 않고 유지하면서 네트워크 매개변수의 양을 확장합니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

그림 2 디코더 구조 다이어그램

로봇으로부터 다중 모드 데이터를 수집하는 자동 패러다임을 제안합니다. 이러한 방식으로 우리는 데모 데이터와 차선 데이터의 조합을 포함하는 대규모 로봇 공학 데이터 세트인 QUARD-Auto를 구축했습니다. 여기에는 5개의 작업과 99개의 하위 작업이 포함되어 있으며 총 257,000개의 궤적이 있습니다. 우리는 로봇 커뮤니티의 발전을 촉진하기 위해 소스를 오픈할 것입니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

표 1 데이터 세트 소개

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

그림 3 데이터 볼륨 통계

실험

99개 하위 작업을 모두 포괄하는 포괄적이고 강력한 일련의 실험을 수행했으며 각 하위 작업은 400개 궤적에서 신중하게 테스트되었습니다.

표 1에서 볼 수 있듯이 GeRM은 모든 작업 중 성공률이 가장 높습니다. RT-1 및 GeRM의 다른 변형과 비교하여 혼합 품질 데이터로부터 효과적으로 학습하고 다른 방법보다 성능이 뛰어나며 여러 작업에서 뛰어난 기능을 보여줍니다. 동시에 MoE 모듈은 추론 중에 일부 매개변수를 활성화하여 계산 비용과 성능의 균형을 유지합니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

표 2 다중 작업 비교 실험

GeRM은 훌륭한 훈련 효율성을 보여줍니다. 다른 방법과 비교하여 GeRM은 단 몇 개의 배치만으로 매우 낮은 손실과 높은 성공률을 달성하여 데이터 활용 전략을 최적화하는 GeRM의 능력을 강조합니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

그림 4 성공률/손실 변화 곡선

GeRM은 동적 적응형 경로 계획에서 새로운 기능을 입증했습니다. 영상에서 볼 수 있듯이 4족 로봇은 초기 위치에서는 시야가 제한되어 이동 방향을 결정하기 어렵습니다. 장애물을 피하기 위해 무작위로 좌회전을 선택합니다.

결과적으로 잘못된 시각적 입력이 발생하면 로봇은 원래 시야 밖의 올바른 대상에 정렬하기 위해 과감한 방향 전환을 수행합니다. 그런 다음 목적지를 향해 계속 나아가 궁극적으로 임무를 완료합니다.

그러한 궤적은 훈련 데이터 세트의 분포에 속하지 않는다는 점에 주목할 가치가 있습니다. 이는 장면의 맥락에서 동적 적응형 경로 계획에서 GeRM의 새로운 기능, 즉 시각적 인식을 기반으로 결정을 내리고, 미래 경로를 계획하고, 필요에 따라 다음 단계를 변경하는 능력을 보여줍니다.

MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.

그림 5 응급 능력

위 내용은 MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제