다양하고 복잡한 시나리오를 다루는 데 있어 다중 작업 로봇 학습은 매우 중요합니다. 그러나 현재 방법은 성능 문제와 교육 데이터 세트 수집의 어려움으로 인해 제한됩니다.
본 논문에서는 연구자들이 오프라인 강화 학습을 활용하여 데이터 활용 전략을 최적화하고 시연 및 차선 데이터로부터 학습함으로써 인간 시연의 한계를 뛰어넘는 GeRM(Generic Robot Model)을 제안합니다.
저자: Song Wenxuan, Zhao Han, Ding Pengxiang, Cui Can, Lu Shangke, Fan Yaning, Wang Donglin
저자: West Lake University, Zhejiang University
논문 주소: https: //arxiv.org/abs/2403.13358
프로젝트 주소: https://songwxuan.github.io/GeRM/
그런 다음 Transformer 기반 비전-언어-액션 모델을 사용하여 다중 모드를 처리합니다. 입력 및 출력 동작.
GeRM은 전문적인 하이브리드 구조를 도입하여 더 빠른 추론 속도와 더 높은 전체 모델 용량을 달성하여 제한된 강화 학습 매개 변수 볼륨 문제를 해결하고 다중 작업 학습에서 모델 성능을 향상시키는 동시에 비용 계산을 제어합니다.
일련의 실험을 통해 GeRM이 모든 작업에서 다른 방법보다 뛰어난 성능을 발휘하는 동시에 훈련 및 추론 프로세스에서 효율성을 검증한다는 것이 입증되었습니다.
또한 연구원들은 훈련을 지원하기 위해 QUARD-Auto 데이터 세트도 제공했습니다. 이 데이터 세트의 구성은 기사에서 제안한 데이터 자동화 수집의 새로운 패러다임을 따릅니다. 이 방법은 로봇 데이터 수집 비용을 줄일 수 있습니다. 다중 작업 학습을 촉진합니다.
주요 기여:
1. 혼합 품질 데이터로 훈련되고 최적의 전략을 학습할 수 있는 네발 강화 학습을 위한 하이브리드 전문가 모델을 처음으로 제안했습니다.
2. GeRM은 기존 방법에 비해 자체 매개변수의 1/2만 활성화할 때 더 높은 성공률을 보이고, 출현 기능을 활성화하며, 전략 과정에서 더 나은 데이터 활용도를 보여줍니다.
3. 전자동 로봇 데이터 세트 수집 패러다임을 제안하고, 대규모 오픈소스 데이터 세트를 수집했습니다.
Method
GeRM 네트워크 구조는 그림 1과 같습니다. 데모 데이터와 실패 데이터를 포함한 시각적 언어 입력은 각각 인코더와 토크나이저를 거친 후 8계층 하이브리드 전문가 구조의 디코더에 입력되며, 그리고 행동 토큰을 생성하고 최종적으로 개별 로봇 행동 데이터로 변환하고 기본 전략을 통해 로봇에 배포합니다. 또한 훈련을 위해 강화 학습을 사용합니다.
그림 1 GeRM 네트워크 구조 다이어그램
GeRM 디코더는 FFN(피드포워드 네트워크)이 8개의 서로 다른 전문가 네트워크 세트에서 선택되는 트랜스포머 디코더 아키텍처 모델입니다.
각 레이어에서 각 토큰에 대해 게이트 네트워크는 두 명의 전문가를 선택하여 토큰을 처리하고 가중치 방식으로 출력을 결합합니다.
다양한 전문가는 다양한 작업/다양한 행동 차원에 능숙하여 다양한 시나리오의 문제를 해결함으로써 여러 작업에 걸쳐 공통 모델을 학습합니다. 이 아키텍처는 계산 비용을 본질적으로 변경하지 않고 유지하면서 네트워크 매개변수의 양을 확장합니다.
그림 2 디코더 구조 다이어그램
로봇으로부터 다중 모드 데이터를 수집하는 자동 패러다임을 제안합니다. 이러한 방식으로 우리는 데모 데이터와 차선 데이터의 조합을 포함하는 대규모 로봇 공학 데이터 세트인 QUARD-Auto를 구축했습니다. 여기에는 5개의 작업과 99개의 하위 작업이 포함되어 있으며 총 257,000개의 궤적이 있습니다. 우리는 로봇 커뮤니티의 발전을 촉진하기 위해 소스를 오픈할 것입니다.
표 1 데이터 세트 소개
그림 3 데이터 볼륨 통계
실험
99개 하위 작업을 모두 포괄하는 포괄적이고 강력한 일련의 실험을 수행했으며 각 하위 작업은 400개 궤적에서 신중하게 테스트되었습니다.
표 1에서 볼 수 있듯이 GeRM은 모든 작업 중 성공률이 가장 높습니다. RT-1 및 GeRM의 다른 변형과 비교하여 혼합 품질 데이터로부터 효과적으로 학습하고 다른 방법보다 성능이 뛰어나며 여러 작업에서 뛰어난 기능을 보여줍니다. 동시에 MoE 모듈은 추론 중에 일부 매개변수를 활성화하여 계산 비용과 성능의 균형을 유지합니다.
표 2 다중 작업 비교 실험
GeRM은 훌륭한 훈련 효율성을 보여줍니다. 다른 방법과 비교하여 GeRM은 단 몇 개의 배치만으로 매우 낮은 손실과 높은 성공률을 달성하여 데이터 활용 전략을 최적화하는 GeRM의 능력을 강조합니다.
그림 4 성공률/손실 변화 곡선
GeRM은 동적 적응형 경로 계획에서 새로운 기능을 입증했습니다. 영상에서 볼 수 있듯이 4족 로봇은 초기 위치에서는 시야가 제한되어 이동 방향을 결정하기 어렵습니다. 장애물을 피하기 위해 무작위로 좌회전을 선택합니다.
결과적으로 잘못된 시각적 입력이 발생하면 로봇은 원래 시야 밖의 올바른 대상에 정렬하기 위해 과감한 방향 전환을 수행합니다. 그런 다음 목적지를 향해 계속 나아가 궁극적으로 임무를 완료합니다.
그러한 궤적은 훈련 데이터 세트의 분포에 속하지 않는다는 점에 주목할 가치가 있습니다. 이는 장면의 맥락에서 동적 적응형 경로 계획에서 GeRM의 새로운 기능, 즉 시각적 인식을 기반으로 결정을 내리고, 미래 경로를 계획하고, 필요에 따라 다음 단계를 변경하는 능력을 보여줍니다.
그림 5 응급 능력
위 내용은 MoE와 함께 99개의 제출 미션을 청소하세요! 절강대학교 등은 새로운 일반 로봇 전략 GeRM을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6
시각적 웹 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.
