찾다
기술 주변기기일체 포함다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 'Octopus' 탄생

로봇 학습 측면에서 일반적인 접근 방식은 특정 로봇 및 작업과 관련된 데이터 세트를 수집한 다음 이를 사용하여 정책을 교육하는 것입니다. 그러나 이 방법을 사용하여 처음부터 학습하는 경우 각 작업마다 충분한 데이터를 수집해야 하며 결과 정책의 일반화 능력이 일반적으로 좋지 않습니다.

“원칙적으로 다른 로봇과 작업에서 수집된 경험은 가능한 솔루션을 제공하여 모델이 다양한 로봇 제어 문제를 볼 수 있도록 하며 이러한 문제가 하위 작업에서 로봇의 일반적인 성능을 향상시킬 수 있습니다. 다양한 자연어 및 컴퓨터 비전 작업을 처리할 수 있는 일반적인 모델이지만, 로봇에 대한 통합 제어 전략을 훈련하기 위한 "범용 로봇 모델"을 구축하는 것은 여전히 ​​어렵습니다. 다양한 로봇 본체를 작동하는 등 많은 어려움이 있습니다. 센서 구성, 행동 공간, 작업 사양, 환경 및 계산 예산.

이 목표를 달성하기 위해 "로봇 기본 모델"과 관련된 일부 연구 결과가 나타났습니다. 그들의 접근 방식은 로봇 관찰을 행동으로 직접 매핑한 다음 제로 샘플 솔루션을 통해 새로운 분야 또는 새로운 로봇으로 일반화하는 것입니다. 이러한 모델은 다양한 작업, 환경 및 로봇 시스템에서 낮은 수준의 시각 운동 제어를 수행하는 로봇의 능력을 강조하는 "일반 로봇 정책" 또는 GRP라고도 합니다.

GNM(일반 탐색 모델)은 다양한 로봇 탐색 시나리오에 적합합니다. RoboCat은 임무 목표에 따라 서로 다른 로봇 몸체를 작동할 수 있습니다. 이러한 모델은 실제로 중요한 발전이지만 여러 가지 제한 사항도 있습니다. 입력 관찰은 종종 사전 정의되고 제한되는 경우가 많습니다(예: 단일 카메라 입력 비디오 스트림). 모델 가장 큰 버전은 사람들이 사용할 수 없습니다(중요).

최근 캘리포니아 대학교, 버클리 대학교, 스탠포드 대학교, 카네기 멜론 대학교, Google DeepMind의 연구원 18명으로 구성된 Octo 모델 팀은 획기적인 연구 결과인 Octo 모델을 발표했습니다. 이 프로젝트는 위의 한계를 효과적으로 극복합니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

논문 제목: Octo: 오픈 소스 일반 로봇 정책
  • 논문 주소: https://arxiv.org/pdf/2405.12213
  • 오픈 소스 프로젝트 : https://octo-models.github.io/
  • GRP가 다운스트림 로봇 애플리케이션의 인터페이스 다양화 문제에 보다 쉽게 ​​대처할 수 있는 시스템을 설계했습니다.

모델의 핵심은 관찰 및 작업을 기반으로 생성된 임의의 입력 토큰을 출력 토큰으로 매핑한 다음 작업으로 인코딩하는 Transformer 아키텍처이며, 이 아키텍처는 다양한 로봇 및 작업 데이터 세트와 함께 사용할 수 있습니다. 기차. 정책은 추가 교육 없이 다양한 카메라 구성을 수용할 수 있고, 다양한 로봇을 제어할 수 있으며, 음성 명령이나 대상 이미지를 통해 안내할 수 있습니다. 이 모든 작업은 모델에 대한 토큰 입력만 변경하면 됩니다.

가장 중요한 것은 모델이 다양한 센서 입력, 작동 공간 또는 로봇 형태를 갖춘 새로운 로봇 구성에도 적응할 수 있다는 것입니다. 필요한 것은 적절한 어댑터를 채택하고 작은 대상 도메인 데이터 세트와 소량의 데이터를 사용하는 것뿐입니다. 데이터 미세 조정을 위한 예산을 계산합니다.

그뿐만 아니라 Octo는 현재까지 가장 큰 로봇 조작 데이터세트인 Open X-Embodiment 데이터세트의 800,000개 로봇 시연에 대해 사전 교육을 받았습니다. Octo는 새로운 관찰 및 행동 공간에 맞게 효율적으로 미세 조정된 최초의 GRP일 뿐만 아니라 완전히 오픈 소스(훈련 워크플로, 모델 체크포인트 및 데이터)인 최초의 일반 로봇 조작 전략이기도 합니다. 또한 팀은 결합된 Octo 구성 요소의 독특하고 혁신적인 특성을 논문에서 강조했습니다.

Octo 모델다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

오픈소스 종합 로봇 전략인 Octo가 어떻게 구축되는지 살펴보겠습니다. 전반적으로 Octo는 다양한 다운스트림 로봇 응용 프로그램 및 연구 프로젝트에서 사용할 수 있는 유연하고 광범위하게 적용 가능한 일반 로봇 공학 전략으로 설계되었습니다.

Architecture

Octo의 핵심은 Transformer의 π 전략을 기반으로 합니다. 여기에는 입력 토크나이저, Transformer 백본 네트워크 및 판독 헤드의 세 가지 주요 부분이 포함되어 있습니다.

그림 2에 표시된 것처럼 입력 토크나이저의 기능은 언어 명령, 대상 및 관찰 시퀀스를 토큰으로 변환하는 것입니다. Transformer 백본은 이러한 토큰을 임베딩으로 처리하고 판독 헤드는 필요한 출력을 얻습니다. 즉 행동이다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

Task and Observation Tokenizer

작업 정의(예: 언어 지침 및 대상 이미지)와 관찰(예: 카메라 비디오 스트림)을 일반적으로 사용되는 토큰화된 형식으로 변환하기 위해 팀은 다양한 양식에서 서로 다른 사용을 목표로 했습니다. 토크나이저:

언어 입력의 경우 먼저 토큰화된 후 사전 훈련된 Transformer를 통해 언어 내장 토큰 시퀀스로 처리됩니다. 구체적으로 그들이 사용한 모델은 t5-base(111M)이다.

이미지 관찰 및 대상의 경우 더 얕은 컨볼루션 스택을 통해 처리된 다음 일련의 평평한 타일로 분할됩니다.

마지막으로 Transformer의 입력 시퀀스는 학습 가능한 위치 임베딩을 작업 및 관찰 토큰에 추가하고 특정 순서로 배열하여 구성됩니다.

Transformer 백본 및 판독 헤드

입력을 통합 토큰 시퀀스로 처리한 후 처리를 위해 Transformer로 전달할 수 있습니다. 이는 관찰 및 동작 시퀀스를 기반으로 Transformer 기반 정책을 훈련하는 이전 연구 작업과 유사합니다.

Octo의 주의 모드는 블록별 마스킹입니다. 관찰 토큰은 인과 관계에 따라 동일하거나 이전 시간 단계의 토큰 및 작업 토큰에만 주의를 기울일 수 있습니다. 존재하지 않는 관찰에 해당하는 토큰은 완전히 마스킹됩니다(예: 언어 지침이 없는 데이터 세트). 이 모듈식 설계를 통해 미세 조정 단계에서 관찰이나 작업을 쉽게 추가하거나 제거할 수 있습니다.

팀에서는 이러한 입력 토큰 모듈 외에도 학습된 판독 토큰도 삽입했습니다. 판독 토큰은 이전 관찰 및 작업 토큰에 주의를 기울이지만 관찰 또는 작업 토큰에서는 주의를 기울이지 않습니다. 따라서 판독 토큰은 내부 임베딩을 읽고 처리할 수만 있고 내부 임베딩에는 영향을 미칠 수 없습니다. 판독 토큰은 BERT의 [CLS] 토큰과 유사하게 작동하며 지금까지 관찰 시퀀스의 컴팩트 벡터 임베딩 역할을 합니다. 읽기 토큰을 삽입하기 위해 확산 프로세스를 구현하는 경량 "작업 헤더"가 사용됩니다. 이 작업 헤더는 여러 연속 작업의 "청크"를 예측합니다.

이 디자인을 통해 사용자는 다운스트림 미세 조정 중에 모델에 새로운 작업과 관찰 입력 또는 작업 출력 헤더를 유연하게 추가할 수 있습니다. 새 작업, 관찰 또는 손실 함수를 다운스트림에 추가할 때 Transformer의 사전 훈련된 가중치를 전체적으로 유지하고 새 위치 임베딩, 새 경량 인코더 또는 사양 변경으로 인해 필요한 새 헤더만 추가할 수 있습니다. 이는 이미지 입력이 추가 또는 제거되거나 작업 사양이 변경된 경우 사전 학습된 모델의 수많은 구성 요소를 다시 초기화하거나 재학습해야 했던 이전 아키텍처와 다릅니다.

Octo를 진정한 "일반" 모델로 만들려면 이러한 유연성이 매우 중요합니다. 사전 훈련 단계에서 가능한 모든 로봇 센서와 동작 구성을 다루는 것은 불가능하기 때문에 Octo를 미세하게 조정할 수 있다면 튜닝 단계 입력 및 출력을 통해 로봇 커뮤니티를 위한 다목적 도구가 됩니다. 또한 표준 Transformer 백본을 사용하거나 시각적 인코더를 MLP 출력 헤드와 융합한 이전 모델 설계에서는 모델 입력의 유형과 순서가 고정되었습니다. 대조적으로, Octo의 관찰이나 작업을 전환하는 데에는 모델의 대부분을 다시 초기화할 필요가 없습니다.

Training data

팀은 Open X-Embodiment에서 25개 데이터세트의 혼합 데이터세트를 가져왔습니다. 그림 3은 데이터 세트의 구성을 보여줍니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

교육 목표 및 교육 하드웨어 구성에 대한 자세한 내용은 원본 문서를 참조하세요.

모델 체크포인트 및 코드

여기서 요점이 나옵니다! 팀은 Octo의 논문을 발표했을 뿐만 아니라 다음을 포함한 모든 리소스를 완전히 오픈 소스로 공개했습니다.

  • 2,700만 개의 매개변수가 있는 Octo-Small과 9,300만 개의 매개변수가 있는 Octo-Base를 포함하여 사전 훈련된 Octo 체크포인트입니다.
  • JAX를 기반으로 하는 Octo 모델용 미세 조정 스크립트입니다.
  • JAX를 기반으로 하는 Open X-Embodiment 데이터세트에서 Octo를 사전 훈련하기 위한 모델 사전 훈련 워크플로입니다. JAX 및 PyTorch와 호환되는 Open X-Embodiment 데이터용 데이터 로더입니다.

Experiment

팀은 또한 실험을 통해 Octo에 대한 실증 분석을 수행하고 기본 로봇 모델로서의 성능을 다차원적으로 평가했습니다.

  1. Octo를 직접 사용하여 여러 로봇을 제어할 수 있습니까? 신체와 언어 및 목표 과제를 해결합니까?
  2. Octo 가중치는 새로운 작업과 로봇에 대한 데이터 효율적인 미세 조정을 지원하는 좋은 초기화 기반 역할을 할 수 있습니까? 처음부터 훈련하는 방법과 일반적으로 사용되는 사전 훈련된 표현보다 우수합니까?
  3. 일반 로봇 전략을 수립할 때 Octo의 어떤 디자인 결정이 가장 중요합니까?

그림 4는 Octo를 평가하기 위한 9가지 작업을 보여줍니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

Octo를 사용하여 여러 로봇 제어

팀에서는 Octo, RT-1-X 및 RT-2-X의 제로 샘플 제어 기능을 비교했습니다. 그림 5.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

Octo의 성공률이 RT-1-X(3,500만 매개변수)보다 29% 더 높다는 것을 알 수 있습니다. WidowX 및 RT-1 Robot 평가에서 Octo의 성능은 550억 개의 매개변수를 갖춘 RT-2-X의 성능과 동일합니다.

또한 RT-1-X 및 RT-2-X는 언어 명령만 지원하는 반면 Octo는 대상 이미지에 대한 조건부도 지원합니다. 또한 팀은 WidowX 작업에서 언어를 조건으로 한 경우보다 대상 이미지를 조건으로 한 경우 성공률이 25% 더 높다는 사실을 발견했습니다. 이는 대상 이미지가 작업 완료에 대한 추가 정보를 제공하기 때문일 수 있습니다.

Octo는 데이터를 효율적으로 활용하여 새로운 분야에 적응할 수 있습니다

표 1은 데이터 효율적인 미세 조정의 실험 결과를 보여줍니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

처음부터 훈련하거나 사전 훈련된 VC-1 가중치를 사용하여 사전 훈련하는 것보다 Octo를 미세 조정하는 것이 더 나은 결과를 제공하는 것을 볼 수 있습니다. 6가지 평가 설정에서 Octo의 2위 기준 대비 평균 우위는 52%입니다!

그리고 언급해야 할 점은 이러한 모든 평가 작업에 대해 Octo를 미세 조정할 때 사용된 레시피와 하이퍼 매개변수가 모두 동일했다는 점입니다. 이는 팀이 매우 좋은 기본 구성을 찾았음을 보여줍니다.

일반 로봇 정책 훈련을 위한 설계 결정

위 결과는 Octo가 실제로 제로 샷 다중 로봇 컨트롤러로 사용될 수 있으며 정책 미세 조정을 위한 초기화 기반으로도 사용될 수 있음을 보여줍니다. . 다음으로 팀은 다양한 디자인 결정이 Octo 전략 성과에 미치는 영향을 분석했습니다. 특히 모델 아키텍처, 교육 데이터, 교육 목표 및 모델 크기와 같은 측면에 중점을 둡니다. 이를 위해 그들은 절제 연구를 수행했습니다.

표 2는 모델 아키텍처, 훈련 데이터 및 훈련 목표에 대한 절제 연구 결과를 보여줍니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

그림 6은 모델 크기가 제로 샘플 성공률에 미치는 영향을 보여줍니다. 모델이 클수록 시각적 장면 인식 기능이 더 우수하다는 것을 알 수 있습니다.

다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 Octopus 탄생

전반적으로 옥토 성분의 효능이 입증되었습니다.

위 내용은 다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 'Octopus' 탄생의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 Vidhya빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 Vidhya효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 Vidhya컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

OpenAi GPT-Image-1 API를 사용하여 이미지를 생성하고 편집하는 방법OpenAi GPT-Image-1 API를 사용하여 이미지를 생성하고 편집하는 방법Apr 27, 2025 am 09:16 AM

OpenAi의 최신 멀티 모드 모델 인 GPT-Image-1은 ChatGpt 내 및 API를 통해 이미지 생성을 혁신합니다. 이 기사는 기능, 사용 및 응용 프로그램을 탐구합니다. 목차 GPT-IMAGE-1 이해 GPT-Image-1의 주요 기능

CleanLab을 사용하여 데이터 전처리를 수행하는 방법은 무엇입니까? - 분석 VidhyaCleanLab을 사용하여 데이터 전처리를 수행하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:15 AM

성공적인 기계 학습의 경우 데이터 전처리가 가장 중요하지만 실제 데이터 세트에는 종종 오류가 포함됩니다. CleanLab은 파이썬 패키지를 사용하여 자신감있는 학습 알고리즘을 구현하는 효율적인 솔루션을 제공합니다. 감지를 자동화합니다

AI 기술 격차는 공급망을 늦추고 있습니다AI 기술 격차는 공급망을 늦추고 있습니다Apr 26, 2025 am 11:13 AM

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경