Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.

王林

Sep 03, 2024 pm 05:18 PM

산업리 페이페이ReKep

비전과 로봇 학습의 긴밀한 통합.

옷 개기, 차 따르기, 신발 싸기 등 로봇 손 두 개가 원활하게 작동하는 모습에 최근 화제가 되고 있는 1X 휴머노이드 로봇 NEO까지! 이제 로봇 시대로 접어들고 있다는 느낌이 듭니다.

Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.

사실 이 부드러운 움직임은 첨단 로봇 기술 + 절묘한 프레임 디자인 + 멀티모달 대형 모델의 산물입니다.

우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호 작용을 필요로 하며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있다는 것을 알고 있습니다.

예를 들어 로봇이 차를 따르도록 하려면 로봇이 먼저 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 찻주전자 입구가 물에 닿을 때까지 부드럽게 움직여야 합니다. 그런 다음 찻주전자를 비스듬히 기울입니다. 여기에서 제약 조건에는 중간 목표(예: 냄비 입구를 컵 입구 정렬)뿐만 아니라 전환 상태(예: 찻주전자를 똑바로 유지하는 것)도 포함되어 공간적, 시간적 및 기타 조합 요구 사항을 결정합니다. 환경에 따른 로봇의 행동.

그러나 현실 세계는 복잡하고 이러한 제약 조건을 어떻게 구성하는가는 매우 어려운 문제입니다.

최근 Li Feifei 팀은 이 연구 방향에서 획기적인 발전을 이루었고 ReKep/관계형 키포인트 제약 조건을 제안했습니다. 간단히 말해서, 이 방법은 작업을 일련의 관계 핵심 포인트로 나타냅니다. 또한 이 프레임워크는 GPT-4o와 같은 대규모 다중 모드 모델과도 잘 통합될 수 있습니다. 데모 비디오를 보면 이 방법이 꽤 잘 작동하는 것으로 보입니다. 팀은 관련 코드도 공개했습니다. 이 글은 황웬롱(Wenlong Huang)이 작성했습니다.

논문 제목: ReKep: Space-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
논문 주소: https://rekep-robot.github.io/rekep.pdf
프로젝트 웹사이트: https://rekep-robot.github.io
코드 주소: https://github.com/huangwl18/ReKep

Li Feifei는 이 작업이 비전과 로봇 학습의 더 깊은 통합을 보여준다고 말했습니다! 이 논문에서는 올해 초 Li Feifei가 설립한 공간 지능에 초점을 맞춘 AI 회사인 World Labs에 대해 언급하지 않았지만 ReKep은 분명히 공간 지능 분야에서 큰 잠재력을 가지고 있습니다.

방법

관계 핵심 제약(ReKep)

먼저 ReKep 인스턴스를 살펴보겠습니다. 여기서는 K개의 키 포인트 세트가 지정되었다고 가정합니다. 구체적으로, 각 키포인트 k_i ∈ ℝ^3은 데카르트 좌표가 있는 장면 표면의 3D 점입니다.

ReKep 인스턴스는 다음과 같은 함수입니다. ?: ℝ^{K×3}→ℝ; 이는 일련의 핵심 포인트(?로 표시됨)를 무제한 비용으로 매핑할 수 있습니다. ≤ 0이면 제약 조건이 충족됩니다. 구체적인 구현과 관련하여 팀은 비선형 및 비볼록일 수 있는 핵심 사항에 대한 NumPy 작업을 포함하는 상태 비저장 Python 함수로 ? 함수를 구현했습니다. 기본적으로 ReKep 인스턴스는 키포인트 간에 원하는 공간 관계를 인코딩합니다.

그러나 작업 작업에는 일반적으로 여러 공간 관계가 포함되며 각 단계마다 서로 다른 공간 관계가 필요한 여러 시간 관련 단계가 있을 수 있습니다. 이를 위해 팀의 접근 방식은 작업을 N 단계로 분해하고 ReKep을 사용하여 각 단계 i ∈ {1, ..., N}에 대해 두 가지 유형의 제약 조건을 지정하는 것입니다.

하위 목표 제약 세트

경로 제약 세트

여기서 Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다. 는 i 단계가 끝날 때 달성해야 할 핵심 관계를 인코딩하고, 는 i 단계 내 각 상태에서 충족해야 할 핵심 관계를 인코딩합니다. 그림 2의 차 붓기 작업을 예로 들어 보겠습니다. 이 작업은 차 잡기, 정렬, 붓기의 세 단계로 구성됩니다.

1단계 하위 목표 제약 조건은 찻주전자 손잡이 방향으로 엔드 이펙터에 도달하는 것입니다. 2단계 하위 목표 제약 조건은 찻주전자 입구를 컵 입구 위에 유지하는 것입니다. 또한 2단계 경로 제약 조건은 차가 쏟아지는 것을 방지하기 위해 찻주전자를 똑바로 유지하는 것입니다. 마지막 3단계 하위 목표 제약 조건은 지정된 차 붓는 각도에 도달하는 것입니다.

ReKep을 사용하여 작업 작업을 제한된 최적화 문제로 정의합니다.

ReKep을 사용하여 로봇 작업 작업을 하위 목표 및 경로가 포함된 제한된 최적화 문제로 변환합니다. 엔드 이펙터 포즈는 여기서 ∈ SE(3)로 표시됩니다. 연산 작업을 수행하기 위해 여기서의 목표는 전체 이산시간 궤적?_{1:T}:

즉, 각 단계에 대해 i , 최적화 문제의 목표는 주어진 ReKep 제약 조건 및 보조 비용 세트가 주어지면 다음 하위 목표(및 관련 시간)로 엔드 이펙터 포즈와 이 하위 목표를 달성하는 포즈 시퀀스를 찾는 것입니다. 이 공식은 궤적 최적화에서 직접 사격으로 간주될 수 있습니다.

분해 및 알고리즘 인스턴스화

위 수식 1을 실시간으로 풀기 위해 팀에서는 전체 문제를 분해하고 다음 하위 문제에만 집중하는 방식을 선택했습니다. 목표와 달성 하위 목표의 해당 경로가 최적화됩니다. 알고리즘 1은 이 프로세스의 의사코드를 제공합니다.

하위 목표 문제의 해법은 다음과 같습니다.

경로 문제의 해법은 다음과 같습니다.

백트래킹

실제 환경은 복잡하고 변화하기 쉽기 때문에 때로는 작업 중에 이전 단계의 하위 목표 제약 조건이 더 이상 유지되지 않을 수도 있습니다. 예를 들어, 찻잔을 부을 때)을 치울 때) 이번에는 다시 계획을 세워야 합니다. 팀의 접근 방식은 문제의 경로를 확인하는 것입니다. 문제가 발견되면 반복적으로 이전 단계로 돌아갑니다.

핵심점의 순방향 모델

방정식 2, 3을 풀기 위해 팀에서는 최적화 과정에서 사용할 수 있는 순방향 모델 h를 사용했습니다. 프로세스 Δ?를 기반으로 추정합니다. 구체적으로는, 엔드 이펙터 자세 Δτ의 변화에 대해 동일한 상대 강성 변환 τ'[파악] = T_{Δ?}・?[파악]을 적용하여 키 포인트 위치 변화를 계산하고, 다른 키를 가정한다. 요점은 여전히 남아 있습니다.

핵심 제안 및 ReKep 생성

시스템이 실제 상황에서 다양한 작업을 자유롭게 수행할 수 있도록 대형 모델도 활용했습니다! 구체적으로 대규모 시각적 모델과 시각적 언어 모델을 사용하여 키포인트 제안 및 ReKep 생성을 위한 파이프라인 프로세스를 설계했습니다.

핵심 제안

RGB 이미지가 주어지면 DINOv2는 먼저 패치 수준 기능 F_patch를 추출하는 데 사용됩니다. 그런 다음 특징을 원래 이미지 크기인 F_interp로 업샘플링하기 위해 쌍선형 보간이 수행됩니다. 제안이 장면의 모든 관련 객체를 포괄하는지 확인하기 위해 SAM(Segment Anything)을 사용하여 장면의 모든 마스크 M = {m_1, m_2, ... , m_n}을 추출했습니다.

각 마스크 j에 대해 k-평균(k = 5)과 코사인 유사성 측정을 사용하여 마스크 특징 F_interp[m_j]를 클러스터링합니다. 클러스터의 중심은 후보 키포인트로 사용되며 보정된 RGB-D 카메라를 사용하여 세계 좌표 ℝ^3에 투영됩니다. 후보 키포인트로부터 8cm 이내에 있는 다른 후보는 필터링됩니다. 전반적으로 팀은 이 프로세스가 세밀하고 의미상 의미 있는 객체 영역을 다수 식별할 수 있다는 것을 발견했습니다.

ReKep 생성

후보 핵심 포인트를 얻은 후 원본 RGB 이미지에 겹쳐서 숫자로 표시합니다. 그런 다음 특정 작업의 언어 지침과 결합하여 GPT-4o를 쿼리하여 필요한 단계 수와 각 단계 i에 해당하는 하위 목표 제약 조건 및 경로 제약 조건을 생성합니다.

실험

팀은 실험을 통해 제약조건 설계를 검증하고 다음 세 가지 질문에 답하려고 노력했습니다.

1. 자동화된 빌드 및 구성 작업이 작동합니까?

2. 시스템이 새로운 객체와 조작 전략에 얼마나 잘 일반화됩니까?

3. 다양한 구성 요소가 시스템 오류에 어떤 영향을 미칠 수 있나요?

ReKep을 사용하여 두 개의 로봇 팔 작동

다단계(m), 현장/실제 시나리오(w), 양손(b) 및 반응(r) 동작. 이러한 작업에는 차 따르기(m, w, r), 책 정리(w), 재활용 캔 정리(w), 상자 테이핑(w, r), 빨래 접기(b), 신발 포장(b) 및 공동 접기(b, 아르 자형).

결과는 표 1에 나와 있으며, 성공률 데이터가 보고되어 있습니다.

전체적으로 새로 제안하는 시스템은 업무별 데이터나 환경 모델이 제공되지 않더라도 비정형 환경에서도 올바른 제약 조건을 구성하고 실행할 수 있다. 특히 ReKep은 각 작업의 핵심 퍼즐을 효과적으로 처리합니다.

실제 실행 과정을 애니메이션으로 보여드립니다.

Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.

운영 전략의 일반화

팀은 세탁물 접기 작업을 기반으로 새로운 전략의 일반화 성능을 탐색했습니다. 간단히 말해서 시스템이 다양한 종류의 옷을 접을 수 있는지 확인하는 것입니다. 이를 위해서는 기하학과 상식적인 추론이 필요합니다.

여기에서는 GPT-4o가 사용되며 프롬프트에는 상황별 예시 없이 일반적인 지침만 포함됩니다. "전략 성공"은 생성된 ReKep이 실행 가능함을 의미하고, "실행 성공"은 각 의류 유형에 대해 주어진 실행 가능한 전략의 시스템 성공률을 측정합니다.

결과가 흥미롭습니다. 시스템은 옷마다 다른 전략을 사용하고 옷을 개는 방법 중 일부는 인간이 일반적으로 사용하는 방법과 동일하다는 것을 알 수 있습니다.

시스템 오류 분석

프레임워크 설계가 모듈식이므로 쉽게 시스템 오류 분석에 편리합니다. 팀은 표 1의 실험에서 발생한 실패 사례를 수동으로 검사한 후 이를 기반으로 파이프라인 프로세스의 시간적 종속성을 고려하여 모듈이 오류를 일으킬 가능성을 계산했습니다. 결과는 그림 5에 나와 있습니다.

여러 모듈 중에서 키 포인트 추적기가 가장 많은 오류를 생성하는 것을 볼 수 있습니다. 빈번하고 간헐적인 폐색으로 인해 시스템이 정확하게 추적하기 어렵기 때문입니다.

위 내용은 Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.