비전과 로봇 학습의 긴밀한 통합.
옷 개기, 차 따르기, 신발 싸기 등 로봇 손 두 개가 원활하게 작동하는 모습에 최근 화제가 되고 있는 1X 휴머노이드 로봇 NEO까지! 이제 로봇 시대로 접어들고 있다는 느낌이 듭니다.

사실 이 부드러운 움직임은 첨단 로봇 기술 + 절묘한 프레임 디자인 + 멀티모달 대형 모델의 산물입니다.
우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호 작용을 필요로 하며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있다는 것을 알고 있습니다.
예를 들어 로봇이 차를 따르도록 하려면 로봇이 먼저 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 찻주전자 입구가 물에 닿을 때까지 부드럽게 움직여야 합니다. 그런 다음 찻주전자를 비스듬히 기울입니다. 여기에서 제약 조건에는 중간 목표(예: 냄비 입구를 컵 입구 정렬)뿐만 아니라 전환 상태(예: 찻주전자를 똑바로 유지하는 것)도 포함되어 공간적, 시간적 및 기타 조합 요구 사항을 결정합니다. 환경에 따른 로봇의 행동.
그러나 현실 세계는 복잡하고 이러한 제약 조건을 어떻게 구성하는가는 매우 어려운 문제입니다.
최근 Li Feifei 팀은 이 연구 방향에서 획기적인 발전을 이루었고 ReKep/관계형 키포인트 제약 조건을 제안했습니다. 간단히 말해서, 이 방법은 작업을 일련의 관계 핵심 포인트로 나타냅니다. 또한 이 프레임워크는 GPT-4o와 같은 대규모 다중 모드 모델과도 잘 통합될 수 있습니다. 데모 비디오를 보면 이 방법이 꽤 잘 작동하는 것으로 보입니다. 팀은 관련 코드도 공개했습니다. 이 글은 황웬롱(Wenlong Huang)이 작성했습니다.

논문 제목: ReKep: Space-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
논문 주소: https://rekep-robot.github.io/rekep.pdf
프로젝트 웹사이트: https://rekep-robot.github.io
코드 주소: https://github.com/huangwl18/ReKep
Li Feifei는 이 작업이 비전과 로봇 학습의 더 깊은 통합을 보여준다고 말했습니다! 이 논문에서는 올해 초 Li Feifei가 설립한 공간 지능에 초점을 맞춘 AI 회사인 World Labs에 대해 언급하지 않았지만 ReKep은 분명히 공간 지능 분야에서 큰 잠재력을 가지고 있습니다.

방법

관계 핵심 제약(ReKep)
먼저 ReKep 인스턴스를 살펴보겠습니다. 여기서는 K개의 키 포인트 세트가 지정되었다고 가정합니다. 구체적으로, 각 키포인트 k_i ∈ ℝ^3은 데카르트 좌표가 있는 장면 표면의 3D 점입니다.
ReKep 인스턴스는 다음과 같은 함수입니다. ?: ℝ^{K×3}→ℝ; 이는 일련의 핵심 포인트(?로 표시됨)를 무제한 비용으로 매핑할 수 있습니다. ≤ 0이면 제약 조건이 충족됩니다. 구체적인 구현과 관련하여 팀은 비선형 및 비볼록일 수 있는 핵심 사항에 대한 NumPy 작업을 포함하는 상태 비저장 Python 함수로 ? 함수를 구현했습니다. 기본적으로 ReKep 인스턴스는 키포인트 간에 원하는 공간 관계를 인코딩합니다.
그러나 작업 작업에는 일반적으로 여러 공간 관계가 포함되며 각 단계마다 서로 다른 공간 관계가 필요한 여러 시간 관련 단계가 있을 수 있습니다. 이를 위해 팀의 접근 방식은 작업을 N 단계로 분해하고 ReKep을 사용하여 각 단계 i ∈ {1, ..., N}에 대해 두 가지 유형의 제약 조건을 지정하는 것입니다.

하위 목표 제약 세트

경로 제약 세트
여기서 는 i 단계가 끝날 때 달성해야 할 핵심 관계를 인코딩하고,
는 i 단계 내 각 상태에서 충족해야 할 핵심 관계를 인코딩합니다. 그림 2의 차 붓기 작업을 예로 들어 보겠습니다. 이 작업은 차 잡기, 정렬, 붓기의 세 단계로 구성됩니다.
1단계 하위 목표 제약 조건은 찻주전자 손잡이 방향으로 엔드 이펙터에 도달하는 것입니다. 2단계 하위 목표 제약 조건은 찻주전자 입구를 컵 입구 위에 유지하는 것입니다. 또한 2단계 경로 제약 조건은 차가 쏟아지는 것을 방지하기 위해 찻주전자를 똑바로 유지하는 것입니다. 마지막 3단계 하위 목표 제약 조건은 지정된 차 붓는 각도에 도달하는 것입니다.
ReKep을 사용하여 작업 작업을 제한된 최적화 문제로 정의합니다.
ReKep을 사용하여 로봇 작업 작업을 하위 목표 및 경로가 포함된 제한된 최적화 문제로 변환합니다. 엔드 이펙터 포즈는 여기서 ∈ SE(3)로 표시됩니다. 연산 작업을 수행하기 위해 여기서의 목표는 전체 이산시간 궤적?_{1:T}:

즉, 각 단계에 대해 i , 최적화 문제의 목표는 주어진 ReKep 제약 조건 및 보조 비용 세트가 주어지면 다음 하위 목표(및 관련 시간)로 엔드 이펙터 포즈와 이 하위 목표를 달성하는 포즈 시퀀스를 찾는 것입니다. 이 공식은 궤적 최적화에서 직접 사격으로 간주될 수 있습니다.
분해 및 알고리즘 인스턴스화
위 수식 1을 실시간으로 풀기 위해 팀에서는 전체 문제를 분해하고 다음 하위 문제에만 집중하는 방식을 선택했습니다. 목표와 달성 하위 목표의 해당 경로가 최적화됩니다. 알고리즘 1은 이 프로세스의 의사코드를 제공합니다.

하위 목표 문제의 해법은 다음과 같습니다.

경로 문제의 해법은 다음과 같습니다.

백트래킹
실제 환경은 복잡하고 변화하기 쉽기 때문에 때로는 작업 중에 이전 단계의 하위 목표 제약 조건이 더 이상 유지되지 않을 수도 있습니다. 예를 들어, 찻잔을 부을 때)을 치울 때) 이번에는 다시 계획을 세워야 합니다. 팀의 접근 방식은 문제의 경로를 확인하는 것입니다. 문제가 발견되면 반복적으로 이전 단계로 돌아갑니다.

핵심점의 순방향 모델
방정식 2, 3을 풀기 위해 팀에서는 최적화 과정에서 사용할 수 있는 순방향 모델 h를 사용했습니다. 프로세스 Δ?를 기반으로 추정합니다. 구체적으로는, 엔드 이펙터 자세 Δτ의 변화에 대해 동일한 상대 강성 변환 τ'[파악] = T_{Δ?}・?[파악]을 적용하여 키 포인트 위치 변화를 계산하고, 다른 키를 가정한다. 요점은 여전히 남아 있습니다.
핵심 제안 및 ReKep 생성
시스템이 실제 상황에서 다양한 작업을 자유롭게 수행할 수 있도록 대형 모델도 활용했습니다! 구체적으로 대규모 시각적 모델과 시각적 언어 모델을 사용하여 키포인트 제안 및 ReKep 생성을 위한 파이프라인 프로세스를 설계했습니다.
핵심 제안
RGB 이미지가 주어지면 DINOv2는 먼저 패치 수준 기능 F_patch를 추출하는 데 사용됩니다. 그런 다음 특징을 원래 이미지 크기인 F_interp로 업샘플링하기 위해 쌍선형 보간이 수행됩니다. 제안이 장면의 모든 관련 객체를 포괄하는지 확인하기 위해 SAM(Segment Anything)을 사용하여 장면의 모든 마스크 M = {m_1, m_2, ... , m_n}을 추출했습니다.
각 마스크 j에 대해 k-평균(k = 5)과 코사인 유사성 측정을 사용하여 마스크 특징 F_interp[m_j]를 클러스터링합니다. 클러스터의 중심은 후보 키포인트로 사용되며 보정된 RGB-D 카메라를 사용하여 세계 좌표 ℝ^3에 투영됩니다. 후보 키포인트로부터 8cm 이내에 있는 다른 후보는 필터링됩니다. 전반적으로 팀은 이 프로세스가 세밀하고 의미상 의미 있는 객체 영역을 다수 식별할 수 있다는 것을 발견했습니다.
ReKep 생성
후보 핵심 포인트를 얻은 후 원본 RGB 이미지에 겹쳐서 숫자로 표시합니다. 그런 다음 특정 작업의 언어 지침과 결합하여 GPT-4o를 쿼리하여 필요한 단계 수와 각 단계 i에 해당하는 하위 목표 제약 조건 및 경로 제약 조건을 생성합니다.
실험
팀은 실험을 통해 제약조건 설계를 검증하고 다음 세 가지 질문에 답하려고 노력했습니다.
1. 자동화된 빌드 및 구성 작업이 작동합니까?
2. 시스템이 새로운 객체와 조작 전략에 얼마나 잘 일반화됩니까?
3. 다양한 구성 요소가 시스템 오류에 어떤 영향을 미칠 수 있나요?
ReKep을 사용하여 두 개의 로봇 팔 작동
다단계(m), 현장/실제 시나리오(w), 양손(b) 및 반응(r) 동작. 이러한 작업에는 차 따르기(m, w, r), 책 정리(w), 재활용 캔 정리(w), 상자 테이핑(w, r), 빨래 접기(b), 신발 포장(b) 및 공동 접기(b, 아르 자형).
결과는 표 1에 나와 있으며, 성공률 데이터가 보고되어 있습니다.

전체적으로 새로 제안하는 시스템은 업무별 데이터나 환경 모델이 제공되지 않더라도 비정형 환경에서도 올바른 제약 조건을 구성하고 실행할 수 있다. 특히 ReKep은 각 작업의 핵심 퍼즐을 효과적으로 처리합니다.
실제 실행 과정을 애니메이션으로 보여드립니다.

운영 전략의 일반화
팀은 세탁물 접기 작업을 기반으로 새로운 전략의 일반화 성능을 탐색했습니다. 간단히 말해서 시스템이 다양한 종류의 옷을 접을 수 있는지 확인하는 것입니다. 이를 위해서는 기하학과 상식적인 추론이 필요합니다.

여기에서는 GPT-4o가 사용되며 프롬프트에는 상황별 예시 없이 일반적인 지침만 포함됩니다. "전략 성공"은 생성된 ReKep이 실행 가능함을 의미하고, "실행 성공"은 각 의류 유형에 대해 주어진 실행 가능한 전략의 시스템 성공률을 측정합니다.
결과가 흥미롭습니다. 시스템은 옷마다 다른 전략을 사용하고 옷을 개는 방법 중 일부는 인간이 일반적으로 사용하는 방법과 동일하다는 것을 알 수 있습니다.


시스템 오류 분석
프레임워크 설계가 모듈식이므로 쉽게 시스템 오류 분석에 편리합니다. 팀은 표 1의 실험에서 발생한 실패 사례를 수동으로 검사한 후 이를 기반으로 파이프라인 프로세스의 시간적 종속성을 고려하여 모듈이 오류를 일으킬 가능성을 계산했습니다. 결과는 그림 5에 나와 있습니다.

여러 모듈 중에서 키 포인트 추적기가 가장 많은 오류를 생성하는 것을 볼 수 있습니다. 빈번하고 간헐적인 폐색으로 인해 시스템이 정확하게 추적하기 어렵기 때문입니다.
위 내용은 Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전
유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기
