칭화대학교 학제간 정보 연구소의 연구원들은 로봇이 보편적 비전 기반 인간-기계 핸드오버 전략을 학습할 수 있도록 하는 것을 목표로 하는 "GenH2R"이라는 프레임워크를 제안했습니다. 이 전략을 통해 로봇은 다양한 모양과 복잡한 동작 궤적을 가진 다양한 물체를 보다 안정적으로 잡을 수 있어 인간과 컴퓨터의 상호 작용에 새로운 가능성을 제공합니다. 이 연구는 인공 지능 분야의 발전을 위한 중요한 돌파구를 제공하고 실제 시나리오에서 로봇을 적용하는 데 더 큰 유연성과 적응성을 제공합니다.
실체지능(Embodied AI) 시대가 도래하면서 지능체들이 환경과 적극적으로 상호작용할 것으로 기대됩니다. 이 과정에서 인간의 생활환경에 로봇을 접목시켜 인간과 상호작용(Human Robot Interaction)하는 것이 중요해졌습니다. 인간의 행동과 의도를 어떻게 이해하고, 인간의 기대에 가장 부합하는 방식으로 그들의 요구를 충족시키며, 인간을 구체화된 지능(Human-Centered Embodied AI)의 중심에 두는 방법에 대해 고민해야 합니다. 핵심 기술 중 하나는 일반화 가능한 인간-로봇 핸드오버(Generalised Human-to-Robot Handover)로, 이를 통해 로봇은 인간과 더 잘 협력하여 요리, 집안 정리, 가구 조립 등 다양한 일상 작업을 완료할 수 있습니다.
대형 모델의 폭발적인 발전은 대량의 고품질 데이터 + 대규모 학습이 일반 지능으로 나아갈 수 있는 방법임을 나타냅니다. 따라서 대량의 로봇 데이터와 대규모 학습을 통해 일반적인 인간-기계 인수 기술을 얻을 수 있습니까? 규모 전략 모방? 그러나 현실 세계에서 로봇과 인간 사이에 대규모 대화형 학습을 허용하는 것은 위험하고 비용이 많이 들고, 기계가 인간에게 해를 끼칠 가능성이 높습니다.
시뮬레이션 환경에서 훈련하고 인간 시뮬레이션과 동역학을 사용 동작 계획을 파악해 대량의 다양한 로봇 학습 데이터를 자동으로 제공하고, 이 데이터를 실제 로봇에 적용하는 방식을 'Sim-to-Real Transfer'라고 부르는데, 이는 로봇과 실제 로봇의 관계를 획기적으로 향상시킬 수 있습니다. 로봇. 인간 간의 협업 상호작용 능력이 높아 신뢰성이 높습니다.
그래서 시뮬레이션, 실증, 모방의 세 가지 관점에서 시작하여 "GenH2R" 프레임워크가 제안되었습니다. 로봇이 처음으로 엔드투엔드 기반으로 학습할 수 있도록 합니다. 잡는 방법, 핸드오버 궤적 및 객체 형상: 1) "GenH2R-Sim" 환경에서 쉽게 생성할 수 있는 수백만 레벨의 다양하고 복잡한 시뮬레이션 핸드오버 시나리오 제공, 2) 자동화된 전문가 데모 생성 프로세스 세트 도입 비전-액션 협업 기반, 3) 4D 정보 및 예측 지원(포인트 클라우드 + 시간) 기반의 모방 학습 방식을 사용합니다.
SOTA 방법(CVPR2023 하이라이트)과 비교하여 다양한 테스트 세트에서 GenH2R 방법의 평균 성공률은 14% 증가하고 시간은 13% 단축되었으며 실제 기계 실험에서 더욱 강력하게 수행됩니다.
아직 레벨을 클리어하지 못한 플레이어들에게 도움을 주기 위해 "시뮬레이션 환경(GenH2R-Sim)"의 구체적인 퍼즐 풀이 방법에 대해 알아보겠습니다. )".
고품질의 대규모 인간 손 개체 데이터 세트를 생성하기 위해 GenH2R-Sim 환경은 포즈 및 모션 궤적 파악 측면에서 장면을 모델링합니다.
포즈 파악 측면에서 GenH2R-Sim은 ShapeNet의 풍부한 3D 개체 모델을 도입하고 핸드오버에 적합한 3266개의 일일 개체를 선택했으며 능숙한 잡기 생성 방법(DexGraspNet)을 사용하여 수십 개의 A 장면을 총 100개 생성했습니다. 수천 개의 손이 물건을 잡는다. 모션 궤적 측면에서 GenH2R-Sim은 여러 개의 제어점을 사용하여 여러 개의 부드러운 베지어 곡선을 생성하고 인간 손과 물체의 회전을 도입하여 손으로 전달한 물체의 다양하고 복잡한 모션 궤적을 시뮬레이션합니다.
GenH2R-Sim의 1백만 장면에서 모션 궤적(1천 대 1백만) 및 개체 수(20 대 3266) 측면에서 최신 작업을 훨씬 능가할 뿐만 아니라 다음과 같은 방법을 도입합니다. 단순한 궤적 재생이 아닌 대화형 정보(예: 로봇 팔이 물체에 충분히 가까워지면 인간이 움직임을 멈추고 핸드오버가 완료될 때까지 기다림)가 실제 상황에 가깝습니다. 시뮬레이션을 통해 생성된 데이터가 완전히 현실적이지는 않지만 실험 결과에 따르면 소규모 실제 데이터보다 대규모 시뮬레이션 데이터가 학습에 더 도움이 되는 것으로 나타났습니다.
B. 증류를 용이하게 하는 대규모 전문가 사례 생성
GenH2R은 대규모 인간 손 및 물체의 움직임 궤적 데이터를 기반으로 수많은 전문가 사례를 자동으로 생성합니다. GenH2R이 추구하는 "전문가"는 향상된 모션 플래너(예: OMG Planner)입니다. 이러한 방법은 비학습, 제어 기반 최적화이며 시각적 포인트 클라우드에 의존하지 않으며 종종 일부 장면 상태(예: 대상 잡기 위치)가 필요합니다. 객체의). 후속 시각적 정책 네트워크가 학습에 유익한 정보를 추출할 수 있도록 하기 위해서는 "전문가"가 제공하는 사례가 비전-행동 상관 관계를 갖도록 하는 것이 핵심입니다. 계획 중에 최종 착지 지점이 알려진 경우 로봇 팔은 비전을 무시하고 "기다려" 최종 위치로 직접 계획을 세울 수 있습니다. 이로 인해 로봇의 카메라가 객체를 볼 수 없게 될 수 있습니다. 하류 시각적 전략 네트워크; 로봇 팔이 물체의 위치에 따라 자주 재설계되면 로봇 팔이 불연속적으로 움직이고 이상한 모양으로 나타나 합리적인 파지가 불가능해질 수 있습니다.
증류 친화적인 전문가 사례를 생성하기 위해 GenH2R은 랜드마크 계획을 도입합니다. 인간 손의 움직임 궤적은 랜드마크를 분할 표시로 사용하여 궤적의 부드러움과 거리에 따라 여러 세그먼트로 분할됩니다. 각 세그먼트에서 인간의 손 궤적은 매끄럽고 전문가 방법은 랜드마크 지점을 향해 계획합니다. 이 접근 방식은 시각적 동작 상관관계와 동작 연속성을 모두 보장합니다.
C. 예측 기반 4D 모방 학습 네트워크
GenH2R은 대규모 전문가 사례를 기반으로 4D 정책 네트워크를 구축하여 시계열 포인트 클라우드 정보를 관찰합니다. 기하학적 및 운동학적 분해. 각 프레임 포인트 클라우드에 대해 이전 프레임의 포인트 클라우드와 반복적인 최근접 포인트 알고리즘 간의 포즈 변환을 계산하여 각 포인트의 흐름 정보를 추정함으로써 각 프레임의 포인트 클라우드가 모두 움직임 특성을 갖게 됩니다. 그런 다음 PointNet++를 사용하여 포인트 클라우드의 각 프레임을 인코딩합니다. 마지막으로 필요한 최종 6D 자기중심적 동작을 디코딩할 뿐만 아니라 객체의 미래 자세에 대한 추가 예측을 출력하여 미래 손과 객체 움직임을 예측하는 정책 네트워크의 능력을 향상시킵니다.
더 복잡한 4D 백본(예: Transformer 기반)과 달리 이 네트워크 아키텍처의 추론 속도는 매우 빠르며 개체를 넘겨주는 것과 같은 인간-컴퓨터 상호 작용 시나리오에 더 적합합니다. 동시에 낮은 대기 시간이 필요하며 타이밍 정보를 효과적으로 활용하여 단순성과 효율성 사이의 균형을 이룰 수도 있습니다.
A. 시뮬레이션 환경 실험
GenH2R과 SOTA 방식을 소규모의 실제 데이터 트레이닝을 이용한 방식과 비교하였고, 대용량의 GenH2R-Sim을 활용한 방식을 비교하였습니다. 훈련을 위한 규모의 시뮬레이션 데이터는 상당한 이점을 얻을 수 있습니다(다양한 테스트 세트의 성공률은 평균 14% 증가하고 시간은 13% 단축).
실제 데이터 테스트 세트 s0에서 GenH2R 방법은 더 복잡한 물체를 성공적으로 전달할 수 있으며 그리퍼가 물체에 가까울 때 잦은 자세 조정을 피하기 위해 자세를 미리 조정할 수 있습니다.
시뮬레이션 데이터 테스트 세트 t0(GenH2R-sim에서 도입)에서 GenH2R의 방법은 물체의 미래 자세를 예측하여 보다 합리적인 접근 궤적을 달성할 수 있습니다.
실제 데이터 테스트 세트 t1에서( GenH2R -sim은 HOI4D에서 도입되었으며(이전 작업의 s0 테스트 세트보다 약 7배 더 큼) GenH2R의 방법은 다양한 형상을 가진 보이지 않는 실제 객체로 일반화될 수 있습니다.
B. 실제 기계 실험
GenH2R은 또한 학습된 전략을 현실 세계의 로봇 팔에 배포하여 "sim-to-real" 점프를 완료합니다.
더 복잡한 모션 궤적(예: 회전)의 경우 GenH2R의 전략은 더 복잡한 형상에 대해 더 강력한 적응성을 보여주며 GenH2R의 방법은 더 강력한 일반화를 보여줄 수 있습니다.
GenH2R은 실제 기계 테스트와 사용자 연구를 완료했습니다. 다양한 핸드오버 객체로 강력한 견고성을 보여줍니다.
더 많은 실험과 방법은 논문 홈페이지를 참고해주세요.
이 논문은 Tsinghua University 3DVICI Lab, Shanghai Artificial Intelligence Laboratory 및 Shanghai Qizhi Research Institute에서 제공되었습니다. 논문의 저자는 Tsinghua University 학생 Wang Zifan(공동 저자), Chen Junyu(공동)입니다. -저자), Chen Ziqing 및 Xie Pengwei, 강사는 Yi Li 및 Chen Rui입니다.
칭화대학교 3D 비전 컴퓨팅 및 기계 지능 연구실(3DVICI Lab)은 칭화대학교 학제간 정보 연구소 산하 인공지능 연구실로 Yi Li 교수가 지도하고 있습니다. 3DVICI 연구실은 인공지능 분야의 일반적인 3차원 시각과 지능형 로봇 상호작용의 가장 최첨단 이슈를 목표로 하고 있으며, 연구 방향은 체화된 인식, 상호작용 계획 및 생성, 인간-기계 협업 등을 포괄하며 응용과 밀접하게 관련되어 있습니다. 로봇공학, 가상현실, 자율주행 등의 분야. 팀의 연구 목표는 지능형 에이전트가 3차원 세계를 이해하고 상호 작용할 수 있도록 하는 것입니다. 결과는 주요 컴퓨터 컨퍼런스 및 저널에 게재되었습니다.
위 내용은 로봇이 '여기 있습니다'를 감지하도록 하세요. Tsinghua 팀은 수백만 가지 시나리오를 사용하여 보편적인 인간-기계 핸드오버를 만듭니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!