집 >기술 주변기기 >일체 포함 >로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.

로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.

王林원래의: 2024-07-17 05:58:401164검색

긴 맥락의 대형 모델은 로봇이 세상을 이해하는 데 도움이 됩니다.

최근 Google DeepMind가 갑자기 로봇을 선보이기 시작했습니다.

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

이 로봇은 쉽게 인간의 지시를 따르고, 시각적 탐색을 수행하고, 상식적인 추론을 사용하여 3차원 공간에서 경로를 찾을 수 있습니다.

Google이 최근 출시한 대형 모델인 Gemini 1.5 Pro를 사용합니다. 기존 AI 모델을 사용할 때 로봇은 컨텍스트 길이 제한으로 인해 환경 세부 정보를 기억하는 데 어려움을 겪는 경우가 많지만 Gemini 1.5 Pro의 백만 수준 토큰 컨텍스트 길이는 로봇에게 강력한 환경 메모리 기능을 제공합니다.

실제 사무실 시나리오에서 엔지니어는 로봇을 특정 영역으로 안내하고 "루이스의 책상" 또는 "임시 책상 영역"과 같이 호출해야 하는 주요 위치를 표시합니다. 원을 완성한 후 누군가 요청하면 로봇은 이러한 기억을 바탕으로 해당 위치로 그를 데려갈 수 있습니다.

가고 싶은 장소를 구체적으로 말할 수 없더라도 목적만 표현하면 로봇이 해당 장소까지 데려다줍니다. 이는 로봇의 대형 모델의 추론 능력을 구체적으로 표현한 것입니다.

이 모든 것은 Mobility VLA라는 탐색 전략과 분리될 수 없습니다.

논문 제목: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
논문 링크: https://arxiv.org/pdf/2407.07775v1

DeepMind는 이 작업이 인간과 컴퓨터 상호 작용의 다음 단계를 나타낸다고 말합니다. 앞으로는 사용자들이 스마트폰으로 간편하게 환경 투어를 촬영할 수 있게 될 것입니다. 비디오를 시청한 후 개인 로봇 비서는 환경을 이해하고 탐색할 수 있었습니다.

이동성 VLA: 긴 컨텍스트 VLM 및 토폴로지 맵을 사용한 다중 모드 명령 탐색

AI 기술의 지속적인 발전으로 로봇 탐색은 큰 발전을 이루었습니다. 초기 작업은 미리 그려진 환경에서 사용자가 물리적 좌표를 지정하는 데 의존했습니다. ObjNav(객체 목표 탐색) 및 VLN(시각적 언어 탐색)은 사용자가 개방형 어휘 언어를 사용하여 "소파로 이동"과 같은 탐색 목표를 정의할 수 있게 해주기 때문에 로봇 유용성에 있어서 큰 도약입니다.

로봇을 일상생활에서 정말 유용하고 유비쿼터스하게 만들기 위해 Google DeepMind의 연구원들은 ObjNav 및 VLN의 자연어 공간을 다중 모달 공간으로 업그레이드할 것을 제안했습니다. 동시에 또 다른 도약을 위한 언어적, 시각적 명령. 예를 들어, 건물에 익숙하지 않은 사람이 플라스틱 상자를 들고 "이것을 어디에 반납해야 합니까?"라고 물으면 로봇은 언어적, 시각적 맥락에 따라 사용자에게 상자를 선반에 반납하도록 안내합니다. 그들은 이러한 유형의 탐색 작업을 다중 모드 표시 탐색(MIN)이라고 부릅니다.

MIN은 환경 탐사 및 명령 안내 탐색을 포함하는 광범위한 임무입니다. 하지만 많은 경우 시연 투어 비디오를 활용하여 둘러볼 수 있습니다. 시연 투어에는 여러 가지 이점이 있습니다.

수집 용이성: 사용자는 로봇을 원격으로 제어하거나 주변을 돌아다니는 동안 스마트폰으로 비디오를 녹화할 수 있습니다. 또한 투어를 만드는 데 사용할 수 있는 탐색 알고리즘이 있습니다.
사용자의 습관에 맞춰집니다. 사용자가 새 홈 로봇을 구입하면 자연스럽게 집 주변으로 로봇을 데리고 다니며 방문하는 동안 관심 있는 장소를 구두로 소개할 수 있습니다.
보안 및 개인 정보 보호를 위해 로봇 활동을 미리 설정된 영역으로 제한하는 것이 바람직한 경우도 있습니다. 이를 위해 저자는 본 논문에서 이러한 유형의 작업, 즉 데모 투어를 활용하고 사용자의 다중 모드 명령을 만족시키는 데 중점을 둔 "Multimodal Instruction Tour Navigation (MINT)"을 소개하고 연구합니다.

최근 대규모 시각적 언어 모델(VLM)은 구현의 핵심 요소인 상식적 추론뿐만 아니라 언어 및 이미지 이해의 인상적인 기능 덕분에 MINT 문제를 해결하는 데 큰 잠재력을 보여주었습니다. 민트.그러나 VLM만으로는 다음과 같은 이유로 MINT 문제를 해결하기 어렵습니다.

컨텍스트 길이 제약으로 인해 많은 VLM은 입력 이미지 수가 매우 제한되어 있어 환경 이해의 충실도가 크게 제한됩니다. 환경.
MINT 문제를 해결하려면 로봇의 행동을 계산해야 합니다. 이러한 로봇 작업을 요청하는 쿼리는 VLM이 (사전) 훈련된 내용과 일치하지 않는 경우가 많습니다. 따라서 로봇의 제로 샘플 성능은 종종 만족스럽지 않습니다.

MINT 문제를 해결하기 위해 DeepMind는 계층화된 VLA(Vision-Language-Action) 탐색 전략인 Mobility VLA를 제안했습니다. 이는 긴 컨텍스트 VLM의 환경 이해 및 상식 추론 기능을 토폴로지 그래프를 기반으로 하는 강력한 하위 수준 탐색 전략과 결합합니다.

구체적으로, 높은 수준의 VLM은 데모 투어 비디오와 다중 모달 사용자 지침을 사용하여 투어 비디오에서 대상 프레임을 찾습니다. 다음으로, 고전적인 하위 수준 전략은 대상 프레임과 토폴로지 맵(투어 프레임에서 오프라인으로 구성됨)을 사용하여 각 시간 단계에서 로봇 동작(웨이포인트)을 생성합니다. 긴 컨텍스트 VLM을 사용하면 환경 이해의 충실도 문제가 해결되고, 토폴로지 맵은 VLM의 훈련 분포와 MINT를 해결하는 데 필요한 로봇 동작 간의 격차를 해소합니다.

저자는 실제(836m2) 사무실 및 집과 같은 환경에서 모바일 VLA를 평가했습니다. Mobility VLA는 복잡한 추론(예: "공개적으로 볼 수 없는 것을 저장하고 싶습니다. 어디로 가야 하나요?") 및 다중 모드 사용자 지침과 관련된 이전에는 달성할 수 없었던 MINT 작업에서 86% 및 90%를 달성했습니다. 기본 방법보다 각각 높습니다).

저자는 또한 로봇과의 사용자 상호 작용 편의성이 크게 향상되었음을 보여주었습니다. 사용자는 스마트폰을 사용하여 가정 환경에서 내레이션 비디오 투어를 수행한 다음 "내 코스터는 어디에 있습니까?"라고 물을 수 있습니다.

기술 세부정보

Mobilit VLA는 온라인 및 오프라인 부분을 포함하는 계층화된 탐색 전략(그림 1 참조)입니다.

오프라인 단계에서는 데모 투어(N, F)를 기반으로 토폴로지 맵 G가 생성됩니다. 온라인 단계에서 상위 전략은 데모 투어와 멀티모달 사용자 명령(d,I)을 통해 탐색 대상 프레임 인덱스 g를 찾습니다. 이는 투어의 특정 프레임에 해당하는 정수입니다. 다음 단계에서 하위 수준 전략은 토폴로지 맵, 현재 카메라 관찰 데이터(O) 및 g를 사용하여 로봇이 실행할 각 시간 단계에서 웨이포인트 동작(a)을 생성합니다.

여기서 h와 l은 각각 높은 수준의 전략과 낮은 수준의 전략을 나타냅니다.

데모 투어 및 오프라인 토폴로지 맵 생성

Mobility VLA는 환경 데모 투어를 활용하여 MINT 문제를 해결합니다. 이러한 투어는 사용자가 원격으로 수행할 수도 있고 주변을 돌아다니는 동안 스마트폰으로 비디오를 녹화할 수도 있습니다.

그런 다음 Mobility VLA 오프라인은 토폴로지 그래프 G = (V, E)를 구성합니다. 여기서 각 정점 v_i∈V는 데모 투어 비디오(F, N)의 프레임 f_i에 해당합니다. 저자는 기성 모션 파이프라인인 COLMAP을 사용하여 각 프레임에 대한 대략적인 6-DOF 카메라 포즈를 결정하고 이를 정점에 저장했습니다. 다음으로, 대상 정점이 소스 정점의 "앞"(소스 정점과의 자세 차이가 90도 미만)이고 2m 이내인 경우 방향이 있는 가장자리가 G에 추가됩니다.

기존 내비게이션 파이프라인(예: 환경 매핑, 통과 가능한 영역 식별, PRM 구축)과 비교할 때 토폴로지 맵 접근 방식은 투어 궤적을 기반으로 환경의 일반적인 연결을 포착하므로 훨씬 간단합니다. .

장문맥 다중 모드 VLM을 기반으로 한 상위 수준 목표 찾기

온라인 실행 중에 상위 수준 전략은 VLM의 상식 추론 능력을 활용하여 탐색 대상을 결정합니다. 다양한 다중 모드, 구어체, 종종 모호한 사용자 지침을 충족하기 위한 데모 투어입니다. 이를 위해 연구자는 인터레이스된 텍스트와 이미지로 구성된 프롬프트 P(F, N, d, I)를 준비했습니다. 다음은 표 1의 질문인 "이것을 어디에 반환해야 합니까?"에 해당하는 다중 모드 사용자 명령의 구체적인 예입니다.

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

VLM 정수 대상 프레임 인덱스 g를 반환합니다.

하위 수준 목표를 달성하기 위해 토폴로지 맵 활용

상위 수준 전략이 대상 프레임 인덱스 g를 결정하면 하위 수준 전략(알고리즘 1)이 해당 작업을 대신하여 수행합니다. 각 시간 단계의 작업 웨이포인트 동작(공식 1)을 생성합니다.

각 시간 단계에서 저자는 실시간 계층적 시각적 위치 파악 시스템을 사용하여 현재 카메라 관찰 O(5행)를 사용하여 로봇의 자세 T와 가장 가까운 시작 정점 v_s∈G를 추정합니다. 위치 파악 시스템은 전역 설명자를 통해 G에서 가장 가까운 k개의 후보 프레임을 찾은 다음 PnP를 통해 T를 계산합니다. 다음으로 v_s와 목표 정점 v_g(g에 해당하는 정점) 사이의 위상 그래프에서 최단 경로 S가 Dijkstra 알고리즘(9행)에 의해 결정됩니다. 마지막으로, 하위 수준 정책은 T를 기준으로 S에 있는 다음 정점 v_1의 Δx, Δy, Δθ인 웨이포인트 동작을 반환합니다(라인 10).

실험 결과

Mobility VLA의 성능을 입증하고 핵심 설계를 더 깊이 이해하기 위해 저자는 다음 연구 질문에 답하기 위한 실험을 설계했습니다.

질문 1: In 현실 세계에서는 Mobility VLA가 MINT에서 잘 작동합니까?
질문 2: 긴 컨텍스트 VLM 사용으로 인해 Mobility VLA가 대안보다 성능이 뛰어납니까?
질문 3: 토폴로지 맵이 필요합니까? VLM이 직접 작업을 생성할 수 있나요?

Mobility VLA는 실제 환경에서 강력한 엔드 투 엔드 성능을 제공합니다.

1. 높은 엔드 투 엔드 성공률. 표 2는 Mobility VLA가 이전에는 실행 불가능했던 "추론 요구 사항" 및 "다중 모드" 명령을 포함하여 대부분의 사용자 명령 범주에서 높은 엔드투엔드 탐색 성공률을 달성했음을 보여줍니다.

2. 강력한 하위 목표가 달성되었습니다. 표 2는 또한 Mobility VLA의 하위 수준 목표 달성 전략의 실제 견고성(100% 성공률)을 보여줍니다. 포함된 시연 투어는 실험이 시작되기 몇 달 전, 많은 물체, 가구 및 조명 조건이 달랐을 때 녹화되었습니다.

긴 컨텍스트 VLM은 고급 대상 찾기에서 대안보다 성능이 뛰어납니다.

1. 이동성 VLA는 대안보다 성능이 뛰어납니다. 표 3은 Mobility VLA의 상위 목표 발견 성공률이 비교 방법에 비해 상당히 높다는 것을 보여줍니다. 낮은 수준의 성공률이 100%라고 가정할 때, 이 높은 수준의 목표 조회 성공률은 엔드투엔드 성공률을 나타냅니다.

2. 긴 컨텍스트 VLM을 사용하여 높은 프레임 속도의 투어 비디오를 처리하는 것이 성공의 열쇠입니다. 긴 컨텍스트가 아닌 VLM에 대규모 환경의 전체 데모 투어를 입력하는 것은 각 이미지에 수백 개의 토큰 예산이 필요하기 때문에 어렵습니다. 입력 토큰 수를 줄이는 한 가지 솔루션은 중간 프레임이 손실되는 대신 투어 비디오 프레임 속도를 낮추는 것입니다. 표 4는 투어 프레임 속도가 감소함에 따라 상위 목표 조회 성공률도 감소함을 보여줍니다. 프레임 속도가 낮은 투어 비디오는 때때로 탐색 대상 프레임을 잃기 때문에 이는 놀라운 일이 아닙니다. 또한 최첨단 VLM을 비교할 때 최대 100만 개의 토큰의 컨텍스트 길이 덕분에 Gemini 1.5 Pro만이 만족스러운 성공률을 보입니다.

토폴로지 맵은 성공의 열쇠입니다

표 5는 신속한 VLM 직접 출력 웨이포인트 작동과 비교하여 시뮬레이션에서 Mobility VLA의 엔드투엔드 성능을 보여줍니다. 0%의 엔드 투 엔드 성공률은 Gemini 1.5 Pro가 토폴로지 맵 없이 로봇의 제로 샷 탐색을 달성할 수 없음을 보여줍니다. 실험을 바탕으로 저자는 Gemini가 현재 카메라 관찰에 관계없이 거의 항상 "앞으로 이동" 웨이포인트 동작을 출력한다는 사실을 발견했습니다. 또한 현재 Gemini 1.5 API는 모든 추론 호출에서 948개의 투어 이미지를 모두 업로드해야 하므로 로봇이 이동하는 1미터당 26초의 런타임이 소요됩니다. 반면, Mobility VLA의 상위 수준 VLM은 대상 인덱스를 찾는 데 10~30초가 소요되며, 로봇은 하위 수준 토폴로지 맵을 사용하여 대상을 탐색하므로 매우 강력하고 효율적입니다(0.19). 단계당 초) 시스템을 사용하여 MINT 문제를 해결합니다.

자세한 내용은 원문을 참고해주세요.

위 내용은 로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Token this 算法 https

성명：

이전 기사：ICLR2024 | Harvard FairSeg: 분할 알고리즘의 공정성을 연구하기 위한 최초의 대규모 의료 분할 데이터세트다음 기사：ICLR2024 | Harvard FairSeg: 분할 알고리즘의 공정성을 연구하기 위한 최초의 대규모 의료 분할 데이터세트