찾다
기술 주변기기일체 포함Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 '말하게' 하세요

대규모 언어 모델의 개발과 함께 로봇이 복잡한 지침을 이해하고 더 고급 작업을 완료하도록 안내하는 기능을 사용할 수 있습니까? 그리고 이 과정에서 우리는 어떤 어려움에 직면하게 될까요? 최근 Zhiyuan 커뮤니티는 Google 연구 과학자인 Xia Fei 박사를 초대하여 "언어 및 비전에 기반한 구체화된 추론"에 대한 보고서를 제공하고 이 신흥 분야에서 팀의 최첨단 작업을 자세히 설명했습니다.

저자 소개: Xia Fei는 현재 Google Brain 로봇팀에서 연구 과학자로 일하고 있습니다. 그의 주요 연구 방향은 구조화되지 않은 복잡한 환경에 로봇을 적용하는 것입니다. 대표작으로는 GibsonEnv, iGibson, SayCan 등이 있다. 그의 연구는 WIRED, Washington Post, New York Times 및 기타 언론에 보도되었습니다. Xia Fei 박사는 스탠포드 대학을 졸업하고 Silvio Savarese와 Leonidas Guibas 밑에서 공부했습니다. 그는 CVPR, CoRL, IROS, ICRA, Neurips, RA-L, Nature Communications 등과 같은 컨퍼런스 및 저널에 많은 기사를 게재했습니다. 그의 최근 연구 방향은 지능형 에이전트의 의사결정 과정에서 기초 모델(Foundation Models)을 활용하는 것이다. 그의 팀은 최근 PaLM-SayCan 모델을 제안했습니다.

01 Background

로봇을 위한 기계 학습은 최근 몇 년 동안 큰 발전을 이루었지만 여전히 큰 문제가 있습니다. 머신러닝을 훈련하려면 많은 데이터가 필요하지만 로봇이 생성하는 데이터는 매우 비싸고 로봇 자체도 손실될 수 있습니다.

인간은 어렸을 때 놀이를 통해 물리적 세계와 상호 작용하고 많은 물리적 법칙을 배웁니다. 이에 영감을 받아 로봇도 환경과 상호 작용하여 이러한 물리적 정보를 획득하여 다양한 작업을 완료할 수 있습니까? 로봇에 기계 학습을 적용하는 것은 시뮬레이션 환경에 크게 의존합니다.

이와 관련하여 Xia Fei 박사와 그의 동료들은 Gibson Env(환경) 및 iGibson과 같은 작업을 제안했습니다. 전자는 시각적 환경 재구성에 중점을 두고 있으며 후자는 물리적 시뮬레이션에 중점을 두고 있습니다. 실제 세계를 3차원 스캐닝하고 재구성하고 신경망을 통해 시각적 신호를 렌더링함으로써 시뮬레이션 환경이 조성되어 다양한 로봇이 물리적 시뮬레이션을 수행하고 시간 센서부터 액추에이터까지 제어를 학습할 수 있습니다. iGibson 환경에서 로봇은 식기세척기 사용 방법을 배우는 등 환경과 더욱 풍부한 상호 작용을 배울 수 있습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

Dr. Xia Fei는 위의 작업이 인터넷 AI에서 구체화된 AI로의 전환을 나타낸다고 믿습니다. 과거 AI 훈련은 주로 인터넷 업무였던 ImageNet, MS COCO 등의 데이터셋을 기반으로 이뤄졌다. 구체화된 AI는 닫힌 루프를 형성하기 위해 AI의 인식과 행동이 필요합니다. AI는 인식된 결과에 따라 다음 행동을 결정해야 합니다. Xia Fei의 박사 학위 논문 "체화된 인식 및 로봇 학습을 위한 대규모 시뮬레이션"은 학습, 인식 및 추론을 위한 대규모 로봇 시뮬레이션에 관한 것입니다.

최근 인공지능 분야에서는 기본모델이 급속도로 발전하고 있습니다. 일부 연구자들은 시뮬레이션 환경에 의존하는 대신 기본 모델에서 정보를 추출하여 로봇이 결정을 내리는 데 도움을 줄 수 있다고 믿습니다. Xia Fei 박사는 이 새로운 방향을 "의사결정을 위한 기초 모델"이라고 불렀고, 그와 그의 팀은 PaLM-SayCan과 같은 작업을 제안했습니다.

02 PaLM-SayCan: 언어 모델이 로봇을 안내하게 하세요

1. 로봇이 복잡하고 장거리 작업을 처리하기 어려운 이유는 무엇입니까?

PaLM-SayCan 팀은 총 45명의 저자로 구성되어 있습니다. 이는 Google Robotics 팀과 Everyday Robots 간의 공동 프로젝트입니다. 기계 학습을 사용하여 로봇 공학 분야를 변화시키는 것이 목적입니다. , 로봇이 데이터를 제공하여 기계 학습 기능을 향상하도록 합니다. 연구는 구조화되지 않은 복잡한 환경과 로봇을 일상 생활에서 더욱 유용하게 만드는 두 가지 문제에 중점을 둡니다.

Siri나 Alexa와 같은 개인 비서가 이미 있지만 로봇 분야에는 그런 존재가 없습니다. Xia 박사는 다음과 같은 예를 들었습니다. 음료수를 쏟았을 때 우리는 로봇에게 상황을 설명하고 도움을 요청하고 싶습니다. 혹은 운동 후 피곤하면 음료수나 간식을 달라고 하세요. 연구에서는 로봇이 이러한 작업을 이해하고 수행할 수 있기를 바랍니다.

현재 어려운 점은 로봇이 장기 또는 장거리 작업을 수행하기가 여전히 어렵고 복잡한 계획, 상식 및 추론이 필요한 작업을 수행할 수 없다는 것입니다. 그 이유는 두 가지입니다. 겹. 첫 번째는 로봇 분야에서 좋은 사용자 상호 작용 인터페이스가 부족하다는 것입니다. 기존 로봇은 Pick&Place 작업을 수행할 때 일반적으로 Goal-conditioning 또는 One-hot Conditioning 방법을 사용합니다. 목표 조건은 로봇에게 목표가 무엇인지 알려주고 로봇이 초기 조건을 목표 조건으로 변경하는 작업을 수행하도록 해야 합니다. 이를 위해서는 먼저 완료된 작업 조건이 어떤 것인지 로봇에게 시연해야 합니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

 그리고 원-핫 컨디셔닝은 원-핫 코딩을 사용하며, 로봇이 완료할 수 있는 모든 작업(예: 100개 작업)은 0부터 99까지 번호가 매겨져 있습니다. 실행해야 할 때마다 로봇에 번호가 제공되며 로봇은 어떤 작업을 완료해야 하는지 알고 있습니다. 그러나 원-핫 조건의 문제점은 사용자가 각 작업에 해당하는 인코딩을 기억해야 하고, 원-핫 인코딩은 작업 간 종속성 정보(예: 목표에 해당하는 작업 인코딩 시퀀스 완료 등)를 얻지 못한다는 점입니다. ).

결과적으로 현재의 로봇은 일반적으로 잡기 및 놓기 등 단거리 작업만 완료할 수 있으며 로봇 자체는 이동하기보다는 정적입니다. 또한 환경도 실험실과 같은 장면으로 제한되며 종종 사람이 없는 경우도 있습니다.

2. 로봇의 언어 모델: 로봇의 언어를 "말"하게 만드는 방법은 무엇인가요?

이 문제를 해결하기 위해 팀에서는 기본 모델을 사용하는 것을 생각했습니다. 언어 모델은 목표 조건화를 대체하고 언어를 통해 작업을 명확하고 모호하지 않게 설명할 수 있습니다. 동시에 언어에는 레시피의 첫 번째 단계와 두 번째 단계와 같은 작업 단계 간의 종속성 정보도 포함되어 로봇 학습을 돕습니다. 또한 언어는 장기 과제를 정의하고 모방 학습 방법의 한계를 해결하는 데에도 사용될 수 있습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

로봇에 대형 모델을 사용하면 몇 가지 어려움에 직면할 수 있습니다. 가장 중요한 것은 로봇의 출력을 지향하는 언어를 결정하는 것입니다. 대형 모델은 인간의 자연어를 기반으로 훈련되며, 출력되는 작업은 로봇에게는 불가능할 수 있습니다. 그리고 언어 모델은 로봇의 데이터에 대해 훈련되지 않았기 때문에 로봇의 능력 범위를 알지 못합니다. 두 번째는 접지 문제이다. 대형 모델은 물리적 세계를 직접 경험하지 못했고 구체화된 정보도 부족하다. 세 번째는 대형 모델의 안내에 따른 로봇 자체의 안전성과 해석 가능성이다. 언어 모델의 편견은 물리적 시스템과의 연관성으로 인해 증폭되어 실제 결과를 초래할 수 있습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

신뢰성의 예가 있습니다. 인간 사용자가 Google의 LaMDA 모델과 통신할 때 사용자가 모델에게 "가장 좋아하는 섬"이라고 묻고, 모델은 그리스 크레타라고 대답할 수도 있고 몇 가지 이유를 제시할 수도 있습니다. 하지만 이 결과는 신빙성이 없다. 왜냐하면 AI가 주어야 할 결과는 "나는 어떤 섬에도 가본 적이 없기 때문에 내가 어떤 섬을 가장 좋아하는지 모른다"이기 때문이다. 언어 모델의 문제점은 실제 세계와 상호 작용하지 않고 통계 규칙에 따라 가장 가능성 있는 다음 문장만 출력한다는 것입니다.

로봇에 언어 모델을 사용하는 경우 모델마다 다른 결과가 나오며, 그 중 일부는 로봇을 구동하여 작업을 수행하는 데 유용하지 않습니다. 예를 들어, 사용자가 로봇에게 "흘린 음료수를 치워주세요"라고 요청하면 GPT-3는 "진공청소기를 사용해도 됩니다"라고 말할 수 있습니다. 진공청소기는 액체를 청소할 수 없기 때문에 이 결과는 완전히 정확하지 않습니다.

LaMDA 모델인 경우 LaMDA가 "청소기를 찾는 데 도움을 드릴까요?"라고 말할 수 있습니다. 이 답변은 정상이지만 LaMDA가 대화 자료를 미세 조정하는 것이 목표이므로 실용적이지 않습니다. 기능은 작업 완료에 도움이 되는 것이 아니라 가능한 한 대화의 길이를 연장하는 것입니다. FLAN 모델인 경우 "죄송합니다. 진심이 아니었습니다."라고 응답하지만 사용자의 의도를 이해하지 못합니다. 대화인가요? 아직도 문제를 해결해야 합니까? 따라서 로봇에 대규모 언어 모델을 사용하는 데에는 일련의 문제가 있습니다.

PaLM-SayCan은 이러한 문제를 해결하기 위해 노력합니다. 첫 번째는 Few-shot Prompting(퓨샷 학습)을 통해 대형 모델이 로봇의 언어를 말할 수 있도록 하는 것입니다. 예를 들어, "커피를 찬장에 가져가세요", "오렌지 주세요" 등과 같은 작업을 구성하고 해당 단계(예: 1-5 및 1-3)를 제공합니다. 그런 다음 사용자는 모델에게 "테이블 위에 사과를 올려 놓으세요"라는 지시를 내립니다. 이전 단계 프롬프트가 표시되면 모델은 자체적으로 적절한 작업 단계를 찾아 결합하고 작업을 단계별로 완료하기 위한 계획을 생성합니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

대형 모델에는 두 가지 주요 상호 작용 방법이 있다는 점에 유의해야 합니다. 하나는 입력을 기반으로 다음 토큰을 생성하는 생성 인터페이스입니다. 공식(점수 인터페이스)은 주어진 토큰에 대한 우도 함수를 계산합니다. PaLM-SayCan은 채점 방식을 사용하여 언어 모델을 더욱 안정적이고 쉽게 원하는 결과를 출력할 수 있도록 해줍니다. 사과를 놓는 작업에서 모델은 다양한 단계의 점수를 매기고 적절한 결과를 선택합니다.

3. 언어 모델과 현실 세계 사이의 격차 해소: 로봇이 환경의 어포던스를 탐색하도록 합니다.

해결해야 할 또 다른 문제가 있습니다. 언어 모델은 작업 단계를 생성할 때 로봇의 현재 상황을 알지 못하면 무엇을 할 수 있습니까? 로봇 앞에 사과가 없으면 로봇은 사과를 놓는 작업을 완료할 수 없습니다. 따라서 이를 위해서는 현재 환경과 상태에서 로봇이 어떤 작업을 수행할 수 있는지 언어 모델에 알려야 합니다. 여기서는 Robotic Affordances(로봇 어포던스)이라는 새로운 개념을 도입해야 하는데, 이것이 이 작업의 핵심이기도 합니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

어포던스(Affordance)를 중국어로 번역하면 어포던스(Affordances)라고 합니다. 1977년경 미국 심리학자 제임스 J. 깁슨(James J. Gibson)이 제안한 개념입니다. 은 에이전트가 환경에서 수행할 수 있는 작업으로 정의됩니다. 현재 상태는 어포던스를 나타냅니다. 지도 학습을 사용하여 여유도를 얻을 수 있지만 이를 위해서는 많은 양의 데이터와 라벨링이 필요합니다.

이와 관련하여 팀에서는 강화 학습 방법을 채택하고 정책의 가치 함수를 사용하여 어포던스를 근사화했습니다. 예를 들어, 로봇이 환경에 있는 다양한 물건을 잡도록 훈련시킨 후 로봇이 방을 탐색하게 하면 물건을 집는 가치 함수가 매우 높아질 것입니다. 사용 가능한 항목.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

어포던스와 언어 모델을 결합하여 PaLM-SayCan 알고리즘을 얻습니다. 위 그림에서 볼 수 있듯이 왼쪽은 언어 모델로, 사용자의 지시에 따라 로봇이 완료할 수 있는 작업을 점수로 매기고, 하위 작업을 완료하면 전체 작업을 완료하는 데 도움이 될 확률을 계산합니다. 오른쪽은 현재 상태에서 각 작업을 완료할 확률을 나타내는 가치 함수입니다. 둘의 곱은 로봇이 전체 작업에 기여하는 하위 작업을 성공적으로 완료할 확률을 나타냅니다. Apple의 예에서는 현재 상태에서는 로봇 앞에 사과가 없습니다. 이 작업을 완료하려면 가장 먼저 사과를 찾는 것이므로 사과를 찾는 어포던스 점수가 상대적으로 높으며, 사과 잡기 점수가 낮습니다. 사과를 찾은 후에는 사과 잡기에 대한 어포던스 점수가 증가하고, 사과 잡기 작업을 수행하게 된다. 이 과정은 전체 작업이 완료될 때까지 반복됩니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요


03 더욱 구체화된 지능 작업: 모델 추론 기능을 향상하고 환경 피드백을 사용하여 폐쇄 루프를 형성합니다.

1.사고 유도의 사슬: 복잡한 상식 이해

PaLM-SayCan 외에도 Dr. Xia와 동료들은 다른 관련 작업도 완료했습니다. Prompt 측면에서 팀은 언어 모델에 더 많은 추론 기능을 제공하기 위해 Chain of Thought Prompting(문제 해결 아이디어로 이해될 수 있음)을 제안했습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

 표준 프롬프트 모드는 질문 템플릿을 디자인하고 답변을 제공하는 것입니다. 모델은 추론 중에 답변을 출력하지만 모델이 제공하는 답변이 잘못된 경우도 있습니다. 따라서 Chain of Thought Prompting의 목표는 문제를 제공하면서 모델에 대한 설명을 제공하는 것입니다. 이를 통해 모델의 결과를 크게 향상할 수 있고 일부 작업에서는 인간 수준을 능가할 수도 있습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

모델은 부정문을 처리할 때 오류가 발생하기 쉽습니다. 예를 들어, 인간 사용자가 "과일은 주되 사과는 주지 마세요"라고 요청했습니다. 질문과 실행 옵션 모두에 사과가 있기 때문에 모델은 사과를 제공하는 경향이 있습니다. Chain of Thought Prompting을 사용하면 몇 가지 설명이 제공될 수 있습니다. 예를 들어, 모델은 "사용자가 과일을 원하지만 사과는 원하지 않습니다. 바나나는 사과가 아니라 과일입니다. 사용자에게 바나나를 줄 수 있습니다."라고 출력합니다.

생각의 사슬 프롬프트는 더 미묘한 부정적인 요구 사항도 해결할 수 있습니다. 예를 들어, 사용자가 카페인에 대한 알레르기를 표현하고 로봇에게 음료수를 요청합니다. 알레르기는 부정의 또 다른 미묘한 형태입니다. 전통적인 방법을 사용하면 로봇은 알레르기가 나타내는 부정을 이해하지 못한 채 카페인이 함유된 음료에 접근할 수 있습니다. 연쇄 사고 유도는 알레르기 등을 설명하고 추론 효과를 향상시킬 수 있습니다.

2. 내부 독백: 오류 수정 및 올바른 실행 트랙으로 복귀

로봇 의사 결정과 환경 상호 작용을 위한 대형 모델을 결합하는 것도 중요한 연구 방향입니다. 연구팀은 언어 모델이 환경 변화에 따른 과거 결정을 검토하고, 잘못된 지시나 환경으로 인한 사고로부터 회복할 수 있도록 하는 것을 목표로 하는 내부 독백(Inner Monologue) 작업을 제안했다. 예를 들어, 인간이 집에 가서 선택한 키로 문을 열 수 없다는 것을 알게 되면 다른 키를 시도하거나 회전 방향을 변경하도록 선택합니다. 이것이 구현하는 것은 환경의 피드백을 기반으로 오류를 수정하고 새로운 작업을 업데이트하는 것입니다. 내면의 독백은 이런 식으로 작동합니다. 예를 들어 로봇이 콜라를 집는 중에 콜라가 떨어지면 후속 작업을 완료할 수 없습니다. 작업이 성공적으로 완료되었는지 감지하고 의사 결정 과정에 피드백을 적용하고 이를 기반으로 새로운 결정을 내리기 위해서는 내부 독백이 필요합니다. 피드백 결정.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

그림과 같이 내부 독백 작업에는 Active Scene Description과 Task Success Detector가 포함됩니다. 인간이 지시를 내리면 모델은 지시를 실행하고 시나리오 설명을 활성화하여 로봇의 의사결정을 지원할 수 있습니다. 훈련 과정은 여전히 ​​Few-shot Prompt 방법을 사용하므로 하나의 예에서 추론을 도출할 수 있습니다. 예를 들어, 로봇이 음료수를 마시라는 지시를 받으면 인간에게 콜라를 마실지 탄산음료를 마실지 묻습니다.

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

또 다른 사례는 언어 모델에 의한 역사적 정보 추론입니다. 많은 경우 인간은 명령을 내린 후 마음을 바꾸거나, 명령을 바꾼 후 로봇에게 "정당한 작업"을 완료하도록 요청합니다. 여러 번. 여기서는 "just task"가 지정되지 않았으며, 이를 위해서는 모델이 이전 작업이 무엇인지 확인하기 위해 기록을 되돌아보아야 합니다. 내면의 독백은 영어 외에도 현재 중국어 및 기타 언어로 제공됩니다. 다른 분야에서 실험한 후 팀은 이 환경 피드백 방법이 매우 복잡하고 폐쇄 루프 계획 작업을 완료할 수 있다는 것을 발견했습니다.

04 Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요Q&A

Q: PaLM-SayCan의 대규모 언어 모델은 처음부터 학습되나요? 아직도 모델만 사용하고 있습니다.

A: 대규모 예측 모델은 미세 조정할 필요가 없으며 이미 많은 의사결정 정보를 포함하고 있습니다. 예를 들어, 1,750억 개의 매개변수가 있는 GPT-3 또는 이미 충분한 임무 계획 및 순서 정보가 포함된 PaLM을 사용할 수 있습니다.

Q: 내면의 독백 작업을 할 때 에이전트가 주도적으로 질문도 하게 되나요? 이건 어떻게 흡수됐나요?

A: 로봇이 작업을 완료하면 "그리고 물어보기"와 "계속하기" 두 가지 옵션이 나타납니다. 질문을 할 것인지 계속할 것인지는 문맥적 의미에 모호성이 있는지 여부에 따라 달라집니다.

Q: 로봇은 품목(서랍 안의 감자칩 등)이 어디에 있는지 어떻게 알 수 있나요? 앞으로 로봇의 능력이 점차 향상된다면 탐색 시 탐색 공간이 너무 커지지 않을까요?

A: 로봇의 물품 보관 위치에 대한 지식은 현재 하드 코딩되어 있으며 자동 프로세스가 아닙니다. 그러나 대규모 언어 모델에는 항목이 어디에 있는지와 같은 특정 의미론적 지식도 포함되어 있습니다. 이러한 의미론적 지식은 검색 공간을 줄일 수 있습니다. 동시에 아이템 발견 확률에 따라 탐색도 할 수 있습니다. 현재 Xia Fei 팀은 이 문제를 해결하기 위한 새로운 작업을 발표했습니다. 핵심 아이디어는 자연어 색인 장면 표현을 구축하는 것입니다. 참고 웹사이트 nlmap-saycan.github.io

Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 말하게 하세요

Q: 게다가 최근 몇 년간 등장한 계층적 강화학습이 복잡한 작업 계획에 영감을 주나요?

PaLM-SayCan은 하위 수준의 기술과 상위 수준의 작업 계획을 가지고 있지만 계층적 강화는 아닙니다. 학습. 저는 개인적으로 이러한 계층적 접근 방식을 선호합니다. 작업을 계획할 때 모든 세부 단계를 반드시 수행할 필요가 없어 시간 낭비가 되기 때문입니다. 임무 계획은 방대한 인터넷 데이터를 사용하여 훈련할 수 있지만 기본 기술에는 물리적 데이터가 필요하므로 환경과 상호 작용하고 학습해야 합니다.

Q: PaLM-SayCan이 실제로 로봇에 사용되는 근본적인 문제가 남아 있나요? 매일 보모의 대체품으로 사용할 수 있다면 그것을 실현하는 데 얼마나 걸립니까?

A: 아직 해결되지 않은 근본적인 문제가 몇 가지 있으며 이는 단순한 엔지니어링 문제가 아닙니다. 원칙적으로 로봇의 기본 모션 제어 및 파악은 큰 과제입니다. 우리는 여전히 100% 파악 성공을 달성할 수 없으며 이는 큰 문제입니다.

물론 이동이 제한된 사람들에게 이미 어느 정도 가치를 제공할 수 있습니다. 하지만 실제로 상용 제품이라면 아직은 불가능하다. 미션 성공률은 90% 수준으로 상용 요구 사항을 충족하지 못한다.

Q: 로봇 계획의 성공률은 훈련 데이터 세트에 따라 제한되나요?

A: 로봇의 계획 능력은 훈련 코퍼스에 의해 제한됩니다. "쓰레기를 버리세요"와 같은 몇 가지 지침을 말뭉치에서 쉽게 찾을 수 있습니다. 하지만 사람들이 인터넷에 이런 정보를 남기지 않기 때문에 "로봇의 두 손가락 발톱을 오른쪽으로 10센티미터씩 움직인다" 같은 말뭉치는 거의 없다. 이는 세분화된 정보 문제와 관련이 있습니다. 현재 코퍼스의 제한으로 인해 로봇은 대략적인 작업만 완료할 수 있습니다.

반면, 세밀한 계획 자체는 언어 모델로 수행해서는 안 됩니다. 물리적인 정보가 너무 많고 인간의 언어로 설명할 수 없을 수도 있기 때문입니다. 한 가지 아이디어는 모방 학습(BC-Z 작업 참조) 또는 코드 생성(팀의 최신 작업 https://code-as-policies.github.io/ 참조)을 사용하여 세분화된 작업을 구현할 수 있다는 것입니다. 대형 모델의 더 큰 역할은 사용자의 대화형 인터페이스 역할을 하고, 인간이 로봇에 제공한 지침을 해석하고, 이를 기계가 실행할 수 있는 단계로 분해하는 것입니다.

또한 언어는 추가적인 물리적 계획 없이도 높은 수준의 의미론적 계획을 수행할 수 있습니다. 세분화된 계획 작업을 달성하려면 여전히 모방 학습이나 강화 학습에 의존해야 합니다.

위 내용은 Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 '말하게' 하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?Apr 15, 2025 am 10:16 AM

Google Deepmind의 탁구 로봇 : 스포츠 및 로봇 공학의 새로운 시대 파리 2024 올림픽은 끝났을 지 모르지만 Google Deepmind 덕분에 스포츠와 로봇 공학의 새로운 시대가 시작되었습니다. 그들의 획기적인 연구 ( "인간 수준의 경쟁 달성

Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Apr 15, 2025 am 10:15 AM

Gemini Flash의 효율성 및 확장 성 잠금 해제 1.5 : Flask Food Vision WebApp 빠르게 진화하는 AI 환경에서 효율성과 확장 성이 가장 중요합니다. 개발자는 비용과 대기 시간을 최소화하는 고성능 모델을 점점 더 많이 찾습니다.

llamaindex를 사용하여 AI 에이전트 구현llamaindex를 사용하여 AI 에이전트 구현Apr 15, 2025 am 10:11 AM

Llamaindex로 AI 에이전트의 힘을 활용하십시오 : 단계별 가이드 빠른 계산이든 최신 시장 뉴스를 검색하든, 귀하의 요청을 이해하고 완벽하게 실행하는 개인 비서를 상상해보십시오. 이 기사는 탐구합니다

.ipynb 파일을 pdf- 분석 Vidhya로 변환하는 5 가지 방법.ipynb 파일을 pdf- 분석 Vidhya로 변환하는 5 가지 방법Apr 15, 2025 am 10:06 AM

Jupyter Notebook (.ipynb) 파일은 데이터 분석, 과학 컴퓨팅 및 대화식 인코딩에 널리 사용됩니다. 이 노트북은 다른 데이터 과학자와 코드를 개발하고 공유하는 데 적합하지만 때로는 PDF와 같은보다 일반적으로 읽을 수있는 형식으로 변환해야합니다. 이 안내서는 .ipynb 파일을 PDF로 변환하는 다양한 방법과 팁, 모범 사례 및 문제 해결 제안을 안내합니다. 목차 .ipynb를 pdf로 변환하는 이유는 무엇입니까? .ipynb 파일을 PDF로 변환하는 방법 Jupyter Notebook UI 사용 nbconve 사용

LLM 양자화 및 사용 사례에 대한 포괄적 인 안내서LLM 양자화 및 사용 사례에 대한 포괄적 인 안내서Apr 15, 2025 am 10:02 AM

소개 대형 언어 모델 (LLM)은 자연어 처리에 혁명을 일으키고 있지만 엄청난 규모와 계산 요구는 제한 배포를 제한합니다. 모델을 축소하고 계산 비용을 낮추는 기술인 양자화는 중요한 솔루입니다.

파이썬이있는 셀레늄에 대한 포괄적 인 가이드파이썬이있는 셀레늄에 대한 포괄적 인 가이드Apr 15, 2025 am 09:57 AM

소개 이 안내서는 웹 자동화 및 테스트를위한 셀레늄과 파이썬의 강력한 조합을 탐구합니다. Selenium은 브라우저 상호 작용을 자동화하여 대규모 웹 애플리케이션의 테스트 효율성을 크게 향상시킵니다. 이 튜토리얼은 o

상호 작용 용어 이해를위한 안내서상호 작용 용어 이해를위한 안내서Apr 15, 2025 am 09:56 AM

소개 상호 작용 항은 종속 변수에서 둘 이상의 독립 변수의 효과를 캡처하기 위해 회귀 모델링에 통합됩니다. 때로는 통제 사이의 단순한 관계가 아닙니다.

Swiggy 's Hermes : 원활한 데이터 중심 결정을위한 AI 솔루션Swiggy 's Hermes : 원활한 데이터 중심 결정을위한 AI 솔루션Apr 15, 2025 am 09:50 AM

Swiggy 's Hermes : 생성 AI를 사용한 데이터 액세스 혁명 오늘날의 데이터 중심 환경에서 인도의 주요 식품 배달 서비스 인 Swiggy는 혁신적인 도구 인 Hermes를 통해 생성 AI의 힘을 활용하고 있습니다. DA를 가속화하도록 설계되었습니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는