집 >기술 주변기기 >일체 포함 >북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

PHPz앞으로: 2023-11-06 14:29:11828검색

Peking University Dong Hao 팀내비게이션 내장최신 결과는 다음과 같습니다.

추가 매핑 및 교육이 필요하지 않습니다. 다음과 같은 내비게이션 지침을 말하기만 하면 됩니다.

앞으로 방을 가로질러 걷고 팬티를 통과한 다음 부엌을 통과합니다. . 주방 끝에 서서

로봇을 유연하게 조종할 수 있어요.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

여기서 로봇은 대형 모델로 구성된 "전문가 팀"과 적극적으로 소통하여 명령 분석, 시각적 인식, 완료 추정 및 결정과 같은 일련의 핵심 시각적 언어 탐색 작업을 완료합니다. 테스트를 하고 있습니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

프로젝트 홈페이지와 논문은 현재 온라인에 있으며 코드는 곧 공개될 예정입니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

로봇은 어떻게 인간의 지시에 따라 탐색하나요?

시각적 언어 탐색에는 지침 분석, 시각적 인식, 완료 추정 및 결정 테스트를 포함한 일련의 하위 작업이 포함됩니다.

이러한 주요 작업에는 다양한 분야의 지식이 필요하며 서로 연관되어 로봇의 탐색 능력을 결정합니다.

실생활 전문가의 토론 행동에서 영감을 받아 북경대학교 동하오팀이 DiscussNav 내비게이션 시스템을 제안했습니다.

저자는 먼저 LLM(Large Language Model) 및 MLM(Multimodal Large Model) 에 전문가 역할과 특정 작업을 신속하게 할당하여 도메인 지식과 역량을 활성화함으로써 다양한 전문 분야로 시각적 탐색을 구축합니다. 팀.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

그런 다음 저자는 LLM 기반 탐색 로봇이 시각적 탐색 전문가와 일련의 토론을 적극적으로 시작할 수 있는 토론 질문 모음과 토론 메커니즘을 설계했습니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

각 이동 전에 내비게이션 로봇은 전문가와 논의하여 필요한 조치와 인간 지침에 언급된 물체 기호를 이해합니다.

그런 다음 이러한 물체 기호의 유형을 기반으로 주변 환경을 인식하고 지시 완료를 추정하고 사전 움직임 결정을 내리는 경향이 있습니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

내비게이션 로봇은 의사결정 과정에서 사고 사슬(사고 사슬)을 기반으로 N개의 독립적인 예측 결과를 동시에 생성합니다. 로봇이 의사 결정 과정을 테스트합니다. 전문가의 도움을 받아 최종 모바일 결정을 검토해 보세요.

이 과정에서 알 수 있듯이 추가적인 사전 훈련이 필요한 기존 방법에 비해 이 방법은 대규모 모델 전문가와 상호 작용하여 로봇이 인간의 지시에 따라 움직이도록 유도하고 로봇 내비게이션 훈련의 부족 문제를 직접적으로 해결합니다. 데이터.

더 나아가서, 위의 논의 프로세스를 따르는 한, 이 기능으로 인해 제로 샘플 기능도 달성할 수 있습니다. 다양한 탐색 지침을 따를 수 있습니다.

다음은 고전적인 시각적 언어 탐색 데이터 세트 Room2Room에 대한 DiscussionNav의 성능입니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

보시다시피, 이 은 모든 제로샷 방법보다 훨씬 더 높으며, 훈련된 두 가지 방법 보다 훨씬 더 높습니다.

저자는 Turtlebot4 모바일 로봇을 대상으로 실제 실내 장면 탐색 실험을 추가로 수행했습니다.

전문 롤플레잉 및 토론에서 영감을 받은 대형 모델의 강력한 언어 및 시각적 일반화 기능을 통해 DiscussNav의 실제 성능은 이전의 최적 제로샷 방법 및 사전 훈련된 미세 조정 방법보다 훨씬 우수하여 우수한 성능을 보여줍니다. Sim-to-real 마이그레이션 기능.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

실험을 통해 저자는 DiscussNav가 4가지 강력한 능력을 생성한다는 사실을 추가로 발견했습니다.

1. "흰색 테이블 위의 로봇 팔", "의자 위의 테디베어"와 같은 오픈 월드 개체를 인식합니다.

2. "주방 카운터 위의 식물" 및 "테이블 위의 상자"와 같은 세밀한 탐색 랜드마크 개체를 식별합니다.

3. 토론에서 다른 전문가가 답변한 잘못된 정보 수정 예를 들어, 로고 추출 전문가는 내비게이션 액션 시퀀스에서 내비게이션 로고를 추출하기 전에 잘못 분해된 액션 시퀀스를 확인하고 수정합니다.

4. 예를 들어 결정 테스트 전문가는 현재 환경 정보를 기반으로 DiscussNav가 예측한 여러 가지 불일치 동작 결정 중에서 가장 합리적인 결정을 최종 동작 결정으로 선택할 수 있습니다.

"시뮬레이션 및 대형 모델 사전 지식은 공짜 점심"

교신저자인 동하오는 이전 보고서에서 대규모 데이터로부터 사전 지식을 학습하기 위해 시뮬레이션 데이터와 대형 모델을 효과적으로 활용하는 방법에 대한 심층 탐구가 미래의 구현이라고 제안했습니다. 지능 연구의 발전 방향.

현재 데이터 규모와 실제 환경 탐색에 드는 높은 비용으로 인해 제한되는 구현 지능 연구는 여전히 시뮬레이션 플랫폼 실험과 시뮬레이션 데이터 교육에 중점을 둘 것입니다.

최근 대형 모델의 발전은 체화된 지능의 새로운 방향을 제시합니다. 대형 모델의 언어적 상식과 물리적 세계의 사전 지식을 적절히 탐구하고 활용하면 체화된 지능의 발전이 촉진될 것입니다.

북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.

논문 주소: https://arxiv.org/abs/2309.11382

위 내용은 북경대학교의 체화된 지능의 새로운 성과: 교육이 필요하지 않으며 지시에 따라 유연하게 이동할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

https

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：MediaTek Dimensity 9300 AI 점수 발표: 2109점, 1위다음 기사：MediaTek Dimensity 9300 AI 점수 발표: 2109점, 1위