찾다
기술 주변기기일체 포함바이트 AI 연구소의 핵심 기술은 전통적인 방법과 모방 학습을 결합한 해비타트 챌린지 2022 액티브 내비게이션 챔피언십에서 우승했습니다.

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

객체 탐색은 지능형 로봇의 기본 작업 중 하나입니다. 이 작업에서 지능형 로봇은 미지의 새로운 환경에서 인간이 지정한 특정 유형의 객체를 적극적으로 탐색하고 찾아냅니다. 객체 목표 탐색 작업은 미래의 홈 서비스 로봇의 응용 요구 사항에 맞춰져 있습니다. 사람들이 물 한 잔 가져오기와 같은 특정 작업을 완료하기 위해 로봇이 필요한 경우 로봇은 먼저 물컵의 위치를 ​​찾아서 이동해야 합니다. , 그리고 사람들이 물컵을 얻도록 도와주세요.

해비타트 챌린지는 메타AI와 타 기관이 공동으로 주최하는 대회로, 2022년 기준 총 54개 팀이 참가해왔습니다. 이번 대회에서는. 대회에서 ByteDance AI Lab-Research 팀의 연구원들은 기존 방법의 단점을 해결하기 위해 새로운 객체 대상 탐색 프레임워크를 제안했습니다. 이 프레임워크는 모방 학습과 기존 방법을 교묘하게 결합하여 군중 속에서 눈에 띄고 우승을 차지합니다. 핵심 지표 SPL에서 2위 팀과 기타 참여 팀의 결과를 크게 능가하는 결과입니다. 역사적으로 이번 행사의 우승팀은 일반적으로 CMU, UC Berkerly, Facebook 등 잘 알려진 연구 기관이었습니다.

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

테스트-표준 목록

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

테스트-챌린지 목록

Habitat 챌린지 대회 공식 홈페이지: https://aihabitat.org/challenge/2022/

Habitat 챌린지 대회 리더보드: https://eval .ai/web/challenges/challenge-page/1615/leaderboard

1. 연구 동기

현재 객체 대상 탐색 방법은 크게 엔드투엔드 방법과 지도 기반 방법의 두 가지 범주로 나눌 수 있습니다. 엔드투엔드 방법은 입력 센서 데이터의 특성을 추출한 다음 이를 딥러닝 모델에 입력하여 동작을 얻습니다. 이러한 방법은 일반적으로 강화 학습 또는 모방 학습을 기반으로 합니다(그림 1 맵리스 방법 맵). 기반 방법은 일반적으로 명시적 또는 암시적 지도를 구축한 다음 강화 학습 및 기타 방법을 통해 지도에서 목표 지점을 선택하고 최종적으로 경로를 계획하고 동작을 획득합니다(그림 1 지도 기반 방법).

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

그림 1 End-to-End 방식(위)과 맵 기반 방식(아래)의 흐름도

두 가지 유형의 방법을 비교하기 위한 수많은 실험 끝에 연구자들은 두 유형 모두 방법에는 고유한 장점과 단점이 있습니다. 엔드투엔드 방법은 환경 맵을 구성할 필요가 없으므로 더 간결하고 다양한 시나리오에서 일반화 능력이 더 강력합니다. 그러나 네트워크는 환경의 공간정보를 인코딩하는 방법을 학습해야 하기 때문에 많은 양의 훈련 데이터에 의존하고, 대상 객체 근처에서 멈추는 등 몇 가지 간단한 동작을 동시에 학습하는 것은 어렵습니다. 지도 기반 방법은 래스터를 사용하여 특징이나 의미를 저장하고 명시적인 공간 정보를 가지므로 이러한 유형의 동작에 대한 학습 임계값이 낮습니다. 그러나 정확한 위치 결정 결과에 크게 의존하며 계단과 같은 일부 환경에서는 인공적인 인식 설계 및 경로 계획 전략이 필요합니다.

위의 결론을 바탕으로 ByteDance AI Lab-Research 팀의 연구원들은 두 가지 방법의 장점을 결합하기를 희망합니다. 그러나 이 두 가지 방법의 알고리즘 프로세스는 매우 다르며 직접 결합하기가 어렵고, 두 가지 방법의 출력을 직접 통합하는 전략을 설계하는 것도 어렵습니다. 이에 연구진은 두 가지 방식이 로봇의 상태에 따라 능동적 탐색과 객체 탐색을 교대로 수행할 수 있도록 함으로써 각각의 장점을 극대화할 수 있는 간단하면서도 효과적인 전략을 고안했다.

2. 경쟁 방법

알고리즘은 크게 확률 맵 기반 분기와 엔드 투 엔드 분기의 두 가지 분기로 구성됩니다. 알고리즘의 입력은 첫 번째 RGB-D 이미지와 로봇 포즈, 그리고 찾고자 하는 대상 객체 카테고리이며, 출력은 다음 동작(action)입니다. RGB 이미지는 먼저 분할되어 다른 원시 입력 데이터와 함께 두 분기에 전달됩니다. 두 분기는 각각 자체 작업을 출력하며 전환 전략에 따라 최종 출력 작업이 결정됩니다.

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

그림 2 알고리즘 흐름의 개략도

확률 맵 기반 분기

확률 맵 기반 분기는 Semantic Linking Map[2]의 아이디어를 차용하고 IROS Robot Conference에서 발표된 저자의 원본 논문[3]의 방법을 단순화합니다. . 이 분기는 입력 인스턴스 분할 결과, 깊이 맵 및 로봇 포즈를 기반으로 2D 의미 맵을 구축하는 반면, 사전 학습된 객체 간의 연관 확률을 기반으로 확률 맵을 업데이트합니다.

확률 맵 업데이트 방법에는 다음과 같은 것이 있습니다. 대상 객체가 감지되었지만 자신감이 충분하지 않은 경우(신뢰도 점수가 임계값보다 낮음) 이때 계속해서 더 자세히 관찰해야 하므로 해당 영역의 확률 값 확률 맵에서는 증가해야 하며(그림 3의 상단 참조) 마찬가지로 대상 개체와 관련된 개체가 감지되면(예: 테이블과 의자가 함께 배치될 확률이 상대적으로 높음) 확률 값이 증가해야 합니다. 해당 영역도 증가합니다(그림 3의 하단 참조). 확률이 가장 높은 영역을 대상 지점으로 선택함으로써 알고리즘은 로봇이 임계값보다 높은 신뢰 확률을 가진 대상 개체를 찾을 때까지 추가 관찰을 위해 잠재적인 대상 개체 및 관련 개체에 접근하도록 권장합니다.

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

그림 3 확률 맵 업데이트 방법의 개략도

End-to-end 브랜치

엔드-투-엔드 브랜치의 입력에는 RGB-D 이미지, 인스턴스 분할 결과, 로봇이 포함됩니다. 포즈, 대상 객체 카테고리, 액션을 직접 출력합니다. End-to-End Branch의 주요 기능은 로봇이 인간과 같은 물체를 찾도록 안내하는 것이므로 Habitat-Web[4] 방법의 모델과 훈련 과정을 채택합니다. 이 방법은 훈련 세트에서 물체를 찾는 인간의 예를 수집하여 네트워크를 훈련시키는 모방 학습을 기반으로 합니다.

전환 전략

전환 전략은 주로 확률 맵 및 경로 계획의 결과를 기반으로 확률 맵 분기와 엔드 투 엔드 분기에서 출력되는 두 가지 작업 중 하나를 최종 출력으로 선택합니다. 확률 맵에 임계값보다 큰 확률을 가진 래스터가 없는 경우 로봇은 환경을 탐색해야 합니다. 지도에서 실행 가능한 경로를 계획할 수 없는 경우 로봇은 일부 특수 환경(예: 계단)에 있을 수 있습니다. 두 경우 모두 엔드투엔드 방식을 사용하면 로봇이 충분한 환경 적응성을 가질 수 있습니다. 다른 경우에는 대상 객체를 찾는 데 있어 이점을 최대한 활용하기 위해 확률적 지도 분기가 선택됩니다.

이 전환 전략의 효과는 비디오에서 볼 수 있습니다. 로봇은 일반적으로 엔드투엔드 분기를 사용하여 환경을 효율적으로 탐색합니다. 가능한 대상 개체 또는 관련 개체가 발견되면 확률 맵 분기로 전환됩니다. 더 가까운 관찰에서는 신뢰도 확률이 임계값보다 크면 대상 개체에서 중지됩니다. 그렇지 않으면 해당 영역의 확률 값은 임계값보다 큰 확률을 가진 그리드가 없을 때까지 계속 감소합니다. , 로봇은 다시 엔드투엔드로 전환하여 탐색을 계속합니다.

영상에서 볼 수 있듯이 이 방법은 엔드 투 엔드 접근 방식과 맵 기반 접근 방식의 장점을 결합합니다. 두 분기는 각자의 임무를 수행합니다. 엔드투엔드 방식은 주로 환경 탐색을 담당하고, 확률 맵 분기는 관심 영역에 가까운 관찰을 담당합니다. 따라서 이 방법은 복잡한 장면(예: 계단)을 탐색할 수 있을 뿐만 아니라 엔드투엔드 분기의 훈련 요구 사항도 줄일 수 있습니다.

3. 요약

객체 활성 대상 탐색 작업을 위해 ByteDance AI 연구소 연구 팀은 고전적인 확률 맵과 현대적인 모방 학습을 결합한 프레임워크를 제안했습니다. 이 프레임워크는 전통적인 방법과 엔드투엔드 접근 방식을 결합하려는 성공적인 시도입니다. Habitat 대회에서는 ByteDance AI Lab-Research 팀이 제안한 방법이 2등 및 기타 참가 팀의 결과를 크게 웃돌며 알고리즘의 발전을 입증했습니다. 현재 주류인 Embodied AI end-to-end 방법에 전통적인 방법을 도입함으로써 우리는 end-to-end 방법의 일부 단점을 더욱 보완할 수 있으며, 이를 통해 지능형 로봇이 사람들을 돕고 봉사하는 길에서 더 나아갈 수 있습니다.

최근 ByteDance AI Lab-Research 팀의 로봇 공학 분야 연구는 물체 자세 추정, 물체 잡기, 표적 항법, 자동 조립 및 인간 로봇 공학을 포함하여 CoRL, IROS, ICRA와 같은 최고의 로봇 공학 컨퍼런스에도 포함되었습니다. 컴퓨터 상호 작용 및 기타 로봇의 핵심 작업.

【CoRL 2022】의미론적 프리미티브를 사용한 생성적 범주 수준 모양 및 포즈 추정

  • 논문 주소: https://arxiv.org/abs/2210.01112

【IROS 2022】인스턴스 인코딩 변환기를 사용한 3D 부품 어셈블리 생성

  • 논문 주소: https://arxiv.org/abs/2207.01779

【IROS 2022】거리 예측을 통해 보이지 않는 환경의 물체 탐색

  • 논문 주소: https://arxiv.org/abs/2202.03735

【EMNLP 2022】참조 표현 생성 및 이해 통합을 향하여

  • 논문 주소: https://arxiv.org/pdf/2210.13076

【ICRA 2022】우선순위 메모리 재설정을 통해 다양한 크기의 재료를 사용한 학습 설계 및 구성

  • 논문 주소: https://arxiv.org/abs/2204.05509

【IROS 2021】6-DoF에 대한 동시 의미론적 및 충돌 학습 파악 자세 추정

  • 논문 주소: https://arxiv.org/abs/2108.02425

【IROS 2021】Learning to Design and Construction Bridge Without Blueprint

  • 논문 주소: https://arxiv.org/abs /2108.02439

4. 참고문헌

[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv 사전 인쇄 arXiv:2210.05633(2022).

[2] Zeng, Zhen, Adrian Röfer 및 Odest Chadwicke Jenkins. "활성 시각적 개체 검색을 위한 의미 연결 맵" 2020 IEEE International Conference on Robotics and Automation(ICRA), IEEE, 2020.

[3] Minzhao Zhu, Binglei Zhao 및 Tao Kong 거리 예측에 의한 보이지 않는 환경의 객체." arXiv preprint arXiv:2202.03735 (2022).

[4] Ramrakhya, Ram, et al. "Habitat-Web: 대규모 인간 시연에서 구현된 객체 검색 전략 학습" 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 간행물. 2022.

5. 회사 소개

ByteDance AI Lab NLP&Research는 자연어 처리, 로봇 공학 등을 다루는 인공 지능 분야의 최첨단 기술 연구에 중점을 둡니다. 기술 연구 분야로 연구 결과를 실무에 적용하고 회사의 기존 제품 및 사업에 대한 핵심 기술 지원 및 서비스를 제공하는데 최선을 다하고 있습니다. 볼케이노 엔진을 통해 팀의 기술적 역량이 외부 세계에 공개되어 AI 혁신에 힘을 실어주고 있습니다.

ByteDance AI-Lab NLP&Research 연락처

  • 모집상담 : fankaijing@bytedance.com
  • 학술협력 : luomanping@bytedance.com

위 내용은 바이트 AI 연구소의 핵심 기술은 전통적인 방법과 모방 학습을 결합한 해비타트 챌린지 2022 액티브 내비게이션 챔피언십에서 우승했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기