집 >기술 주변기기 >일체 포함 >Li Feifei의 기업가적 방향을 알고 싶으십니까? 다음은 Robotics + 3D에 관한 논문 목록입니다.

Li Feifei의 기업가적 방향을 알고 싶으십니까? 다음은 Robotics + 3D에 관한 논문 목록입니다.

WBOY원래의: 2024-08-16 16:37:33662검색

"로봇+3D"의 연구 진행 상황을 이해하기 위한 80개 이상의 논문.

얼마 전 여러 언론에서 유명 AI 석학이자 스탠포드 대학의 리 페이페이(Li Feifei) 교수가 설립한 스타트업 기업인 월드 랩스(World Labs)가 불과 3개월 만에 2차의 펀딩을 완료했다고 보도했습니다. 파이낸싱 약 1억 달러의 자금을 조달하여 회사 가치가 10억 달러가 넘는 새로운 유니콘으로 거듭났습니다.

World Labs의 개발 방향은 '공간 지능', 즉 3차원 물리적 세계를 이해하고 물체의 물리적 특성, 공간 위치 및 기능을 시뮬레이션할 수 있는 모델을 개발하는 데 중점을 두고 있습니다. Li Feifei는 "공간 지능"이 AI 개발의 핵심 부분이라고 믿습니다. 그녀의 팀은 예를 들어 대규모 언어 모델을 사용하여 3차원 세계에서 작업을 수행하도록 컴퓨터와 로봇을 훈련하고 있습니다. 문을 열고 샌드위치 및 기타 작업을 수행하는 로봇 팔입니다. (자세한 내용은 "Li Feifei가 AI가 세상을 진정으로 이해할 수 있도록 하는 "공간 지능"의 기업 방향을 설명합니다"를 참조하세요.)

Li Feifei의 기업가적 방향을 알고 싶으십니까? 다음은 Robotics + 3D에 관한 논문 목록입니다.

^{Li는 "공간 지능"의 개념을 설명하기 위해 Feifei는 고양이가 발을 뻗고 있는 사진을 보여주었습니다. 유리잔이 테이블 가장자리로 밀려나는 사진입니다. 그녀는 짧은 순간에 인간의 뇌는 "이 유리의 기하학적 구조, 3차원 공간에서의 위치, 테이블, 고양이 및 기타 모든 것들과의 관계"를 평가한 다음 무슨 일이 일어날지 예측하고 이를 해결하기 위한 조치를 취하세요.}

사실 지금은 리페이페이 외에도 많은 연구팀이 3D 비전+로봇의 방향에 주목하고 있습니다. 이 팀은 현재 AI의 많은 한계가 모델이 3D 세계에 대한 깊은 이해가 부족하기 때문에 발생한다고 믿습니다. 이 퍼즐을 완성하려면 3D 비전 방향에 더 많은 연구 에너지를 투자해야 합니다. 또한 3D 비전은 복잡한 3차원 세계에서 로봇 탐색, 작동 및 의사 결정에 중요한 환경에 대한 깊이 인식과 공간적 이해를 제공합니다.

그렇다면 이 방향의 연구자들이 참고할 수 있는 체계적인 연구정보가 있을까요? 이 사이트에서 최근 하나를 발견했습니다:

프로젝트 링크: https://github.com/zubair-irshad/Awesome-Robotics-3D

이것은 "Awesome-Robotics-3D"라고 합니다. GitHub 저장소 "3D Vision + Robotics" 방향으로 총 80편 이상의 논문을 수집했습니다. 대부분의 논문은 해당 논문, 프로젝트 및 코드 링크를 제공합니다.

이 문서는 다음 주제로 나눌 수 있습니다.

전략 학습
사전 교육
VLM
표현
시뮬레이션, 데이터 세트 및 벤치마크

이 논문에는 arXiv 사전 인쇄본뿐만 아니라 RSS, ICRA, IROS 및 CORL과 같은 최고의 로봇 공학 컨퍼런스의 논문과 컴퓨터 비전 및 기계 학습 분야의 최고의 컨퍼런스 논문이 포함됩니다. CVPR, ICLR 및 ICML과 같은 가치가 매우 높습니다.

각 파트별 논문 목록은 다음과 같습니다.

1, Strategy Learning

2, Pre-training

3, VLM 및

4. Representation

5. 시뮬레이션, 데이터 세트 및 벤치마크

또한 저자는 참조할 수 있는 두 가지 리뷰 논문도 제공합니다.

논문 1: LLM이 3D 세계로 들어갈 때: 다중 모달 대형 언어 모델을 통한 3D 작업에 대한 설문 조사 및 메타 분석
논문 링크: https://arxiv.org/pdf/2405.10255

논문 소개: 이 문서는 LLM이 3D 데이터를 처리, 이해 및 생성할 수 있는 방법론에 대한 포괄적인 개요를 제공하고 상황 내 학습, 단계별 학습과 같은 LLM의 고유한 장점을 강조합니다. 추론, 개방형 어휘력, 폭넓은 세계 지식 등 이러한 장점은 구현된 인공지능 시스템의 공간적 이해와 상호작용을 크게 향상시킬 것으로 기대됩니다. 본 연구에서는 포인트 클라우드부터 NeRF(Neural Radiation Fields)까지 다양한 3D 데이터 표현 방법을 다루며, 3D 장면 이해, 설명 생성, 질문 답변 및 대화를 위한 LLM과의 통합뿐만 아니라 공간 작업을 위한 LLM 기반 에이전트도 검토합니다. 추론, 계획 및 탐색. 또한 이 논문에서는 3D와 언어를 통합하는 다른 방법을 간략하게 검토합니다. 이러한 연구에 대한 메타 분석을 통해 이 논문은 달성된 상당한 진전을 밝히고 3D-LLM의 잠재력을 완전히 활용하기 위한 새로운 방법을 개발해야 할 필요성을 강조합니다.

이 조사를 지원하기 위해 저자는 주제와 관련된 논문을 정리하고 나열하는 프로젝트 페이지를 만들었습니다: https://github.com/ActiveVisionLab/Awesome-LLM-3D

Paper 2: 3D 비전 기반 로봇 조작에 대한 종합 연구
논문 링크: https://ieeexplore.ieee.org/document/9541299

논문 소개: 이 기사는 포괄적입니다. 최신 특히 인간 지능을 모방하고 로봇에게 보다 유연한 작업 기능을 제공하는 로봇 제어 분야의 3D 비전 진행 상황을 분석합니다. 이 기사에서는 기존 로봇 제어가 일반적으로 의존하는 2D 비전 시스템과 그 한계에 대해 논의하고, 어수선한 배경에서의 일반적인 객체 인식, 폐색 추정, 인간과 같은 유연성 등 개방형 세계에서 3D 비전 시스템이 직면한 과제를 지적합니다. 제어. 이 기사에서는 3D 데이터 수집 및 표현, 로봇 비전 보정, 3D 물체 감지/인식, 6자유도 자세 추정, 파악 추정 및 동작 계획과 같은 핵심 기술을 다룹니다. 또한 일부 공개 데이터 세트, 평가 기준, 비교 분석 및 현재 과제가 소개됩니다. 마지막으로, 본 논문에서는 로봇 제어 관련 응용 분야를 살펴보고 향후 연구 방향과 해결 과제에 대해 논의합니다.

관심 있는 독자는 프로젝트 링크를 클릭하여 학습을 시작할 수 있습니다.

위 내용은 Li Feifei의 기업가적 방향을 알고 싶으십니까? 다음은 Robotics + 3D에 관한 논문 목록입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

github 人工智能 https

성명：

이전 기사：copilot 기록 보는 방법다음 기사：copilot 기록 보는 방법