얼마 전 2024년 TED 연설에서 Li Feifei는 공간 지능의 개념을 자세히 설명했습니다. 그녀는 지난 몇 년간 컴퓨터 비전 분야의 급속한 발전에 기뻐하며 매우 열정적으로 이를 위해 스타트업 회사를 만들고 있습니다.
이 연설에서 그녀는 다음과 같은 연구 결과인 BEHAVIOR를 언급했습니다. 스탠포드 팀은 3차원 세계에서 행동하는 방법에 대해 컴퓨터와 로봇을 훈련시키기 위해 "만든" 행동 및 동작 데이터 세트입니다. BEHAVIOR는 다양한 시나리오에서 인간의 행동과 행동을 포함하는 거대한 데이터 세트입니다. 이 데이터 세트의 목적은 컴퓨터와 로봇이 인간 행동을 더 잘 이해하고 모방할 수 있도록 하는 것입니다. 연구자들은 BEHAVIOR에서 대량의 데이터를 분석하여
을 얻을 수 있습니다. 이제 Wu Jiajun은 팀을 이끌고 후속 연구인 "BEHAVIOR Vision Suite (BVS) "를 발표했습니다. 이 논문은 CVPR 2024 하이라이트도 받았습니다.
컴퓨터 비전 분야에서 다양한 조건에서 모델 성능을 체계적으로 평가하고 이해하려면 정량적 데이터와 포괄적인 맞춤형 라벨이 필요합니다. 그러나 실제 시각적 데이터 세트는 이러한 요구 사항을 충족하는 데 어려움을 겪는 경우가 많습니다. AI 작업과 같은 유망한 대안이 유망한 대안을 제공하지만, 리소스 및 렌더링 품질, 데이터 다양성, 물리적 특성의 현실성 측면에서 여전히 많은 단점이 있습니다.
이러한 문제를 해결하기 위해 연구팀은 "BEHAVIOR Vision Suite (BVS)"를 출시했습니다.
BVS는 컴퓨터 비전 모델의 체계적인 평가를 위해 설계된 도구 및 리소스 세트입니다. 새로 개발된 AI 벤치마크 BEHAVIOR-1K를 기반으로 BVS는 장면 수준(예: 조명, 개체 배치), 개체 수준(예: 관절 구성, 속성) 및 카메라 수준(예: 시야, 초점 거리)을 포괄하는 매개변수를 조정할 수 있습니다. ). 연구원은 데이터 수집 중에 이러한 매개변수를 조정하여 실험을 더욱 정밀하게 제어할 수 있습니다.
이 모델은 또한 환경 매개변수의 지속적인 변화에 대한 견고성에서 시각적 모델의 매개변수 제어 평가를 포함하여 다양한 모델 평가 및 교육 애플리케이션에서 BVS의 장점을 보여줍니다. , 장면 이해 모델의 체계적인 평가(풍부한 시각적 주석) 및 새로운 비전 작업을 위한 모델 교육
BVS에는 데이터 부분과 이 사용자 정의 가능한 데이터 생성기를 기반으로 하는
데이터 부분의 두 부분이 포함되어 있습니다.
BVS의 데이터 부분은 BEHAVIOR-1K의 자산을 기반으로 확장되었으며, 총 8841개의 3D 객체 모델과 51명의 아티스트가 디자인한 실내 장면이 1000개의 장면 인스턴스로 확장되었습니다. 또한, 연구팀은 사용자가 더욱 향상된 장면 인스턴스를 자동으로 생성할 수 있는 스크립트를 제공합니다.
BEHAVIOR-1K의 자산 확장
맞춤형 데이터 생성기
맞춤형 데이터 생성기 사용자는 BVS의 데이터 부분을 쉽게 사용하여 어두운 조명 아래의 실내 장면과 같은 이미지 데이터 세트의 요구 사항을 충족할 수 있습니다
.BVS는 생성된 데이터 세트의 충실도와 물리적 합리성을 보장하면서 요구 사항을 충족하면서 높은 의미적 다양성을 갖도록 만들 수 있습니다. 특히 사용자는 카메라 위치, 조명, 개체 속성(예: 크기), 개체 상태(예: 켜기, 끄기) 및 개체 간의 공간 관계 등 다섯 가지 측면을 제어할 수 있습니다.
연구원들은 다음을 포함한 세 가지 응용 시나리오에서 BVS에서 생성된 데이터의 작동을 시연했습니다.
환경 매개변수가 지속적으로 변할 때 매개변수는 시각적 모델의 견고성을 제어 가능하게 평가합니다.
특정 차원에서 지속적으로 변화하는 데이터를 생성함으로써 연구자는 여기서 시각적 모델의 변화에 따른 견고성을 체계적으로 평가합니다. 예를 들어, 부분적으로 가려진 객체에서 시각적 모델의 성능을 평가하기 위해 동일한 장면에서 객체 폐색 정도가 점차 증가하는 데이터가 생성됩니다.
연구원들은 다양한 SOTA 모델을 평가하여 기존 모델이 공통 분포를 벗어난 데이터에 대해 여전히 성능이 좋지 않다는 것을 발견했습니다. 이러한 데이터는 현실 세계에서 얻거나 라벨을 지정하기 어렵기 때문에 실제 이미지 데이터 세트에서 직접 결론을 도출하기는 어렵습니다. 따라서 BVS는 연구자가 관심 있는 조건에서 모델의 견고성을 평가하여 모델을 더 잘 개발하고 개선하는 데 도움이 될 수 있습니다.
기존 SOTA 모델은 변화하는 조건(예: 카메라 고도)에서 여전히 견고성을 개선할 여지가 있습니다.
5가지 환경 매개변수가 지속적으로 변경될 때 다양한 감지 모델의 성능
장면 이해 모델 평가
BVS로 구성된 데이터 세트의 또 다른 특징은 깊이, 의미 분할, 대상 경계 등과 같은 다중 모드 실제 레이블을 포함한다는 것입니다. 이를 통해 연구자들은 BVS에서 생성된 데이터를 사용하여 동일한 이미지에 대한 다양한 작업에 대한 예측 모델을 평가할 수 있습니다.
연구팀은 공개 단어 감지 및 분할, 깊이 추정, 포인트 클라우드 재구성이라는 네 가지 작업에 대해 SOTA 모델을 평가한 결과 BVS 데이터 세트의 모델 성능이 실제 데이터 벤치마크의 성능과 일치한다는 사실을 발견했습니다. 해당 작업의 . 이는 BVS가 생성한 고품질 데이터가 실제 데이터를 실제로 반영하고 대표한다는 것을 보여주며, 연구자들은 이러한 데이터 세트가 다중 작업 예측 모델 개발을 촉진할 수 있기를 바랍니다.
오픈 소스 코드에서 연구팀은 사용자가 장면의 궤적을 샘플링할 수 있도록 스크립트도 제공합니다.
연구원들은 장면 이해 모델
전체 장면 이해 데이터세트를 평가하기 위해 많은 장면 탐색 동영상을 수집했습니다⽤. 연구원들은 대표적인 장면에서 각각 10개 이상의 카메라 궤적을 포함하는 다수의 횡단 비디오를 생성했습니다. 각 이미지에 대해 BVS는 다양한 라벨(예: 장면 맵, 분할 마스크, 깊이 맵)을 생성합니다
BVS 데이터에서 SOTA 모델의 상대적 성능 순서는 실제 작업 벤치마크와 일치합니다
새로운 비전 작업 모델 교육
BVS의 데이터 기여는 모델 평가에만 국한되지 않습니다. , 그러나 실제 시나리오에서 사용하기 어려운 사람들을 위해 데이터를 수집하거나 라벨링하는 작업의 경우 BVS 데이터를 모델 교육에 사용할 수도 있습니다.
저자는 BVS를 사용하여 12.5k개의 이미지를 생성했으며, 객체 공간 관계 및 상태 예측 모델을 훈련하는 데에만 사용했습니다. 이 모델은 훈련을 위해 실제 데이터를 사용하지 않고 실제 시나리오에서 F1 점수 0.839를 달성했는데, 이는 우수한 시뮬레이션-실제 전송 기능을 반영합니다.
시뮬레이션 훈련 데이터 세트와 실제 테스트 데이터 세트의 예시 다이어그램
BVS에서 생성된 데이터를 사용하여 객체 공간 관계 및 상태 예측 모델을 훈련
BVS는 강력한 도구 및 리소스 세트를 제공하여 컴퓨터 비전 연구자가 맞춤형 합성 데이터 세트를 생성할 수 있는 새로운 방법을 제공합니다.
데이터 생성 과정에서 다양한 매개변수를 체계적으로 제어하고 조정함으로써 연구자는 컴퓨터 비전 모델의 성능을 보다 종합적으로 평가하고 개선하여 향후 연구 및 응용을 위한 견고한 기반을 마련할 수 있습니다.
위 내용은 Li Feifei의 '공간 지능' 시리즈의 새로운 진전, Wu Jiajun 팀의 새로운 'BVS' 제품군은 컴퓨터 비전 모델을 평가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!