집 >기술 주변기기 >일체 포함 >효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2024-04-11 16:16:20785검색

주석

신호등, 안내 표지판, 신호등을 포함한 정적 객체 감지(SOD)의 경우 대부분의 알고리즘은 데이터 기반 심층 신경망이며 많은 양의 훈련 데이터가 필요합니다. 현재 관행에는 일반적으로 롱테일 사례를 수정하기 위해 LiDAR 스캔 포인트 클라우드 데이터에 대한 다수의 훈련 샘플에 대한 수동 주석이 포함됩니다.

수동 주석은 실제 장면의 가변성과 복잡성을 포착하기 어렵고 종종 폐색, 다양한 조명 조건 및 다양한 시야각을 고려하지 못합니다(그림 1의 노란색 화살표). 전체 프로세스는 긴 링크로 구성되어 있으며 시간이 많이 걸리고 오류가 발생하기 쉬우며 비용이 많이 듭니다(그림 2). 그래서 현재 기업들은 특히 순수한 비전을 기반으로 한 자동 라벨링 솔루션을 찾고 있습니다. 결국 모든 자동차에 LiDAR가 있는 것은 아닙니다.

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

VRSO+는 주로 SFM, 2D 객체 감지 및 인스턴스 분할 결과의 정보를 사용하는 비전 기반 주석 시스템입니다.

주석의 평균 투영 오류는 다음과 같습니다. 2.6픽셀로 Waymo 주석(10.6픽셀)의 4분의 1 정도입니다.
수동 주석에 비해 속도가 약 16배 향상됩니다.

정적 객체의 경우 VRSO는 인스턴스 분할을 통해 핵심 포인트를 추출하고 윤곽선 다양한 관점에서 정적 객체를 통합하고 중복 제거해야 하는 과제와 폐색 문제로 인한 관찰 부족으로 인해 주석 정확도가 향상됩니다. 그림 1에서 Waymo Open 데이터 세트의 수동 주석 결과와 비교하여 VRSO는 더 높은 견고성과 기하학적 정확도를 보여줍니다.

(모두 보셨을 텐데요. 엄지 손가락으로 위로 스와이프하고 상단에 있는 카드를 클릭하여 저를 팔로우해 보세요. 전체 작업은 1.328초만 소요되며, 그 다음에는 모든 유용한 정보를 가져옵니다. 미래에 유용할 경우를 대비해~)

문제 해결

VRSO 시스템은 크게 장면 재구성과 정적 객체 주석 두 부분으로 나뉩니다.

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

재구성 부분은 초점이 아닌 SFM 알고리즘을 기반으로 이미지 포즈와 희박한 3D 키 포인트를 복원합니다.

의사 코드와 결합된 정적 개체 주석 알고리즘의 일반적인 프로세스는 다음과 같습니다(다음은 단계별로 자세히 설명됩니다).

기성 2D 개체 감지 및 분할 알고리즘을 사용하여 후보 생성
3D-2D 사용 SFM 모델의 핵심 대응 관계를 통해 프레임 전반에 걸쳐 2D 인스턴스를 추적합니다.
재투영 일관성을 도입하여 정적 객체의 3D 주석 매개변수를 최적화합니다.

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

1. 관계 추적

1단계: 다음을 기반으로 3D 경계 추출 SFM 모델의 핵심 포인트는 상자 내 3D 포인트입니다.
2단계: 2D-3D 매칭 관계를 기반으로 2D 지도에서 각 3D 지점의 좌표를 계산합니다.
3단계: 2D 지도 좌표와 인스턴스 분할 모서리 지점을 기반으로 현재 2D 지도에서 해당 3D 지점의 인스턴스를 결정합니다.
4단계: 각 2D 이미지에 대한 2D 관찰과 3D 경계 상자 간의 대응 관계를 결정합니다.

2.proposal은

을 생성하여 전체 비디오 클립에 대한 정적 개체의 3D 상자 매개변수(위치, 방향, 크기)를 초기화합니다. SFM의 각 핵심 포인트에는 정확한 3D 위치와 해당 2D 이미지가 있습니다. 각 2D 인스턴스에 대해 2D 인스턴스 마스크 내의 특징점이 추출됩니다. 그런 다음 해당 3D 키포인트 집합을 3D 경계 상자의 후보로 간주할 수 있습니다.

거리 표지판은 이동(,,), 방향(θ) 및 크기(너비 및 높이)를 포함하여 6자유도를 갖는 공간 방향의 직사각형으로 표현됩니다. 깊이를 고려하면 신호등의 자유도는 7도입니다. 신호등은 신호등과 유사하게 표시됩니다.

3.proposalfine

1단계: 2D 인스턴스 분할에서 각 정적 개체의 윤곽선을 추출합니다.
2단계: 윤곽선에 최소 방향 경계 상자(OBB)를 맞춥니다.
3단계: 최소 경계 상자의 정점을 추출합니다.
4단계: 정점과 중심점을 기준으로 방향을 계산하고 정점 순서를 결정합니다.
5단계: 2D 감지 및 인스턴스 분할 결과를 기반으로 분할 및 병합 프로세스가 수행됩니다.
6단계: 폐색이 포함된 관찰을 감지하고 거부합니다. 2D 인스턴스 분할 마스크에서 정점을 추출하려면 각 기호의 네 모서리가 모두 표시되어야 합니다. 폐색이 있는 경우 인스턴스 분할에서 AABB(축 정렬 경계 상자)를 추출하고 AABB와 2D 감지 상자 간의 면적 비율을 계산합니다. 폐색이 없는 경우 이 두 가지 면적 계산 방법은 유사해야 합니다.

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

4. 삼각측량

삼각측량을 통해 3차원 조건에서 정적 객체의 초기 정점값을 구합니다.

장면 재구성 중 SFM 및 인스턴스 분할을 통해 얻은 3D 경계 상자의 키포인트 수를 확인하여 키포인트 수가 임계값을 초과하는 인스턴스만 안정적이고 유효한 관찰로 간주됩니다. 이러한 경우 해당 2D 경계 상자는 유효한 관찰로 간주됩니다. 여러 이미지의 2차원 관찰을 통해 2차원 경계 상자의 꼭지점을 삼각측량하여 경계 상자의 좌표를 얻습니다.

마스크의 "왼쪽 아래, 왼쪽 위, 오른쪽 위, 오른쪽 위, 오른쪽 아래" 정점을 구분하지 않는 원형 기호의 경우 이러한 원형 기호를 식별해야 합니다. 2D 검출 결과는 원형 객체의 관찰로 사용되며, 2D 인스턴스 분할 마스크는 윤곽선 추출에 사용됩니다. 중심점과 반경은 최소 제곱 피팅 알고리즘을 통해 계산됩니다. 원형 기호의 매개변수에는 중심점(,,), 방향(θ), 반경()이 포함됩니다.

5. 추적 개선

SFM 기반의 추적 특징점 매칭. 3D 경계 상자 정점의 유클리드 거리와 2D 경계 상자 투영 IoU를 기반으로 이러한 개별 인스턴스를 병합할지 여부를 결정합니다. 병합이 완료되면 인스턴스 내의 3D 특징점을 클러스터링하여 더 많은 2D 특징점을 연결할 수 있습니다. 2D 특징점을 추가할 수 없을 때까지 반복적인 2D-3D 연관이 수행됩니다.

6. 최종 매개변수 최적화

직사각형 기호를 예로 들면, 최적화할 수 있는 매개변수는 위치(,,), 방향(θ), 크기(,)이며 총 6도입니다. 자유의. 주요 단계는 다음과 같습니다.

6개의 자유도를 4개의 3D 점으로 변환하고 회전 행렬을 계산합니다.
변환된 4개의 3D 포인트를 2D 이미지에 투사합니다.
투영 결과와 인스턴스 분할로 얻은 꼭지점 결과 간의 잔차를 계산합니다.
Huber를 사용하여 최적화 및 경계 상자 매개변수 업데이트

주석 효과

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

매우 낮은 해상도 및 조명 부족과 같은 까다로운 롱테일 사례도 있습니다.

효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!

요약하자면

VRSO 프레임워크는 고정밀 객체에 대해 일관된 3D 주석을 달성하고 감지, 분할 및 SFM 알고리즘을 긴밀하게 통합하고 지능형 운전 주석에서 수동 개입을 제거하며 비교할 수 있는 LiDAR 기반 결과를 제공합니다. 수동 주석으로. 널리 알려진 Waymo Open Dataset을 사용하여 정성적, 정량적 평가를 수행했습니다. 수동 주석에 비해 속도는 약 16배 향상되었으며 최고의 일관성과 정확성을 유지했습니다.

위 내용은 효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

对象算法

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：인공지능은 어떻게 컴퓨팅을 더 쉽게 만들 수 있을까?다음 기사：인공지능은 어떻게 컴퓨팅을 더 쉽게 만들 수 있을까?