원제: Point Transformer V3: Simpler, Faster, Stronger
논문 링크: https://arxiv.org/pdf/2312.10035.pdf
코드 링크: https://github.com/Pointcept/PointTransformerV3
저자 단위: HKU SH AI Lab MPI PKU MIT
이 글은 어텐션 메커니즘 내에서 혁신을 추구하려는 의도가 없습니다. 대신, 포인트 클라우드 처리 맥락에서 정확성과 효율성 간의 기존 균형을 극복하기 위해 규모의 힘을 활용하는 데 중점을 둡니다. 3D 대규모 표현 학습의 최근 발전에서 영감을 얻은 이 논문은 모델 성능이 설계의 복잡성보다는 규모에 더 많은 영향을 받는다는 점을 인식합니다. 따라서 본 논문에서는 KNN을 대체하기 위해 특정 패턴으로 구성된 포인트 클라우드와 같이 스케일링 후 전체 성능에 영향을 덜 미치는 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 제안합니다. 정확한 동네 검색. 이 원리는 상당한 확장을 가능하게 하여 수용 필드를 16포인트에서 1024포인트로 확장하는 동시에 효율성을 유지합니다(이전 PTv2에 비해 처리 속도는 3배, 메모리 효율성은 10배). PTv3는 실내 및 실외 시나리오를 다루는 20개 이상의 다운스트림 작업에서 최첨단 결과를 달성합니다. PTv3는 다중 데이터세트 공동 훈련을 통해 더욱 향상된 기능을 통해 이러한 결과를 한 단계 더 발전시켰습니다.
3D 표현 학습[85]의 최근 발전으로 여러 3D 데이터 세트에 걸쳐 협업 교육 방법을 도입하여 포인트 클라우드 처리의 데이터 규모 제한을 극복하는 데 진전이 있었습니다. 이 전략과 결합된 효율적인 컨벌루션 백본[12]은 일반적으로 포인트 클라우드 변환기[38, 84]와 관련된 정확도 격차를 효과적으로 연결합니다. 그러나 포인트 클라우드 변환기 자체는 희소 컨볼루션에 비해 포인트 클라우드 변환기의 효율성 격차로 인해 아직 이러한 규모의 이점을 완전히 활용하지 못했습니다. 이 발견은 이 작업의 초기 동기를 형성했습니다. 즉, 스케일링 원리의 관점에서 포인트 변환기의 설계 선택을 다시 평가하는 것입니다. 이 논문에서는 모델 성능이 복잡한 설계보다 규모에 더 크게 영향을 받는다고 믿습니다.
그래서 이 기사에서는 확장성을 달성하기 위해 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 소개합니다. 이러한 조정은 크기 조정 후 전체 성능에 미미한 영향을 미칩니다. 특히 PTv3는 우수한 효율성과 확장성을 달성하기 위해 다음과 같은 조정을 수행했습니다.
이 기사에서는 이러한 디자인이 기존 포인트 클라우드 변환기의 확장 원리와 발전에 따른 직관적인 선택이라고 간주합니다. 중요한 것은 이 기사에서는 세부적인 모듈 설계보다는 확장성이 백본 설계에 어떤 영향을 미치는지 이해하는 것이 매우 중요하다는 점을 강조합니다.
이 원칙은 정확성과 효율성 사이의 전통적인 균형을 극복하여 확장성을 크게 향상시킵니다(그림 1 참조). PTv3는 이전 버전보다 3.3배 더 빠른 추론과 10.2배 더 낮은 메모리 사용량을 제공합니다. 더 중요한 것은 PTv3가 감지 범위를 확장하는 고유한 기능을 활용하여 효율성을 유지하면서 수용 필드를 16포인트에서 1024포인트로 확장한다는 것입니다. 이러한 확장성은 PTv3가 실내 및 실외 시나리오에서 20개 이상의 다운스트림 작업에 대한 최첨단 결과를 달성하는 실제 인식 작업에서 뛰어난 성능을 뒷받침합니다. PTv3은 다중 데이터세트 훈련을 통해 데이터 크기를 더욱 늘려 이러한 결과를 더욱 향상시킵니다[85]. 이 글의 통찰력이 이 방향에 대한 향후 연구에 영감을 줄 수 있기를 바랍니다.
그림 1. Point Transformer V3(PTv3) 개요. 본 논문의 PTv3는 이전 PTv2[84]와 비교하여 다음과 같은 측면에서 우월함을 보여준다. 1. 더 강력한 성능. PTv3는 다양한 실내 및 실외 3D 인식 작업에서 최첨단 결과를 달성합니다. 2. 더 넓은 수용 영역. 단순성과 효율성의 이점을 활용하여 PTv3는 수용 필드를 16포인트에서 1024포인트로 확장합니다. 3. 더 빨라졌습니다. PTv3는 처리 속도를 크게 향상시켜 지연 시간에 민감한 애플리케이션에 적합합니다. 4. 메모리 소비를 줄입니다. PTv3는 메모리 사용량을 줄이고 다양한 상황에서 접근성을 향상시킵니다.
그림 2. PTv2의 각 구성 요소에 대한 지연 트리 다이어그램. 이 기사에서는 PTv2의 각 구성 요소에 대한 전달 시간 비율을 벤치마킹하고 시각화합니다. KNN 쿼리와 RPE는 전달 시간의 총 54%를 차지합니다.
그림 3. 포인트 클라우드 직렬화. 이 문서에서는 삼중 시각화를 통해 네 가지 직렬화 패턴을 보여줍니다. 각 삼중항에 대해 직렬화를 위한 공간 채우기 곡선(왼쪽), 공간 채우기 곡선 내 포인트 클라우드 직렬화 변수 정렬 순서(가운데), 로컬 주의를 위한 직렬화된 포인트 클라우드의 그룹화된 패치(오른쪽)가 표시됩니다. 네 가지 직렬화 모드의 변환을 통해 어텐션 메커니즘이 다양한 공간적 관계와 맥락을 포착할 수 있게 되어 모델 정확도와 일반화 능력이 향상됩니다.
그림 4. 패치 그룹화. (a) 특정 직렬화 스키마에서 파생된 순서에 따라 포인트 클라우드를 재정렬합니다. (b) 지정된 패치 크기로 나눌 수 있는지 확인하기 위해 인접한 패치에서 점을 빌려 점 클라우드 시퀀스를 채웁니다.
그림 5. 패치 상호 작용. (a) 정규적이고 이동되지 않은 배열을 사용하는 표준 패치 그룹화. (b) 확장 효과를 생성하기 위해 포인트가 일정한 간격으로 집계되는 변환 확장. (c) 이동 패치와 유사한 이동 메커니즘을 사용합니다. 이동 창 방법; (d) 서로 다른 직렬화 패턴이 연속적인 Attention 레이어에 주기적으로 할당되는 Shift Order(d) 직렬화 패턴의 시퀀스가 Attention 레이어에 입력되기 전에 무작위로 지정되는 Shuffle Order.
그림 6. 전체 아키텍처.
이 기사에서는 포인트 클라우드 처리의 정확성을 극복하기 위해 작동하는 Point Transform er V3를 소개합니다. 효율성과 효율성 사이의 전통적인 균형에서 큰 진전을 이루었습니다. 백본 디자인의 스케일링 원리에 대한 새로운 해석을 바탕으로 이 논문에서는 모델 성능이 디자인의 복잡성보다는 스케일에 더 큰 영향을 받는다고 주장합니다. 이 백서는 작은 충격 메커니즘의 정확성보다 효율성을 우선시함으로써 규모의 힘을 활용하여 성능을 향상시킵니다. 즉, 이 문서에서는 모델을 더 간단하고 빠르게 만들어 더욱 강력한 모델을 만들 수 있습니다.
Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao , H. (2023). 포인트 트랜스포머 V3: Simpler, Faster, Stronger.ArXiv. /abs/2312.10035
원본 링크: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA위 내용은 업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!