원제: Point Transformer V3: Simpler, Faster, Stronger
논문 링크: https://arxiv.org/pdf/2312.10035.pdf
코드 링크: https://github.com/Pointcept/PointTransformerV3
저자 단위: HKU SH AI Lab MPI PKU MIT
논문 아이디어:
이 글은 어텐션 메커니즘 내에서 혁신을 추구하려는 의도가 없습니다. 대신, 포인트 클라우드 처리 맥락에서 정확성과 효율성 간의 기존 균형을 극복하기 위해 규모의 힘을 활용하는 데 중점을 둡니다. 3D 대규모 표현 학습의 최근 발전에서 영감을 얻은 이 논문은 모델 성능이 설계의 복잡성보다는 규모에 더 많은 영향을 받는다는 점을 인식합니다. 따라서 본 논문에서는 KNN을 대체하기 위해 특정 패턴으로 구성된 포인트 클라우드와 같이 스케일링 후 전체 성능에 영향을 덜 미치는 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 제안합니다. 정확한 동네 검색. 이 원리는 상당한 확장을 가능하게 하여 수용 필드를 16포인트에서 1024포인트로 확장하는 동시에 효율성을 유지합니다(이전 PTv2에 비해 처리 속도는 3배, 메모리 효율성은 10배). PTv3는 실내 및 실외 시나리오를 다루는 20개 이상의 다운스트림 작업에서 최첨단 결과를 달성합니다. PTv3는 다중 데이터세트 공동 훈련을 통해 더욱 향상된 기능을 통해 이러한 결과를 한 단계 더 발전시켰습니다.
네트워크 설계:
3D 표현 학습[85]의 최근 발전으로 여러 3D 데이터 세트에 걸쳐 협업 교육 방법을 도입하여 포인트 클라우드 처리의 데이터 규모 제한을 극복하는 데 진전이 있었습니다. 이 전략과 결합된 효율적인 컨벌루션 백본[12]은 일반적으로 포인트 클라우드 변환기[38, 84]와 관련된 정확도 격차를 효과적으로 연결합니다. 그러나 포인트 클라우드 변환기 자체는 희소 컨볼루션에 비해 포인트 클라우드 변환기의 효율성 격차로 인해 아직 이러한 규모의 이점을 완전히 활용하지 못했습니다. 이 발견은 이 작업의 초기 동기를 형성했습니다. 즉, 스케일링 원리의 관점에서 포인트 변환기의 설계 선택을 다시 평가하는 것입니다. 이 논문에서는 모델 성능이 복잡한 설계보다 규모에 더 크게 영향을 받는다고 믿습니다.
그래서 이 기사에서는 확장성을 달성하기 위해 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 소개합니다. 이러한 조정은 크기 조정 후 전체 성능에 미미한 영향을 미칩니다. 특히 PTv3는 우수한 효율성과 확장성을 달성하기 위해 다음과 같은 조정을 수행했습니다.
- 최근 두 가지 발전[48, 77]에서 영감을 얻고 구조화된 비구조적 포인트 클라우드의 확장성 이점을 인식하여 PTv3는 K-Nearest로 정의되는 전통적인 공간 근접성을 변경했습니다. Neighbors(KNN) 쿼리는 전달 시간의 28%를 차지합니다. 대신, 특정 패턴에 따라 구성된 포인트 클라우드에서 직렬화된 이웃의 잠재력을 탐색합니다.
- PTv3는 직렬화된 포인트 클라우드에 특별히 맞춤화된 단순화된 접근 방식을 채택하여 시프트 창(주의 연산자의 융합을 방해함) 및 이웃 메커니즘(높은 메모리 소비로 이어짐)과 같은 더 복잡한 주의 패치 상호 작용 메커니즘을 대체합니다.
- PTv3는 더 간단한 프런트엔드 희소 컨벌루션 레이어를 선호하여 순방향 시간의 26%를 차지하는 상대 위치 인코딩에 대한 의존성을 제거합니다.
이 기사에서는 이러한 디자인이 기존 포인트 클라우드 변환기의 확장 원리와 발전에 따른 직관적인 선택이라고 간주합니다. 중요한 것은 이 기사에서는 세부적인 모듈 설계보다는 확장성이 백본 설계에 어떤 영향을 미치는지 이해하는 것이 매우 중요하다는 점을 강조합니다.
이 원칙은 정확성과 효율성 사이의 전통적인 균형을 극복하여 확장성을 크게 향상시킵니다(그림 1 참조). PTv3는 이전 버전보다 3.3배 더 빠른 추론과 10.2배 더 낮은 메모리 사용량을 제공합니다. 더 중요한 것은 PTv3가 감지 범위를 확장하는 고유한 기능을 활용하여 효율성을 유지하면서 수용 필드를 16포인트에서 1024포인트로 확장한다는 것입니다. 이러한 확장성은 PTv3가 실내 및 실외 시나리오에서 20개 이상의 다운스트림 작업에 대한 최첨단 결과를 달성하는 실제 인식 작업에서 뛰어난 성능을 뒷받침합니다. PTv3은 다중 데이터세트 훈련을 통해 데이터 크기를 더욱 늘려 이러한 결과를 더욱 향상시킵니다[85]. 이 글의 통찰력이 이 방향에 대한 향후 연구에 영감을 줄 수 있기를 바랍니다.
그림 1. Point Transformer V3(PTv3) 개요. 본 논문의 PTv3는 이전 PTv2[84]와 비교하여 다음과 같은 측면에서 우월함을 보여준다. 1. 더 강력한 성능. PTv3는 다양한 실내 및 실외 3D 인식 작업에서 최첨단 결과를 달성합니다. 2. 더 넓은 수용 영역. 단순성과 효율성의 이점을 활용하여 PTv3는 수용 필드를 16포인트에서 1024포인트로 확장합니다. 3. 더 빨라졌습니다. PTv3는 처리 속도를 크게 향상시켜 지연 시간에 민감한 애플리케이션에 적합합니다. 4. 메모리 소비를 줄입니다. PTv3는 메모리 사용량을 줄이고 다양한 상황에서 접근성을 향상시킵니다.
그림 2. PTv2의 각 구성 요소에 대한 지연 트리 다이어그램. 이 기사에서는 PTv2의 각 구성 요소에 대한 전달 시간 비율을 벤치마킹하고 시각화합니다. KNN 쿼리와 RPE는 전달 시간의 총 54%를 차지합니다.
그림 3. 포인트 클라우드 직렬화. 이 문서에서는 삼중 시각화를 통해 네 가지 직렬화 패턴을 보여줍니다. 각 삼중항에 대해 직렬화를 위한 공간 채우기 곡선(왼쪽), 공간 채우기 곡선 내 포인트 클라우드 직렬화 변수 정렬 순서(가운데), 로컬 주의를 위한 직렬화된 포인트 클라우드의 그룹화된 패치(오른쪽)가 표시됩니다. 네 가지 직렬화 모드의 변환을 통해 어텐션 메커니즘이 다양한 공간적 관계와 맥락을 포착할 수 있게 되어 모델 정확도와 일반화 능력이 향상됩니다.
그림 4. 패치 그룹화. (a) 특정 직렬화 스키마에서 파생된 순서에 따라 포인트 클라우드를 재정렬합니다. (b) 지정된 패치 크기로 나눌 수 있는지 확인하기 위해 인접한 패치에서 점을 빌려 점 클라우드 시퀀스를 채웁니다.
그림 5. 패치 상호 작용. (a) 정규적이고 이동되지 않은 배열을 사용하는 표준 패치 그룹화. (b) 확장 효과를 생성하기 위해 포인트가 일정한 간격으로 집계되는 변환 확장. (c) 이동 패치와 유사한 이동 메커니즘을 사용합니다. 이동 창 방법; (d) 서로 다른 직렬화 패턴이 연속적인 Attention 레이어에 주기적으로 할당되는 Shift Order(d) 직렬화 패턴의 시퀀스가 Attention 레이어에 입력되기 전에 무작위로 지정되는 Shuffle Order.
그림 6. 전체 아키텍처.
실험 결과:
요약:
이 기사에서는 포인트 클라우드 처리의 정확성을 극복하기 위해 작동하는 Point Transform er V3를 소개합니다. 효율성과 효율성 사이의 전통적인 균형에서 큰 진전을 이루었습니다. 백본 디자인의 스케일링 원리에 대한 새로운 해석을 바탕으로 이 논문에서는 모델 성능이 디자인의 복잡성보다는 스케일에 더 큰 영향을 받는다고 주장합니다. 이 백서는 작은 충격 메커니즘의 정확성보다 효율성을 우선시함으로써 규모의 힘을 활용하여 성능을 향상시킵니다. 즉, 이 문서에서는 모델을 더 간단하고 빠르게 만들어 더욱 강력한 모델을 만들 수 있습니다.
인용:
Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao , H. (2023). 포인트 트랜스포머 V3: Simpler, Faster, Stronger.ArXiv. /abs/2312.10035
위 내용은 업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

데이터 무결성 : 정확한 분석을 위해 Excel에서 복제를 제거합니다 깨끗한 데이터는 효과적인 의사 결정에 중요합니다. Excel 스프레드 시트의 중복 항목은 오류 및 신뢰할 수없는 분석으로 이어질 수 있습니다. 이 안내서는 DUP를 쉽게 제거하는 방법을 보여줍니다

전화 인터뷰의 기술 마스터 : 성공 가이드 성공적인 전화 인터뷰는 구직 응용 프로그램 프로세스의 다음 단계로 발전 할 가능성을 크게 향상시킬 수 있습니다. 이 중요한 첫 인상, 종종 유일한 프리 팩

소개 의료, 금융 또는 스포츠와 같은 분야에서 자신과 회사를 위해 정보에 입각 한 결정을 내릴 수있는 권한이 있다고 상상해보십시오. 그것이 통계 학자의 역할입니다. 조직에서 데이터 사용이 증가함에 따라 통계에 대한 수요

인공 지능 : 포괄적 인 가이드 기술을 통해 기계가 우리의 선호도를 이해하고, 우리의 요구를 예상하며, 과거의 상호 작용을 통해 더 나은 결과를 제공하는 세상을 구상 할 수있었습니다. 이것은 공상 과학이 아닙니다. 그것은

소개 데이터 분석의 세계에서는 효과적인 커뮤니케이션이 핵심입니다. Pictogram 그래프는 강력한 솔루션을 제공하여 시각적으로 매력적이고 쉽게 소화 가능한 형식으로 정보를 제공합니다. 복잡한 차트 및 수치와 달리, 그림도

LLAMA 3.1 Storm 8B : 효율적인 언어 모델의 획기적인 효율적이고 정확한 언어 모델을 추구함으로써 LLAMA 3.1 Storm 8B의 개발로 이어졌다. 이것은 세련되었습니다

GIT : 버전 제어 및 협업에 대한 필수 안내서 GIT는 개발자에게 중요한 도구이며 프로젝트 협업 및 버전 제어를 단순화합니다. 이 안내서는 Linux, MacOS 및 Wind에 Git을 설치하기위한 간단한 지침을 제공합니다.

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

드림위버 CS6
시각적 웹 개발 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

WebStorm Mac 버전
유용한 JavaScript 개발 도구
