찾다
기술 주변기기일체 포함업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!

원제: Point Transformer V3: Simpler, Faster, Stronger

논문 링크: https://arxiv.org/pdf/2312.10035.pdf

코드 링크: https://github.com/Pointcept/PointTransformerV3

저자 단위: HKU SH AI Lab MPI PKU MIT

논문 아이디어:

이 글은 어텐션 메커니즘 내에서 혁신을 추구하려는 의도가 없습니다. 대신, 포인트 클라우드 처리 맥락에서 정확성과 효율성 간의 기존 균형을 극복하기 위해 규모의 힘을 활용하는 데 중점을 둡니다. 3D 대규모 표현 학습의 최근 발전에서 영감을 얻은 이 논문은 모델 성능이 설계의 복잡성보다는 규모에 더 많은 영향을 받는다는 점을 인식합니다. 따라서 본 논문에서는 KNN을 대체하기 위해 특정 패턴으로 구성된 포인트 클라우드와 같이 스케일링 후 전체 성능에 영향을 덜 미치는 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 제안합니다. 정확한 동네 검색. 이 원리는 상당한 확장을 가능하게 하여 수용 필드를 16포인트에서 1024포인트로 확장하는 동시에 효율성을 유지합니다(이전 PTv2에 비해 처리 속도는 3배, 메모리 효율성은 10배). PTv3는 실내 및 실외 시나리오를 다루는 20개 이상의 다운스트림 작업에서 최첨단 결과를 달성합니다. PTv3는 다중 데이터세트 공동 훈련을 통해 더욱 향상된 기능을 통해 이러한 결과를 한 단계 더 발전시켰습니다.

네트워크 설계:

3D 표현 학습[85]의 최근 발전으로 여러 3D 데이터 세트에 걸쳐 협업 교육 방법을 도입하여 포인트 클라우드 처리의 데이터 규모 제한을 극복하는 데 진전이 있었습니다. 이 전략과 결합된 효율적인 컨벌루션 백본[12]은 일반적으로 포인트 클라우드 변환기[38, 84]와 관련된 정확도 격차를 효과적으로 연결합니다. 그러나 포인트 클라우드 변환기 자체는 희소 컨볼루션에 비해 포인트 클라우드 변환기의 효율성 격차로 인해 아직 이러한 규모의 이점을 완전히 활용하지 못했습니다. 이 발견은 이 작업의 초기 동기를 형성했습니다. 즉, 스케일링 원리의 관점에서 포인트 변환기의 설계 선택을 다시 평가하는 것입니다. 이 논문에서는 모델 성능이 복잡한 설계보다 규모에 더 크게 영향을 받는다고 믿습니다.

그래서 이 기사에서는 확장성을 달성하기 위해 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 소개합니다. 이러한 조정은 크기 조정 후 전체 성능에 미미한 영향을 미칩니다. 특히 PTv3는 우수한 효율성과 확장성을 달성하기 위해 다음과 같은 조정을 수행했습니다.

  • 최근 두 가지 발전[48, 77]에서 영감을 얻고 구조화된 비구조적 포인트 클라우드의 확장성 이점을 인식하여 PTv3는 K-Nearest로 정의되는 전통적인 공간 근접성을 변경했습니다. Neighbors(KNN) 쿼리는 전달 시간의 28%를 차지합니다. 대신, 특정 패턴에 따라 구성된 포인트 클라우드에서 직렬화된 이웃의 잠재력을 탐색합니다.
  • PTv3는 직렬화된 포인트 클라우드에 특별히 맞춤화된 단순화된 접근 방식을 채택하여 시프트 창(주의 연산자의 융합을 방해함) 및 이웃 메커니즘(높은 메모리 소비로 이어짐)과 같은 더 복잡한 주의 패치 상호 작용 메커니즘을 대체합니다.
  • PTv3는 더 간단한 프런트엔드 희소 컨벌루션 레이어를 선호하여 순방향 시간의 26%를 차지하는 상대 위치 인코딩에 대한 의존성을 제거합니다.

이 기사에서는 이러한 디자인이 기존 포인트 클라우드 변환기의 확장 원리와 발전에 따른 직관적인 선택이라고 간주합니다. 중요한 것은 이 기사에서는 세부적인 모듈 설계보다는 확장성이 백본 설계에 어떤 영향을 미치는지 이해하는 것이 매우 중요하다는 점을 강조합니다.

이 원칙은 정확성과 효율성 사이의 전통적인 균형을 극복하여 확장성을 크게 향상시킵니다(그림 1 참조). PTv3는 이전 버전보다 3.3배 더 빠른 추론과 10.2배 더 낮은 메모리 사용량을 제공합니다. 더 중요한 것은 PTv3가 감지 범위를 확장하는 고유한 기능을 활용하여 효율성을 유지하면서 수용 필드를 16포인트에서 1024포인트로 확장한다는 것입니다. 이러한 확장성은 PTv3가 실내 및 실외 시나리오에서 20개 이상의 다운스트림 작업에 대한 최첨단 결과를 달성하는 실제 인식 작업에서 뛰어난 성능을 뒷받침합니다. PTv3은 다중 데이터세트 훈련을 통해 데이터 크기를 더욱 늘려 이러한 결과를 더욱 향상시킵니다[85]. 이 글의 통찰력이 이 방향에 대한 향후 연구에 영감을 줄 수 있기를 바랍니다.

Point Transformer V3:更简单、更快、更强!

그림 1. Point Transformer V3(PTv3) 개요. 본 논문의 PTv3는 이전 PTv2[84]와 비교하여 다음과 같은 측면에서 우월함을 보여준다. 1. 더 강력한 성능. PTv3는 다양한 실내 및 실외 3D 인식 작업에서 최첨단 결과를 달성합니다. 2. 더 넓은 수용 영역. 단순성과 효율성의 이점을 활용하여 PTv3는 수용 필드를 16포인트에서 1024포인트로 확장합니다. 3. 더 빨라졌습니다. PTv3는 처리 속도를 크게 향상시켜 지연 시간에 민감한 애플리케이션에 적합합니다. 4. 메모리 소비를 줄입니다. PTv3는 메모리 사용량을 줄이고 다양한 상황에서 접근성을 향상시킵니다.

Point Transformer V3:更简单、更快、更强!

그림 2. PTv2의 각 구성 요소에 대한 지연 트리 다이어그램. 이 기사에서는 PTv2의 각 구성 요소에 대한 전달 시간 비율을 벤치마킹하고 시각화합니다. KNN 쿼리와 RPE는 전달 시간의 총 54%를 차지합니다.

Point Transformer V3:更简单、更快、更强!

그림 3. 포인트 클라우드 직렬화. 이 문서에서는 삼중 시각화를 통해 네 가지 직렬화 패턴을 보여줍니다. 각 삼중항에 대해 직렬화를 위한 공간 채우기 곡선(왼쪽), 공간 채우기 곡선 내 포인트 클라우드 직렬화 변수 정렬 순서(가운데), 로컬 주의를 위한 직렬화된 포인트 클라우드의 그룹화된 패치(오른쪽)가 표시됩니다. 네 가지 직렬화 모드의 변환을 통해 어텐션 메커니즘이 다양한 공간적 관계와 맥락을 포착할 수 있게 되어 모델 정확도와 일반화 능력이 향상됩니다.

Point Transformer V3:更简单、更快、更强!

그림 4. 패치 그룹화. (a) 특정 직렬화 스키마에서 파생된 순서에 따라 포인트 클라우드를 재정렬합니다. (b) 지정된 패치 크기로 나눌 수 있는지 확인하기 위해 인접한 패치에서 점을 빌려 점 클라우드 시퀀스를 채웁니다.

Point Transformer V3:更简单、更快、更强!

그림 5. 패치 상호 작용. (a) 정규적이고 이동되지 않은 배열을 사용하는 표준 패치 그룹화. (b) 확장 효과를 생성하기 위해 포인트가 일정한 간격으로 집계되는 변환 확장. (c) 이동 패치와 유사한 이동 메커니즘을 사용합니다. 이동 창 방법; (d) 서로 다른 직렬화 패턴이 연속적인 Attention 레이어에 주기적으로 할당되는 Shift Order(d) 직렬화 패턴의 시퀀스가 ​​Attention 레이어에 입력되기 전에 무작위로 지정되는 Shuffle Order.

Point Transformer V3:更简单、更快、更强!

그림 6. 전체 아키텍처.

실험 결과:

Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

요약:

이 기사에서는 포인트 클라우드 처리의 정확성을 극복하기 위해 작동하는 Point Transform er V3를 소개합니다. 효율성과 효율성 사이의 전통적인 균형에서 큰 진전을 이루었습니다. 백본 디자인의 스케일링 원리에 대한 새로운 해석을 바탕으로 이 논문에서는 모델 성능이 디자인의 복잡성보다는 스케일에 더 큰 영향을 받는다고 주장합니다. 이 백서는 작은 충격 메커니즘의 정확성보다 효율성을 우선시함으로써 규모의 힘을 활용하여 성능을 향상시킵니다. 즉, 이 문서에서는 모델을 더 간단하고 빠르게 만들어 더욱 강력한 모델을 만들 수 있습니다.

인용:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao , H. (2023). 포인트 트랜스포머 V3: Simpler, Faster, Stronger.ArXiv. /abs/2312.10035

Point Transformer V3:更简单、更快、更强!

원본 링크: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

위 내용은 업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Excel에서 복제를 제거하는 방법? - 분석 VidhyaExcel에서 복제를 제거하는 방법? - 분석 VidhyaApr 15, 2025 am 09:20 AM

데이터 무결성 : 정확한 분석을 위해 Excel에서 복제를 제거합니다 깨끗한 데이터는 효과적인 의사 결정에 중요합니다. Excel 스프레드 시트의 중복 항목은 오류 및 신뢰할 수없는 분석으로 이어질 수 있습니다. 이 안내서는 DUP를 쉽게 제거하는 방법을 보여줍니다

상위 10 개 전화 인터뷰 팁 - 분석 Vidhya상위 10 개 전화 인터뷰 팁 - 분석 VidhyaApr 15, 2025 am 09:19 AM

전화 인터뷰의 기술 마스터 : 성공 가이드 성공적인 전화 인터뷰는 구직 응용 프로그램 프로세스의 다음 단계로 발전 할 가능성을 크게 향상시킬 수 있습니다. 이 중요한 첫 인상, 종종 유일한 프리 팩

통계학자가되는 방법?통계학자가되는 방법?Apr 15, 2025 am 09:15 AM

소개 의료, 금융 또는 스포츠와 같은 분야에서 자신과 회사를 위해 정보에 입각 한 결정을 내릴 수있는 권한이 있다고 상상해보십시오. 그것이 통계 학자의 역할입니다. 조직에서 데이터 사용이 증가함에 따라 통계에 대한 수요

AI는 어떻게 작동합니까? - 분석 VidhyaAI는 어떻게 작동합니까? - 분석 VidhyaApr 15, 2025 am 09:14 AM

인공 지능 : 포괄적 인 가이드 기술을 통해 기계가 우리의 선호도를 이해하고, 우리의 요구를 예상하며, 과거의 상호 작용을 통해 더 나은 결과를 제공하는 세상을 구상 할 수있었습니다. 이것은 공상 과학이 아닙니다. 그것은

Pictogram 그래프는 무엇입니까? - 분석 VidhyaPictogram 그래프는 무엇입니까? - 분석 VidhyaApr 15, 2025 am 09:09 AM

소개 데이터 분석의 세계에서는 효과적인 커뮤니케이션이 핵심입니다. Pictogram 그래프는 강력한 솔루션을 제공하여 시각적으로 매력적이고 쉽게 소화 가능한 형식으로 정보를 제공합니다. 복잡한 차트 및 수치와 달리, 그림도

LLAMA-3.1-Storm-8B : 8B LLM은 메타와 헤르메스를 능가합니다LLAMA-3.1-Storm-8B : 8B LLM은 메타와 헤르메스를 능가합니다Apr 15, 2025 am 09:08 AM

LLAMA 3.1 Storm 8B : 효율적인 언어 모델의 획기적인 효율적이고 정확한 언어 모델을 추구함으로써 LLAMA 3.1 Storm 8B의 개발로 이어졌다. 이것은 세련되었습니다

git을 설치하는 방법? - 분석 Vidhyagit을 설치하는 방법? - 분석 VidhyaApr 15, 2025 am 09:07 AM

GIT : 버전 제어 및 협업에 대한 필수 안내서 GIT는 개발자에게 중요한 도구이며 프로젝트 협업 및 버전 제어를 단순화합니다. 이 안내서는 Linux, MacOS 및 Wind에 Git을 설치하기위한 간단한 지침을 제공합니다.

LLM에서 도구 호출LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 ​​있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구