업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 17, 2024 am 08:27 AM

기차포인트 클라우드

원제: Point Transformer V3: Simpler, Faster, Stronger

논문 링크: https://arxiv.org/pdf/2312.10035.pdf

코드 링크: https://github.com/Pointcept/PointTransformerV3

저자 단위: HKU SH AI Lab MPI PKU MIT

논문 아이디어:

이 글은 어텐션 메커니즘 내에서 혁신을 추구하려는 의도가 없습니다. 대신, 포인트 클라우드 처리 맥락에서 정확성과 효율성 간의 기존 균형을 극복하기 위해 규모의 힘을 활용하는 데 중점을 둡니다. 3D 대규모 표현 학습의 최근 발전에서 영감을 얻은 이 논문은 모델 성능이 설계의 복잡성보다는 규모에 더 많은 영향을 받는다는 점을 인식합니다. 따라서 본 논문에서는 KNN을 대체하기 위해 특정 패턴으로 구성된 포인트 클라우드와 같이 스케일링 후 전체 성능에 영향을 덜 미치는 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 제안합니다. 정확한 동네 검색. 이 원리는 상당한 확장을 가능하게 하여 수용 필드를 16포인트에서 1024포인트로 확장하는 동시에 효율성을 유지합니다(이전 PTv2에 비해 처리 속도는 3배, 메모리 효율성은 10배). PTv3는 실내 및 실외 시나리오를 다루는 20개 이상의 다운스트림 작업에서 최첨단 결과를 달성합니다. PTv3는 다중 데이터세트 공동 훈련을 통해 더욱 향상된 기능을 통해 이러한 결과를 한 단계 더 발전시켰습니다.

네트워크 설계:

3D 표현 학습[85]의 최근 발전으로 여러 3D 데이터 세트에 걸쳐 협업 교육 방법을 도입하여 포인트 클라우드 처리의 데이터 규모 제한을 극복하는 데 진전이 있었습니다. 이 전략과 결합된 효율적인 컨벌루션 백본[12]은 일반적으로 포인트 클라우드 변환기[38, 84]와 관련된 정확도 격차를 효과적으로 연결합니다. 그러나 포인트 클라우드 변환기 자체는 희소 컨볼루션에 비해 포인트 클라우드 변환기의 효율성 격차로 인해 아직 이러한 규모의 이점을 완전히 활용하지 못했습니다. 이 발견은 이 작업의 초기 동기를 형성했습니다. 즉, 스케일링 원리의 관점에서 포인트 변환기의 설계 선택을 다시 평가하는 것입니다. 이 논문에서는 모델 성능이 복잡한 설계보다 규모에 더 크게 영향을 받는다고 믿습니다.

그래서 이 기사에서는 확장성을 달성하기 위해 특정 메커니즘의 정확성보다 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 소개합니다. 이러한 조정은 크기 조정 후 전체 성능에 미미한 영향을 미칩니다. 특히 PTv3는 우수한 효율성과 확장성을 달성하기 위해 다음과 같은 조정을 수행했습니다.

최근 두 가지 발전[48, 77]에서 영감을 얻고 구조화된 비구조적 포인트 클라우드의 확장성 이점을 인식하여 PTv3는 K-Nearest로 정의되는 전통적인 공간 근접성을 변경했습니다. Neighbors(KNN) 쿼리는 전달 시간의 28%를 차지합니다. 대신, 특정 패턴에 따라 구성된 포인트 클라우드에서 직렬화된 이웃의 잠재력을 탐색합니다.
PTv3는 직렬화된 포인트 클라우드에 특별히 맞춤화된 단순화된 접근 방식을 채택하여 시프트 창(주의 연산자의 융합을 방해함) 및 이웃 메커니즘(높은 메모리 소비로 이어짐)과 같은 더 복잡한 주의 패치 상호 작용 메커니즘을 대체합니다.
PTv3는 더 간단한 프런트엔드 희소 컨벌루션 레이어를 선호하여 순방향 시간의 26%를 차지하는 상대 위치 인코딩에 대한 의존성을 제거합니다.

이 기사에서는 이러한 디자인이 기존 포인트 클라우드 변환기의 확장 원리와 발전에 따른 직관적인 선택이라고 간주합니다. 중요한 것은 이 기사에서는 세부적인 모듈 설계보다는 확장성이 백본 설계에 어떤 영향을 미치는지 이해하는 것이 매우 중요하다는 점을 강조합니다.

이 원칙은 정확성과 효율성 사이의 전통적인 균형을 극복하여 확장성을 크게 향상시킵니다(그림 1 참조). PTv3는 이전 버전보다 3.3배 더 빠른 추론과 10.2배 더 낮은 메모리 사용량을 제공합니다. 더 중요한 것은 PTv3가 감지 범위를 확장하는 고유한 기능을 활용하여 효율성을 유지하면서 수용 필드를 16포인트에서 1024포인트로 확장한다는 것입니다. 이러한 확장성은 PTv3가 실내 및 실외 시나리오에서 20개 이상의 다운스트림 작업에 대한 최첨단 결과를 달성하는 실제 인식 작업에서 뛰어난 성능을 뒷받침합니다. PTv3은 다중 데이터세트 훈련을 통해 데이터 크기를 더욱 늘려 이러한 결과를 더욱 향상시킵니다[85]. 이 글의 통찰력이 이 방향에 대한 향후 연구에 영감을 줄 수 있기를 바랍니다.

Point Transformer V3：更简单、更快、更强!

그림 1. Point Transformer V3(PTv3) 개요. 본 논문의 PTv3는 이전 PTv2[84]와 비교하여 다음과 같은 측면에서 우월함을 보여준다. 1. 더 강력한 성능. PTv3는 다양한 실내 및 실외 3D 인식 작업에서 최첨단 결과를 달성합니다. 2. 더 넓은 수용 영역. 단순성과 효율성의 이점을 활용하여 PTv3는 수용 필드를 16포인트에서 1024포인트로 확장합니다. 3. 더 빨라졌습니다. PTv3는 처리 속도를 크게 향상시켜 지연 시간에 민감한 애플리케이션에 적합합니다. 4. 메모리 소비를 줄입니다. PTv3는 메모리 사용량을 줄이고 다양한 상황에서 접근성을 향상시킵니다.

Point Transformer V3：更简单、更快、更强!

그림 2. PTv2의 각 구성 요소에 대한 지연 트리 다이어그램. 이 기사에서는 PTv2의 각 구성 요소에 대한 전달 시간 비율을 벤치마킹하고 시각화합니다. KNN 쿼리와 RPE는 전달 시간의 총 54%를 차지합니다.

Point Transformer V3：更简单、更快、更强!

그림 3. 포인트 클라우드 직렬화. 이 문서에서는 삼중 시각화를 통해 네 가지 직렬화 패턴을 보여줍니다. 각 삼중항에 대해 직렬화를 위한 공간 채우기 곡선(왼쪽), 공간 채우기 곡선 내 포인트 클라우드 직렬화 변수 정렬 순서(가운데), 로컬 주의를 위한 직렬화된 포인트 클라우드의 그룹화된 패치(오른쪽)가 표시됩니다. 네 가지 직렬화 모드의 변환을 통해 어텐션 메커니즘이 다양한 공간적 관계와 맥락을 포착할 수 있게 되어 모델 정확도와 일반화 능력이 향상됩니다.

Point Transformer V3：更简单、更快、更强!

그림 4. 패치 그룹화. (a) 특정 직렬화 스키마에서 파생된 순서에 따라 포인트 클라우드를 재정렬합니다. (b) 지정된 패치 크기로 나눌 수 있는지 확인하기 위해 인접한 패치에서 점을 빌려 점 클라우드 시퀀스를 채웁니다.

Point Transformer V3：更简单、更快、更强!

그림 5. 패치 상호 작용. (a) 정규적이고 이동되지 않은 배열을 사용하는 표준 패치 그룹화. (b) 확장 효과를 생성하기 위해 포인트가 일정한 간격으로 집계되는 변환 확장. (c) 이동 패치와 유사한 이동 메커니즘을 사용합니다. 이동 창 방법; (d) 서로 다른 직렬화 패턴이 연속적인 Attention 레이어에 주기적으로 할당되는 Shift Order(d) 직렬화 패턴의 시퀀스가 Attention 레이어에 입력되기 전에 무작위로 지정되는 Shuffle Order.

Point Transformer V3：更简单、更快、更强!

그림 6. 전체 아키텍처.

실험 결과:

Point Transformer V3：更简单、更快、更强!

요약:

이 기사에서는 포인트 클라우드 처리의 정확성을 극복하기 위해 작동하는 Point Transform er V3를 소개합니다. 효율성과 효율성 사이의 전통적인 균형에서 큰 진전을 이루었습니다. 백본 디자인의 스케일링 원리에 대한 새로운 해석을 바탕으로 이 논문에서는 모델 성능이 디자인의 복잡성보다는 스케일에 더 큰 영향을 받는다고 주장합니다. 이 백서는 작은 충격 메커니즘의 정확성보다 효율성을 우선시함으로써 규모의 힘을 활용하여 성능을 향상시킵니다. 즉, 이 문서에서는 모델을 더 간단하고 빠르게 만들어 더욱 강력한 모델을 만들 수 있습니다.

인용:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao , H. (2023). 포인트 트랜스포머 V3: Simpler, Faster, Stronger.ArXiv. /abs/2312.10035

Point Transformer V3：更简单、更快、更强!

원본 링크: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

위 내용은 업데이트된 Point Transformer: 더욱 효율적이고 빠르며 강력해졌습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 내부 배포의 숨겨진 위험 : 거버넌스 격차 및 치명적인 위험Apr 28, 2025 am 11:12 AM

Apollo Research의 새로운 보고서에 따르면 고급 AI 시스템의 점검되지 않은 내부 배치는 상당한 위험을 초래합니다. 주요 AI 기업들 사이에서 널리 퍼져있는 이러한 감독 부족은 uncont에서 범위에 이르는 잠재적 인 치명적인 결과를 허용합니다.

AI Polygraph 구축Apr 28, 2025 am 11:11 AM

전통적인 거짓말 탐지기는 구식입니다. 손목 대역으로 연결된 포인터에 의존하는 것은 대상의 활력 징후와 물리적 반응을 인쇄하는 거짓말 탐지기가 거짓말을 식별하는 데 정확하지 않습니다. 그렇기 때문에 거짓말 탐지 결과는 일반적으로 법원에서 채택되지는 않지만 많은 무고한 사람들이 감옥에 갇히게되었습니다. 대조적으로, 인공 지능은 강력한 데이터 엔진이며, 작동 원리는 모든 측면을 관찰하는 것입니다. 이것은 과학자들이 다양한 방식으로 진실을 찾는 응용 분야에 인공 지능을 적용 할 수 있음을 의미합니다. 한 가지 방법은 거짓말 탐지기처럼 심문을받는 사람의 중요한 부호 반응을 분석하지만보다 상세하고 정확한 비교 분석을 분석하는 것입니다. 또 다른 방법은 언어 마크 업을 사용하여 사람들이 실제로 말하는 것을 분석하고 논리와 추론을 사용하는 것입니다. 말이 갈 때, 한 거짓말은 또 다른 거짓말을 번식시키고 결국

항공 우주 산업에서 AI가 이륙을 위해 청산 되었습니까?Apr 28, 2025 am 11:10 AM

혁신의 선구자 인 항공 우주 산업은 AI를 활용하여 가장 복잡한 도전을 해결하고 있습니다. Modern Aviation의 복잡성 증가는 AI의 자동화 및 실시간 인텔리전스 기능이 필요합니다.

베이징의 봄 로봇 레이스를보고 있습니다Apr 28, 2025 am 11:09 AM

로봇 공학의 빠른 발전은 우리에게 매혹적인 사례 연구를 가져 왔습니다. Noetix의 N2 로봇의 무게는 40 파운드가 넘고 키가 3 피트이며 백 플립을 할 수 있다고합니다. Unitree의 G1 로봇의 무게는 N2 크기의 약 2 배이며 키는 약 4 피트입니다. 경쟁에 참여하는 작은 휴머노이드 로봇도 많으며 팬이 앞으로 나아가는 로봇도 있습니다. 데이터 해석 하프 마라톤은 12,000 명 이상의 관중을 끌어 들였지만 21 명의 휴머노이드 로봇 만 참여했습니다. 정부는 참여 로봇이 경쟁 전에 "집중 훈련"을 수행했다고 지적했지만 모든 로봇이 전체 경쟁을 완료 한 것은 아닙니다. 챔피언 -Tiangong Ult Beijing Humanoid Robot Innovation Center가 개발했습니다.

거울 함정 : AI 윤리와 인간 상상력의 붕괴Apr 28, 2025 am 11:08 AM

인공 지능은 현재 형태로 진정으로 지능적이지 않습니다. 기존 데이터를 모방하고 정제하는 데 능숙합니다. 우리는 인공 지능을 만들지 않고 오히려 인공적인 추론을 만들고 있습니다.

새로운 Google Leak은 Handy Google 사진 기능 업데이트가 공개됩니다Apr 28, 2025 am 11:07 AM

보고서에 따르면 Google Photos Android 버전 7.26 코드에 업데이트 된 인터페이스가 숨겨져 있으며 사진을 볼 때마다 새로 감지 된 얼굴 썸네일 행이 화면 하단에 표시됩니다. 새로운 얼굴 썸네일에는 이름 태그가 없으므로 탐지 된 각 사람에 대한 자세한 정보를 보려면 개별적으로 클릭해야한다고 생각합니다. 현재이 기능은 Google 사진이 이미지에서 찾은 사람들 외에는 정보를 제공하지 않습니다. 이 기능은 아직 사용할 수 없으므로 Google이 어떻게 정확하게 사용할 것인지 모릅니다. Google은 썸네일을 사용하여 선택된 사람들의 더 많은 사진을 찾는 속도를 높이거나 편집 할 개인을 선택하는 것과 같은 다른 목적으로 사용될 수 있습니다. 기다렸다가 보자. 지금은

강화 조정 안내서 - 분석 VidhyaApr 28, 2025 am 09:30 AM

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는