検索
ホームページテクノロジー周辺機器AI更新された Point Transformer: より効率的、高速、そして強力になりました。

原題: Point Transformer V3: Simpler, Faster, Stronger

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https:// github.com/Pointcept/PointTransformerV3

著者の所属: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この記事は、注意メカニズムに焦点を当て、内部の革新を追求します。代わりに、スケールの力を活用して、点群処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに焦点を当てています。この論文は、3D 大規模表現学習における最近の進歩からインスピレーションを得て、モデルのパフォーマンスが設計の複雑さよりもスケールによって影響を受けることを認識しています。したがって、この論文では、特定のパターンで編成された点群など、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムの精度よりも単純さと効率を優先する Point Transformer V3 (PTv3) を提案します。正確な近隣検索。この原理により、大幅なスケーリングが可能になり、効率を維持しながら受容野を 16 ポイントから 1024 ポイントに拡張できます (以前の PTv2 と比較して 3 倍高速な処理と 10 倍のメモリ効率)。 PTv3 は、屋内および屋外のシナリオをカバーする 20 以上の下流タスクで最先端の結果を達成します。 PTv3 は、これらの結果を次のレベルに引き上げ、マルチデータセットの共同トレーニングによるさらなる機能強化を実現します。

ネットワーク設計:

3D 表現学習における最近の進歩 [85] は、複数の 3D データセットにわたる協調的なトレーニング方法を導入することにより、点群処理の限界を克服しています。データサイズの制限に基づいて作成されています。この戦略と組み合わせると、効率的な畳み込みバックボーン [12] が、点群変換器 [38、84] に通常伴う精度のギャップを効果的に埋めることができます。ただし、点群変換器自体は、スパース畳み込みと比較した点群変換器の効率ギャップのため、このスケールの利点をまだ十分に享受できていません。この発見は、スケーリング原理の観点から点変圧器の設計選択を再検討するという、この研究の最初の動機を形成しました。この論文では、モデルのパフォーマンスは、複雑な設計よりも規模によって大きく影響されると考えています。

したがって、この記事では、スケーラビリティを実現するために、特定のメカニズムの精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響しません。具体的には、PTv3 は、優れた効率とスケーラビリティを実現するために次の調整を行います。

  • 最近の 2 つの進歩 [48、77] に触発され、構造化された非構造化点群の利点を認識し、スケーラビリティの利点を考慮して、PTv3 は従来の空間空間を変更します。 K-Nearest Neighbors (KNN) クエリによって定義される近接性。転送時間の 28% を占めます。代わりに、特定のパターンに従って編成された点群内の直列化された近傍の可能性を探ります。
  • PTv3 は、シリアル化された点群に合わせた簡素化されたアプローチを採用し、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近隣メカニズム (大量のメモリ消費を引き起こす) などのより複雑なアテンション パッチ相互作用メカニズムを置き換えます。
  • PTv3 は、転送時間の 26% を占める相対位置エンコーディングへの依存を排除​​し、よりシンプルなフロントエンドのスパース畳み込み層を採用します。

この記事では、これらの設計は、スケーリング原理と既存の点群変換器の進歩によって推進される直感的な選択であると考えています。重要なことに、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのような影響を与えるかを理解することが非常に重要であることを強調しています。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、以前のバージョンと比べて 3.3 倍高速な推論と 10.2 倍のメモリ使用量を実現します。さらに重要なことは、PTv3 はその固有の感知範囲を拡張する能力を活用し、効率を維持しながら受容野を 16 点から 1024 点に拡張します。この拡張性は現実世界の認識タスクにおける優れたパフォーマンスを支えており、PTv3 は屋内および屋外のシナリオで 20 以上の下流タスクで最先端の結果を達成しています。 PTv3 は、マルチデータセットトレーニングを通じてデータサイズをさらに増やすことで、これらの結果をさらに改善します [85]。この記事の洞察が、この方向での将来の研究に刺激を与えることが期待されます。

Point Transformer V3:更简单、更快、更强!

図 1. Point Transformer V3 (PTv3) の概要。前任者の PTv2 [84] と比較して、この論文の PTv3 は次の点で優れていることを示しています。 1. より強力なパフォーマンス。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. より広い受容野。シンプルさと効率の恩恵を受けて、PTv3 は受容野を 16 ポイントから 1024 ポイントに拡張します。 3. より速く。 PTv3 は処理速度を大幅に向上させ、遅延に敏感なアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、幅広い状況でのアクセシビリティを強化します。

Point Transformer V3:更简单、更快、更强!

図 2. PTv2 の各コンポーネントの遅延ツリー図。この記事では、PTv2 の各コンポーネントの転送時間比率をベンチマークし、視覚化します。 KNN クエリと RPE は合計転送時間の 54% を占めます。

Point Transformer V3:更简单、更快、更强!

#図 3. 点群のシリアル化。この記事では、トリプレットの視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化の空間充填曲線 (左)、空間充填曲線内の点群のシリアル化変数の並べ替え順序 (中央)、およびローカル アテンションのためのシリアル化された点群のグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、アテンション メカニズムがさまざまな空間関係とコンテキストをキャプチャできるようになり、それによってモデルの精度と汎化能力が向上します。

Point Transformer V3:更简单、更快、更强!

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従って点群を並べ替えます。 (b) 指定されたパッチ サイズで割り切れるように、隣接するパッチから点を借用して点群シーケンスを埋めます。

Point Transformer V3:更简单、更快、更强!#図 5. パッチの相互作用。 (a) 規則的でシフトのない配置による標準パッチ グループ化、(b) 拡張効果を生み出すためにポイントが一定の間隔で集約される並進拡張、(c) シフト パッチと同様のシフト メカニズムを使用するシフトウィンドウ法、(d) 異なるシリアル化パターンが連続する注目層に周期的に割り当てられるシフト順序、(d) シリアル化パターンのシーケンスが注目層に入力される前にランダム化されるシャッフル順序。

Point Transformer V3:更简单、更快、更强!図 6. 全体的なアーキテクチャ。 #########実験結果: ##################################### #

Point Transformer V3:更简单、更快、更强!概要:

Point Transformer V3:更简单、更快、更强!この記事では、問題の克服に向けて機能する Point Transformer V3 を紹介します。点群処理における精度と効率の間の従来のトレードオフは、大きく前進します。この論文は、バックボーン設計におけるスケーリング原理の新しい解釈に基づいて、モデルのパフォーマンスが設計の複雑さよりもスケールによって大きく影響を受けると主張しています。この論文では、小型の衝撃メカニズムの精度よりも効率を優先することで、スケールの力を活用し、パフォーマンスを向上させています。つまり、この記事では、モデルをよりシンプルかつ高速にすることで、モデルをより強力にすることができます。

Point Transformer V3:更简单、更快、更强!引用:

Point Transformer V3:更简单、更快、更强!Wu, X.、Jiang, L.、Wang, P.、Liu, Z.、Liu, X.、Qiao, Y.、 Ouyang, W.、He, T.、& Zhao, H. (2023).Point Transformer V3: Simpler, Faster, Stronger.

ArXiv. /abs/2312.10035Point Transformer V3:更简单、更快、更强!

Point Transformer V3:更简单、更快、更强!

元のリンク: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

以上が更新された Point Transformer: より効率的、高速、そして強力になりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール