原題: Point Transformer V3: Simpler, Faster, Stronger
論文リンク: https://arxiv.org/pdf/2312.10035.pdf
コードリンク: https:// github.com/Pointcept/PointTransformerV3
著者の所属: HKU SH AI Lab MPI PKU MIT
論文のアイデア:
この記事は、注意メカニズムに焦点を当て、内部の革新を追求します。代わりに、スケールの力を活用して、点群処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに焦点を当てています。この論文は、3D 大規模表現学習における最近の進歩からインスピレーションを得て、モデルのパフォーマンスが設計の複雑さよりもスケールによって影響を受けることを認識しています。したがって、この論文では、特定のパターンで編成された点群など、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムの精度よりも単純さと効率を優先する Point Transformer V3 (PTv3) を提案します。正確な近隣検索。この原理により、大幅なスケーリングが可能になり、効率を維持しながら受容野を 16 ポイントから 1024 ポイントに拡張できます (以前の PTv2 と比較して 3 倍高速な処理と 10 倍のメモリ効率)。 PTv3 は、屋内および屋外のシナリオをカバーする 20 以上の下流タスクで最先端の結果を達成します。 PTv3 は、これらの結果を次のレベルに引き上げ、マルチデータセットの共同トレーニングによるさらなる機能強化を実現します。
ネットワーク設計:
3D 表現学習における最近の進歩 [85] は、複数の 3D データセットにわたる協調的なトレーニング方法を導入することにより、点群処理の限界を克服しています。データサイズの制限に基づいて作成されています。この戦略と組み合わせると、効率的な畳み込みバックボーン [12] が、点群変換器 [38、84] に通常伴う精度のギャップを効果的に埋めることができます。ただし、点群変換器自体は、スパース畳み込みと比較した点群変換器の効率ギャップのため、このスケールの利点をまだ十分に享受できていません。この発見は、スケーリング原理の観点から点変圧器の設計選択を再検討するという、この研究の最初の動機を形成しました。この論文では、モデルのパフォーマンスは、複雑な設計よりも規模によって大きく影響されると考えています。
したがって、この記事では、スケーラビリティを実現するために、特定のメカニズムの精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響しません。具体的には、PTv3 は、優れた効率とスケーラビリティを実現するために次の調整を行います。
- 最近の 2 つの進歩 [48、77] に触発され、構造化された非構造化点群の利点を認識し、スケーラビリティの利点を考慮して、PTv3 は従来の空間空間を変更します。 K-Nearest Neighbors (KNN) クエリによって定義される近接性。転送時間の 28% を占めます。代わりに、特定のパターンに従って編成された点群内の直列化された近傍の可能性を探ります。
- PTv3 は、シリアル化された点群に合わせた簡素化されたアプローチを採用し、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近隣メカニズム (大量のメモリ消費を引き起こす) などのより複雑なアテンション パッチ相互作用メカニズムを置き換えます。
- PTv3 は、転送時間の 26% を占める相対位置エンコーディングへの依存を排除し、よりシンプルなフロントエンドのスパース畳み込み層を採用します。
この記事では、これらの設計は、スケーリング原理と既存の点群変換器の進歩によって推進される直感的な選択であると考えています。重要なことに、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのような影響を与えるかを理解することが非常に重要であることを強調しています。
この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、以前のバージョンと比べて 3.3 倍高速な推論と 10.2 倍のメモリ使用量を実現します。さらに重要なことは、PTv3 はその固有の感知範囲を拡張する能力を活用し、効率を維持しながら受容野を 16 点から 1024 点に拡張します。この拡張性は現実世界の認識タスクにおける優れたパフォーマンスを支えており、PTv3 は屋内および屋外のシナリオで 20 以上の下流タスクで最先端の結果を達成しています。 PTv3 は、マルチデータセットトレーニングを通じてデータサイズをさらに増やすことで、これらの結果をさらに改善します [85]。この記事の洞察が、この方向での将来の研究に刺激を与えることが期待されます。
図 1. Point Transformer V3 (PTv3) の概要。前任者の PTv2 [84] と比較して、この論文の PTv3 は次の点で優れていることを示しています。 1. より強力なパフォーマンス。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. より広い受容野。シンプルさと効率の恩恵を受けて、PTv3 は受容野を 16 ポイントから 1024 ポイントに拡張します。 3. より速く。 PTv3 は処理速度を大幅に向上させ、遅延に敏感なアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、幅広い状況でのアクセシビリティを強化します。
図 2. PTv2 の各コンポーネントの遅延ツリー図。この記事では、PTv2 の各コンポーネントの転送時間比率をベンチマークし、視覚化します。 KNN クエリと RPE は合計転送時間の 54% を占めます。
#図 5. パッチの相互作用。 (a) 規則的でシフトのない配置による標準パッチ グループ化、(b) 拡張効果を生み出すためにポイントが一定の間隔で集約される並進拡張、(c) シフト パッチと同様のシフト メカニズムを使用するシフトウィンドウ法、(d) 異なるシリアル化パターンが連続する注目層に周期的に割り当てられるシフト順序、(d) シリアル化パターンのシーケンスが注目層に入力される前にランダム化されるシャッフル順序。
図 6. 全体的なアーキテクチャ。 #########実験結果: ##################################### #
概要:
この記事では、問題の克服に向けて機能する Point Transformer V3 を紹介します。点群処理における精度と効率の間の従来のトレードオフは、大きく前進します。この論文は、バックボーン設計におけるスケーリング原理の新しい解釈に基づいて、モデルのパフォーマンスが設計の複雑さよりもスケールによって大きく影響を受けると主張しています。この論文では、小型の衝撃メカニズムの精度よりも効率を優先することで、スケールの力を活用し、パフォーマンスを向上させています。つまり、この記事では、モデルをよりシンプルかつ高速にすることで、モデルをより強力にすることができます。
引用:
Wu, X.、Jiang, L.、Wang, P.、Liu, Z.、Liu, X.、Qiao, Y.、 Ouyang, W.、He, T.、& Zhao, H. (2023).Point Transformer V3: Simpler, Faster, Stronger.
ArXiv. /abs/2312.10035
以上が更新された Point Transformer: より効率的、高速、そして強力になりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
