原題: Point Transformer V3: Simpler, Faster, Stronger
論文リンク: https://arxiv.org/pdf/2312.10035.pdf
コードリンク: https:// github.com/Pointcept/PointTransformerV3
著者の所属: HKU SH AI Lab MPI PKU MIT
論文のアイデア:
この記事は、注意メカニズムに焦点を当て、内部の革新を追求します。代わりに、スケールの力を活用して、点群処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに焦点を当てています。この論文は、3D 大規模表現学習における最近の進歩からインスピレーションを得て、モデルのパフォーマンスが設計の複雑さよりもスケールによって影響を受けることを認識しています。したがって、この論文では、特定のパターンで編成された点群など、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムの精度よりも単純さと効率を優先する Point Transformer V3 (PTv3) を提案します。正確な近隣検索。この原理により、大幅なスケーリングが可能になり、効率を維持しながら受容野を 16 ポイントから 1024 ポイントに拡張できます (以前の PTv2 と比較して 3 倍高速な処理と 10 倍のメモリ効率)。 PTv3 は、屋内および屋外のシナリオをカバーする 20 以上の下流タスクで最先端の結果を達成します。 PTv3 は、これらの結果を次のレベルに引き上げ、マルチデータセットの共同トレーニングによるさらなる機能強化を実現します。
ネットワーク設計:
3D 表現学習における最近の進歩 [85] は、複数の 3D データセットにわたる協調的なトレーニング方法を導入することにより、点群処理の限界を克服しています。データサイズの制限に基づいて作成されています。この戦略と組み合わせると、効率的な畳み込みバックボーン [12] が、点群変換器 [38、84] に通常伴う精度のギャップを効果的に埋めることができます。ただし、点群変換器自体は、スパース畳み込みと比較した点群変換器の効率ギャップのため、このスケールの利点をまだ十分に享受できていません。この発見は、スケーリング原理の観点から点変圧器の設計選択を再検討するという、この研究の最初の動機を形成しました。この論文では、モデルのパフォーマンスは、複雑な設計よりも規模によって大きく影響されると考えています。
したがって、この記事では、スケーラビリティを実現するために、特定のメカニズムの精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響しません。具体的には、PTv3 は、優れた効率とスケーラビリティを実現するために次の調整を行います。
- 最近の 2 つの進歩 [48、77] に触発され、構造化された非構造化点群の利点を認識し、スケーラビリティの利点を考慮して、PTv3 は従来の空間空間を変更します。 K-Nearest Neighbors (KNN) クエリによって定義される近接性。転送時間の 28% を占めます。代わりに、特定のパターンに従って編成された点群内の直列化された近傍の可能性を探ります。
- PTv3 は、シリアル化された点群に合わせた簡素化されたアプローチを採用し、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近隣メカニズム (大量のメモリ消費を引き起こす) などのより複雑なアテンション パッチ相互作用メカニズムを置き換えます。
- PTv3 は、転送時間の 26% を占める相対位置エンコーディングへの依存を排除し、よりシンプルなフロントエンドのスパース畳み込み層を採用します。
この記事では、これらの設計は、スケーリング原理と既存の点群変換器の進歩によって推進される直感的な選択であると考えています。重要なことに、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのような影響を与えるかを理解することが非常に重要であることを強調しています。
この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、以前のバージョンと比べて 3.3 倍高速な推論と 10.2 倍のメモリ使用量を実現します。さらに重要なことは、PTv3 はその固有の感知範囲を拡張する能力を活用し、効率を維持しながら受容野を 16 点から 1024 点に拡張します。この拡張性は現実世界の認識タスクにおける優れたパフォーマンスを支えており、PTv3 は屋内および屋外のシナリオで 20 以上の下流タスクで最先端の結果を達成しています。 PTv3 は、マルチデータセットトレーニングを通じてデータサイズをさらに増やすことで、これらの結果をさらに改善します [85]。この記事の洞察が、この方向での将来の研究に刺激を与えることが期待されます。
図 1. Point Transformer V3 (PTv3) の概要。前任者の PTv2 [84] と比較して、この論文の PTv3 は次の点で優れていることを示しています。 1. より強力なパフォーマンス。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. より広い受容野。シンプルさと効率の恩恵を受けて、PTv3 は受容野を 16 ポイントから 1024 ポイントに拡張します。 3. より速く。 PTv3 は処理速度を大幅に向上させ、遅延に敏感なアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、幅広い状況でのアクセシビリティを強化します。
図 2. PTv2 の各コンポーネントの遅延ツリー図。この記事では、PTv2 の各コンポーネントの転送時間比率をベンチマークし、視覚化します。 KNN クエリと RPE は合計転送時間の 54% を占めます。
#図 5. パッチの相互作用。 (a) 規則的でシフトのない配置による標準パッチ グループ化、(b) 拡張効果を生み出すためにポイントが一定の間隔で集約される並進拡張、(c) シフト パッチと同様のシフト メカニズムを使用するシフトウィンドウ法、(d) 異なるシリアル化パターンが連続する注目層に周期的に割り当てられるシフト順序、(d) シリアル化パターンのシーケンスが注目層に入力される前にランダム化されるシャッフル順序。
図 6. 全体的なアーキテクチャ。 #########実験結果: ##################################### #
概要:
この記事では、問題の克服に向けて機能する Point Transformer V3 を紹介します。点群処理における精度と効率の間の従来のトレードオフは、大きく前進します。この論文は、バックボーン設計におけるスケーリング原理の新しい解釈に基づいて、モデルのパフォーマンスが設計の複雑さよりもスケールによって大きく影響を受けると主張しています。この論文では、小型の衝撃メカニズムの精度よりも効率を優先することで、スケールの力を活用し、パフォーマンスを向上させています。つまり、この記事では、モデルをよりシンプルかつ高速にすることで、モデルをより強力にすることができます。
引用:
Wu, X.、Jiang, L.、Wang, P.、Liu, Z.、Liu, X.、Qiao, Y.、 Ouyang, W.、He, T.、& Zhao, H. (2023).Point Transformer V3: Simpler, Faster, Stronger.
ArXiv. /abs/2312.10035
以上が更新された Point Transformer: より効率的、高速、そして強力になりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

WebStorm Mac版
便利なJavaScript開発ツール
