原題: Point Transformer V3: Simpler, Faster, Stronger
論文リンク: https://arxiv.org/pdf/2312.10035.pdf
コードリンク: https:// github.com/Pointcept/PointTransformerV3
著者の所属: HKU SH AI Lab MPI PKU MIT
論文のアイデア:
この記事は、注意メカニズムに焦点を当て、内部の革新を追求します。代わりに、スケールの力を活用して、点群処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに焦点を当てています。この論文は、3D 大規模表現学習における最近の進歩からインスピレーションを得て、モデルのパフォーマンスが設計の複雑さよりもスケールによって影響を受けることを認識しています。したがって、この論文では、特定のパターンで編成された点群など、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムの精度よりも単純さと効率を優先する Point Transformer V3 (PTv3) を提案します。正確な近隣検索。この原理により、大幅なスケーリングが可能になり、効率を維持しながら受容野を 16 ポイントから 1024 ポイントに拡張できます (以前の PTv2 と比較して 3 倍高速な処理と 10 倍のメモリ効率)。 PTv3 は、屋内および屋外のシナリオをカバーする 20 以上の下流タスクで最先端の結果を達成します。 PTv3 は、これらの結果を次のレベルに引き上げ、マルチデータセットの共同トレーニングによるさらなる機能強化を実現します。
ネットワーク設計:
3D 表現学習における最近の進歩 [85] は、複数の 3D データセットにわたる協調的なトレーニング方法を導入することにより、点群処理の限界を克服しています。データサイズの制限に基づいて作成されています。この戦略と組み合わせると、効率的な畳み込みバックボーン [12] が、点群変換器 [38、84] に通常伴う精度のギャップを効果的に埋めることができます。ただし、点群変換器自体は、スパース畳み込みと比較した点群変換器の効率ギャップのため、このスケールの利点をまだ十分に享受できていません。この発見は、スケーリング原理の観点から点変圧器の設計選択を再検討するという、この研究の最初の動機を形成しました。この論文では、モデルのパフォーマンスは、複雑な設計よりも規模によって大きく影響されると考えています。
したがって、この記事では、スケーラビリティを実現するために、特定のメカニズムの精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響しません。具体的には、PTv3 は、優れた効率とスケーラビリティを実現するために次の調整を行います。
- 最近の 2 つの進歩 [48、77] に触発され、構造化された非構造化点群の利点を認識し、スケーラビリティの利点を考慮して、PTv3 は従来の空間空間を変更します。 K-Nearest Neighbors (KNN) クエリによって定義される近接性。転送時間の 28% を占めます。代わりに、特定のパターンに従って編成された点群内の直列化された近傍の可能性を探ります。
- PTv3 は、シリアル化された点群に合わせた簡素化されたアプローチを採用し、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近隣メカニズム (大量のメモリ消費を引き起こす) などのより複雑なアテンション パッチ相互作用メカニズムを置き換えます。
- PTv3 は、転送時間の 26% を占める相対位置エンコーディングへの依存を排除し、よりシンプルなフロントエンドのスパース畳み込み層を採用します。
この記事では、これらの設計は、スケーリング原理と既存の点群変換器の進歩によって推進される直感的な選択であると考えています。重要なことに、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのような影響を与えるかを理解することが非常に重要であることを強調しています。
この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、以前のバージョンと比べて 3.3 倍高速な推論と 10.2 倍のメモリ使用量を実現します。さらに重要なことは、PTv3 はその固有の感知範囲を拡張する能力を活用し、効率を維持しながら受容野を 16 点から 1024 点に拡張します。この拡張性は現実世界の認識タスクにおける優れたパフォーマンスを支えており、PTv3 は屋内および屋外のシナリオで 20 以上の下流タスクで最先端の結果を達成しています。 PTv3 は、マルチデータセットトレーニングを通じてデータサイズをさらに増やすことで、これらの結果をさらに改善します [85]。この記事の洞察が、この方向での将来の研究に刺激を与えることが期待されます。
図 1. Point Transformer V3 (PTv3) の概要。前任者の PTv2 [84] と比較して、この論文の PTv3 は次の点で優れていることを示しています。 1. より強力なパフォーマンス。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. より広い受容野。シンプルさと効率の恩恵を受けて、PTv3 は受容野を 16 ポイントから 1024 ポイントに拡張します。 3. より速く。 PTv3 は処理速度を大幅に向上させ、遅延に敏感なアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、幅広い状況でのアクセシビリティを強化します。
図 2. PTv2 の各コンポーネントの遅延ツリー図。この記事では、PTv2 の各コンポーネントの転送時間比率をベンチマークし、視覚化します。 KNN クエリと RPE は合計転送時間の 54% を占めます。
#図 5. パッチの相互作用。 (a) 規則的でシフトのない配置による標準パッチ グループ化、(b) 拡張効果を生み出すためにポイントが一定の間隔で集約される並進拡張、(c) シフト パッチと同様のシフト メカニズムを使用するシフトウィンドウ法、(d) 異なるシリアル化パターンが連続する注目層に周期的に割り当てられるシフト順序、(d) シリアル化パターンのシーケンスが注目層に入力される前にランダム化されるシャッフル順序。
図 6. 全体的なアーキテクチャ。 #########実験結果: ##################################### #
概要:
この記事では、問題の克服に向けて機能する Point Transformer V3 を紹介します。点群処理における精度と効率の間の従来のトレードオフは、大きく前進します。この論文は、バックボーン設計におけるスケーリング原理の新しい解釈に基づいて、モデルのパフォーマンスが設計の複雑さよりもスケールによって大きく影響を受けると主張しています。この論文では、小型の衝撃メカニズムの精度よりも効率を優先することで、スケールの力を活用し、パフォーマンスを向上させています。つまり、この記事では、モデルをよりシンプルかつ高速にすることで、モデルをより強力にすることができます。
引用:
Wu, X.、Jiang, L.、Wang, P.、Liu, Z.、Liu, X.、Qiao, Y.、 Ouyang, W.、He, T.、& Zhao, H. (2023).Point Transformer V3: Simpler, Faster, Stronger.
ArXiv. /abs/2312.10035
以上が更新された Point Transformer: より効率的、高速、そして強力になりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









