更新版 Point Transformer：更有效率、更快速、更強大！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

更新版 Point Transformer：更有效率、更快速、更強大！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 17, 2024 am 08:27 AM

訓練點雲

原文標題：Point Transformer V3: Simpler, Faster, Stronger

論文連結：https://arxiv.org/pdf/2312.10035.pdf

#程式碼連結：https:// github.com/Pointcept/PointTransformerV3

作者單位：HKU SH AI Lab MPI PKU MIT

論文想法：

本文無意在註意力機制內尋求創新。相反，它側重於利用規模(scale)的力量，克服點雲處理背景下準確性和效率之間現有的權衡。從 3D 大規模表示學習的最新進展中汲取靈感，本文認識到模型性能更多地受到規模的影響，而不是複雜的設計。因此，本文提出了Point Transformer V3 (PTv3)，它優先考慮簡單性和效率，而不是某些機制的準確性，這些機制對scaling 後的整體表現影響較小，例如以特定模式組織的點雲的高效序列化鄰域映射來取代KNN 的精確鄰域搜尋。這項原理實現了顯著的 scaling，將感受野從 16 點擴展到 1024 點，同時保持高效（與前身 PTv2 相比，處理速度提高了 3 倍，記憶體效率提高了 10 倍）。 PTv3 在涵蓋室內和室外場景的 20 多個下游任務中取得了最先進的結果。透過多資料集聯合訓練的進一步增強，PTv3 將這些結果推向了更高的水平。

網路設計：

3D 表示學習的最新進展[85] 透過引入跨多個3D 資料集的協同訓練方法，在克服點雲處理中的數據規模限制方面取得了進展。與此策略結合，高效率的捲積 backbone [12] 有效地彌補了通常與 point cloud transformers [38, 84] 相關的精確度差距。然而，由於與稀疏卷積相比，point cloud transformers 的效率存在差距，因此 point cloud transformers 本身尚未完全受益於這種規模優勢。這項發現塑造了本文工作的最初動機：用 scaling principle 的視角重新權衡 point transformers 的設計選擇。本文認為模型表現受規模的影響比受複雜設計的影響更顯著。

因此，本文引入了 Point Transformer V3 (PTv3)，它優先考慮簡單性和效率，而不是某些機制的準確性，從而實現 scalability 。這樣的調整對 scaling 後的整體效能影響可以忽略。具體來說，PTv3 進行了以下調整以實現卓越的效率和scalability ：

#受到最近兩項進展[48, 77] 的啟發，並認識到結構化非結構化點雲的scalability 優勢，PTv3 改變了由K-Nearest Neighbors (KNN) query 定義的傳統空間鄰近性，佔forward time 的28%。相反，它探索了點雲中根據特定模式組織的序列化鄰域的潛力。
PTv3 採用專為序列化點雲量身定制的簡化方法，取代了更複雜的注意力patch 交互機制，例如shift-window（阻礙注意力算子的融合）和鄰域機制（導致高記憶體消耗）。
PTv3 消除了對佔 forward time 26% 的相對位置編碼的依賴，有利於更簡單的前置稀疏卷積層。

本文認為這些設計是由現有 point cloud transformers 的 scaling principles 和進步驅動的直覺選擇。重要的是，本文強調了認識 scalability 如何影響 backbone 設計的至關重要性，而不是詳細的模組設計。

這項原則顯著增強了 scalability ，克服了準確性和效率之間的傳統權衡（見圖 1）。與前身相比，PTv3 的推理速度提高了 3.3 倍，記憶體使用量降低了 10.2 倍。更重要的是，PTv3 利用其固有的 scale 感知範圍的能力，將其感受野從 16 點擴展到 1024 點，同時保持效率。這種 scalability 支撐了其在現實世界感知任務中的卓越性能，其中 PTv3 在室內和室外場景中的 20 多個下游任務中取得了最先進的結果。 PTv3 透過多資料集訓練進一步擴大其資料規模 [85]，進一步提升了這些結果。本文希望本文的見解能激發未來這一方向的研究。

Point Transformer V3：更简单、更快、更强!

圖 1.Point Transformer V3 (PTv3) 概述。與其前身PTv2[84]相比，本文的PTv3在以下方面表現出優越性：1.性能更強。 PTv3 在各種室內和室外 3D 感知任務中均取得了最先進的結果。 2.更寬的感受野。受益於簡單性和效率，PTv3 將感受野從 16 點擴展到 1024 點。 3.速度更快。 PTv3 顯著提高了處理速度，使其適合對延遲敏感的應用程式。 4. 降低記憶體消耗。 PTv3 減少了記憶體使用量，增強了更廣泛情況下的可訪問性。

Point Transformer V3：更简单、更快、更强!

圖 2. PTv2 各組件的延遲樹狀圖。本文對 PTv2 的每個元件的 forward time 比例進行基準測試和視覺化。 KNN Query 和 RPE 總共佔用了 54% 的 forward time 。

Point Transformer V3：更简单、更快、更强!

圖 3.點雲序列化。本文透過三元組視覺化展示了四種序列化模式。對於每個三元組，顯示了用於序列化的空間填充曲線（左）、空間填充曲線內的點雲序列化變數排序順序（中）以及用於局部注意力的序列化點雲的grouped patches （右）。四種序列化模式的轉換允許注意力機制捕捉各種空間關係和上下文，從而提高模型準確性和泛化能力。

Point Transformer V3：更简单、更快、更强!

圖 4. Patch grouping。 (a) 根據從特定序列化模式導出的順序對點雲進行重新排序。 (b) 透過借用相鄰 patches 的點來填滿點雲序列，以確保它可以被指定的 patch size 整除。

Point Transformer V3：更简单、更快、更强!

圖 5. Patch interaction。 (a) Standard patch grouping，具有規則的、非移位的排列；(b) 平移擴張，其中點按規則間隔聚合，產生擴張效果；(c) Shift Patch，採用類似於shift window 方法的移位機制；(d) Shift Order，其中不同的序列化模式被循環分配給連續的注意力層；(d) Shuffle Order，序列化模式的序列在輸入到注意層之前被隨機化。

Point Transformer V3：更简单、更快、更强!

圖 6. 整體架構。

實驗結果：

Point Transformer V3：更简单、更快、更强!

總結：

本文介紹了Point Transformer V3，它朝著克服點雲處理中準確性和效率之間的傳統權衡邁出了一大步。在對 backbone 設計中 scaling principle 的新穎解釋的指導下，本文認為模型性能受規模的影響比受複雜設計的影響更深刻。透過優先考慮效率而不是影響較小的機制的準確性，本文利用規模的力量，從而提高性能。簡而言之，透過使模型更簡單、更快，本文可以使其更強大。

引用：

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: Simpler, Faster, Stronger. ArXiv. /abs/2312.10035

Point Transformer V3：更简单、更快、更强!

########################################################################################### # ######原文連結：https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA###

以上是更新版 Point Transformer：更有效率、更快速、更強大！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除