首頁 >科技週邊 >人工智慧 >TimePillars:讓純LiDAR 3D偵測路線延伸至何方?直接覆蓋200m!

TimePillars:讓純LiDAR 3D偵測路線延伸至何方?直接覆蓋200m!

WBOY
WBOY轉載
2024-01-24 11:57:13776瀏覽

基於LiDAR點雲點3D Object Detection一哥是一個很經典的問題,學術界和工業界都提出了各種各樣的模型來提高精度、速度和穩健性。但因為室外的複雜環境,所以室外點雲的Object Detection的效能都還不算太好。而光達點雲本質上比較稀疏,如何針對性得解決這個問題呢?論文給了自己的答案:依照時序資訊的聚合來完成資訊的擷取。

寫在前面

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

這篇論文主要探討了自動駕駛面臨的一個重要挑戰:如何精確地建立周圍環境的三維表示。這對於確保自動駕駛汽車的可靠性和安全性至關重要。特別是,自動駕駛車輛需要能夠識別周圍的物體,如車輛和行人,並準確地確定它們的位置、大小和方向。通常情況下,人們會使用深度神經網路處理光達(LiDAR)資料來完成這個任務。

目前的研究主要集中在單一幀方法上,即使用一個感測器一次掃描的資料。這種方法在經典基準測試中表現出色,可以偵測到距離達到75公尺的物體。然而,光達點雲的稀疏性在遠距離範圍內尤其明顯。因此,研究者認為僅依靠單一掃描進行長距離檢測是不夠的,例如,達到200公尺的距離。因此,未來的研究需要著重解決這個挑戰。

為了解決這個問題,一種方法是使用點雲聚合,即將一系列雷射雷達掃描資料連續起來,從而獲得更密集的輸入。然而,這種方式在運算上代價高昂,且無法充分利用在網路內部進行聚合所帶來的優勢。為了降低計算成本並更好地利用信息,可以考慮使用遞歸方法。遞歸方法可以在時間上累積訊息,並透過迭代地將當前輸入與先前的聚合結果進行融合,從而得到更準確的輸出。這種方法不僅能夠提高計算效率,還能夠有效地利用歷史信息,提高預測的準確性。遞歸方法在點雲聚合問題中具有廣泛的應用,並且已經取得了令人滿意的結果。

文章也提到,為了增加偵測範圍,一些先進的操作可以被採用,例如稀疏卷積、注意力模組和3D卷積。然而,這些操作通常忽略了目標硬體的兼容性問題。在部署和訓練神經網路時,使用的硬體往往在支援的操作和延遲方面有顯著差異。舉個例子,Nvidia Orin DLA等目標硬體通常不支援稀疏卷積或註意力等操作。此外,由於即時延遲要求,使用3D卷積等層往往是不可行的。這就強調了使用簡單操作,例如2D卷積的必要性。

論文中提出了一個新型的時序遞歸模型,TimePillars,該模型尊重常見目標硬體上支援的操作集,依賴於2D卷積,基於點柱(Pillar)輸入表示和一個卷積遞歸單元。透過單一卷積和輔助學習的幫助,對遞歸單元的隱藏狀態應用了自車Motion Compensation。透過消融研究表明,使用輔助任務來確保這種操作的正確性是適當的。論文還研究了遞歸模組在管道中的最佳位置,並清楚地表明,將其放置在網路的骨幹和檢測頭之間可以獲得最佳性能。在新發布的Zenseact開放資料集(ZOD)上,論文展示了TimePillars方法的有效性。與單幀和多幀點柱基線相比,TimePillars取得了顯著的評估性能提升,特別是在重要的自行車手和行人類別中,在遠距離(長達200米)的檢測上表現尤為突出。最後,TimePillars的延遲顯著低於多幀點柱,使其適合即時系統。

這篇論文提出了一個名為TimePillars的新時序遞歸模型,用於解決3D雷射雷達物體偵測任務,並且考慮了常見目標硬體支援的操作集。透過實驗證明,TimePillars在長距離檢測上相比單幀和多幀點柱基線取得了顯著更好的性能。此外,該論文還首次在Zenseact開放資料集上對3D雷射雷達物體偵測模型進行了基準測試。 然而,該論文的局限性在於它僅關注光達數據,沒有考慮其他感測器輸入,並且其方法基於單一的最新基線。儘管如此,作者認為他們的框架是通用的,即未來對基線的改進將轉化為整體性能的提升。

詳解TimePillars

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

#

Input preprocessing

在這篇論文的「輸入預處理」部分,作者使用了一種稱為「柱化」(Pillarisation)的技術來處理輸入的點雲端數據。與常規的體素化不同,此方法將點雲分割成垂直的柱狀結構,只在水平方向(x和y軸)上進行分割,而在垂直方向(z軸)上保持固定的高度。這種處理方式的好處是可以保持網路輸入尺寸的一致性,並且可以使用2D卷積進行高效處理。透過這種方式,可以有效地處理點雲數據,為後續的任務提供更準確和可靠的輸入。

然而,Pillarisation處理的一個問題是產生了許多空的柱子,導致資料非常稀疏。為解決這個問題,論文中提出了使用動態體素化技術。這種技術避免了為每個柱子設定預定義點數的需求,從而不需要對每個柱子進行截斷或填充操作。相反,整個點雲資料被整體處理,以匹配到所需的總點數,這裡設定為20萬個點。這種預處理方法的好處是,它最大程度地減少了資訊的損失,並且使得產生的數據表示更加穩定和一致。

Model architecture

然後對於Model architecture,作者詳細介紹了一個由柱特徵編碼器(Pillar Feature Encoder)、2D卷積神經網路(CNN)骨幹和檢測頭組成的神經網路架構。

  1. Pillar Feature Encoder:這個部分將預處理後的輸入張量映射成鳥瞰視圖(BEV)偽影像。使用動態體素化後,簡化的PointNet進行了相應的調整。輸入經過1D卷積,批量歸一化和ReLU激活函數處理,得到一個形狀為  的張量,其中  代表通道數。在最終的散射最大化(scatter max)層之前,對通道應用最大池化,形成形狀為  的潛在空間。由於初始張量被編碼為 ,在前面的層之後變成 ,因此去掉了最大池化操作。
  2. Backbone:採用原始柱狀論文中提出的2D CNN骨幹架構,由於其深度效率較為優越。使用三個下取樣區塊(Conv2D-BN-ReLU)縮小潛在空間,並使用三個上取樣區塊和轉置卷積將其恢復,輸出形狀為 
  3. Memory Unit:將系統的記憶建模為遞歸神經網路(RNN),具體採用卷積GRU(convGRU),也就是Gated Recurrent Unit的捲積版本。卷積GRU的優點在於避免了梯度消失問題,並且在維持空間資料特性的同時提高了效率。與其他選擇,如LSTM相比,GRU由於門的數量較少,因此具有較少的可訓練參數,可視為一種記憶正規化技術(降低隱藏狀態的複雜性)。透過合併類似性質的操作,減少了所需卷積層的數量,從而使單元更有效率。
  4. Detection Head:對SSD(Single Shot MultiBox Detector)進行了簡單的修改。保留了SSD的核心理念,即單次通過且無需區域提議,但取消了錨盒(anchor boxes)的使用。直接為網格中的每個單元格輸出預測,雖然失去了單元格多物件偵測能力,但避免了繁瑣且常常不精確的錨盒參數調整,並簡化了推理過程。線性層處理分類和定位(位置、大小和角度)迴歸的各自輸出。只有大小使用激活函數(ReLU),以防止負值。此外,不同於相關文獻,論文透過獨立預測車輛行駛方向的正弦和餘弦分量,並從中提取角度,避免了直接角度回歸的問題。

Feature Ego-Motion Compensation

在論文這一部分,作者討論瞭如何處理由卷積GRU輸出的隱藏狀態特徵,這些特徵是以前一幀的座標系表示的。如果直接儲存並用於計算下一個預測,由於自我運動(ego-motion)會發生空間不匹配。

為了進行轉換,可以應用不同的技術。理想情況下,已經校正的資料將被輸入網絡,而不是在網絡內部進行轉換。然而,這不是論文提出的方法,因為它需要在推理過程中的每一步重置隱藏狀態,轉換先前的點雲,並將它們傳播到整個網路。這不僅效率低下,也違背了使用RNN的目的。因此,在循環上下文中,補償需要在特徵層級進行。這使得假設的解決方案更有效率,但也使問題變得更複雜。傳統的插值方法可以用來取得變換座標系中的特徵。

與此相反,論文中受到Chen等人工作的啟發,提出使用卷積操作和輔助任務來執行變換。考慮到前述工作的細節有限,論文提出了針對此問題的客製化解決方案。

論文採取的方法是透過一個額外的捲積層,為網路提供執行特徵轉換所需的資訊。首先計算兩個連續幀之間的相對變換矩陣,即成功變換特徵所需執行的操作。然後,從中提取2D資訊(旋轉和平移部分):

這種簡化避免了主要矩陣常數,並在2D(偽圖像)域中工作,將16個值簡化為6個。然後將矩陣展平,並擴展以符合要補償的隱藏特徵的形狀 。第一個維度表示需要轉換的幀數。這種表示法使其適合於在隱藏特徵的通道維度中串聯每個潛在柱子。

最後,隱藏狀態特徵被輸入到一個2D卷積層中,該層適合變換過程。需要注意的一個關鍵面向是:卷積的執行並不保證變換的進行。通道串聯只是為網路提供了關於如何可能執行變換的額外資訊。在這種情況下,使用輔助學習是適當的。在訓練過程中,增加了一個額外的學習目標(座標變換)與主要目標(物件偵測)並行。設計一個輔助任務,其目的是在監督下引導網路通過變換過程,以確保補償的正確性輔助任務僅限於訓練過程。一旦網路學會了正確地變換特徵,它就失去了適用性。因此,在推理時不考慮該任務。下一節將進一步實驗,以對比其影響。

實驗

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

實驗結果表明,TimePillars模型在處理Zenseact Open Dataset(ZOD)幀資料集時表現出色,特別是在處理長達120公尺的範圍時。這些結果凸顯了TimePillars在不同運動轉換方法下的表現差異,並與其他方法進行了比較。

在比較基準模型PointPillars和多幀(MF)PointPillars後,可以看出TimePillars在多個關鍵效能指標上取得了顯著提升。尤其是在NuScenes Detection Score(NDS)上,TimePillars展示了更高的綜合評分,反映了其在檢測性能和定位精度方面的優勢。此外,TimePillars在平均轉換誤差(mATE)、平均尺度誤差(mASE)和平均方向誤差(mAOE)上也取得了較低的數值,顯示其在定位準確度和方向估計上較為精確。特別值得注意的是,TimePillars在運動轉換方面的不同實作方法對表現有顯著影響。當採用卷積基的運動轉換(Conv-based)時,TimePillars在NDS、mATE、mASE和mAOE上的表現特別突出,證明了這種方法在Motion Compensation和提高檢測精度方面的有效性。相較之下,使用內插法的TimePillars雖然也優於基準模型,但在某些指標上不如卷積方法。平均精確度(mAP)的結果顯示,TimePillars在車輛、騎乘者和行人類別的偵測上均表現良好,特別是在處理騎乘者和行人這些更為挑戰性的類別時,其效能提升更為顯著。從處理頻率(f (Hz))的角度來看,TimePillars雖然不如單幀PointPillars那麼快,但與多幀PointPillars相比,其處理速度更快,同時保持了較高的偵測效能。這顯示TimePillars在保持即時處理的同時,能夠有效地進行長距離偵測和Motion Compensation。也就是說TimePillars模型在長距離偵測、Motion Compensation以及處理速度方面展現出顯著優勢,尤其是在處理多幀資料和採用卷積基運動轉換技術時。這些結果強調了TimePillars在自動駕駛車輛的3D雷射雷達物體偵測領域的應用潛力。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

上述實驗結果表明,TimePillars模型在不同距離範圍內的物件偵測效能上表現卓越,尤其是與基準模型PointPillars相比。這些結果分為三個主要的檢測範圍:0至50公尺、50至100公尺和100公尺以上。

首先,NuScenes Detection Score(NDS)和平均精確度(mAP)為整體效能指標。 TimePillars在這兩項指標上均優於PointPillars,顯示出整體上更高的偵測能力和定位精度。具體來說,TimePillars的NDS為0.723,遠高於PointPillars的0.657;而在mAP方面,TimePillars也以0.570顯著超越了PointPillars的0.475。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

在不同距离范围内的性能对比中,可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别,TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591,均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面,无论是近距离还是远距离,都具有更高的准确性。在处理易受伤害的交通工具(如摩托车、轮椅、电动滑板车等)时,TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内,TimePillars的检测精度为0.178,而PointPillars仅为0.036,显示出在远距离检测方面的显著优势。对于行人检测,TimePillars也呈现出更好的性能,尤其是在50至100米的范围内,其检测精度达到了0.350,而PointPillars仅为0.211。即便在更远的距离(100米以上),TimePillars仍能实现一定程度的检测(0.032的精度),而PointPillars在这一范围内的表现为零。

这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内,TimePillars均能提供更准确和可靠的检测结果,这对于自动驾驶车辆的安全和效率至关重要。

讨论

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

首先,TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构,模型能够更好地处理稀疏的激光雷达数据,尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外,模型在处理速度上也显示出了较好的性能,这对于实时应用是必不可少的。另一方面,TimePillars在Motion Compensation方面采用了基于卷积的方法,这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性,提高了模型在处理运动对象时的精确度。

然而,论文的研究也存在一些局限。首先,虽然TimePillars在处理远距离物体检测方面表现出色,但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用,但与单帧方法相比,仍有所下降。此外,论文主要关注于LiDAR数据,没有考虑其他传感器输入,如相机或雷达,这可能限制了模型在更复杂多传感器环境中的应用。

也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显著的优势,特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性,TimePillars仍然代表了在这一领域中的一个重要进步。

结论

这项工作表明,考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息,可以应对激光雷达点云的稀疏性质,并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比,赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法TimePillars,实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层,我们证明了基本的网络构建模块足以取得显著成果,并保证了现有的效率和硬件集成规范得以满足。据我们所知,这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。

以上是TimePillars:讓純LiDAR 3D偵測路線延伸至何方?直接覆蓋200m!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除