搜尋
首頁科技週邊人工智慧TimePillars:讓純LiDAR 3D偵測路線延伸至何方?直接覆蓋200m!

基於LiDAR點雲點3D Object Detection一哥是一個很經典的問題,學術界和工業界都提出了各種各樣的模型來提高精度、速度和穩健性。但因為室外的複雜環境,所以室外點雲的Object Detection的效能都還不算太好。而光達點雲本質上比較稀疏,如何針對性得解決這個問題呢?論文給了自己的答案:依照時序資訊的聚合來完成資訊的擷取。

寫在前面

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

這篇論文主要探討了自動駕駛面臨的一個重要挑戰:如何精確地建立周圍環境的三維表示。這對於確保自動駕駛汽車的可靠性和安全性至關重要。特別是,自動駕駛車輛需要能夠識別周圍的物體,如車輛和行人,並準確地確定它們的位置、大小和方向。通常情況下,人們會使用深度神經網路處理光達(LiDAR)資料來完成這個任務。

目前的研究主要集中在單一幀方法上,即使用一個感測器一次掃描的資料。這種方法在經典基準測試中表現出色,可以偵測到距離達到75公尺的物體。然而,光達點雲的稀疏性在遠距離範圍內尤其明顯。因此,研究者認為僅依靠單一掃描進行長距離檢測是不夠的,例如,達到200公尺的距離。因此,未來的研究需要著重解決這個挑戰。

為了解決這個問題,一種方法是使用點雲聚合,即將一系列雷射雷達掃描資料連續起來,從而獲得更密集的輸入。然而,這種方式在運算上代價高昂,且無法充分利用在網路內部進行聚合所帶來的優勢。為了降低計算成本並更好地利用信息,可以考慮使用遞歸方法。遞歸方法可以在時間上累積訊息,並透過迭代地將當前輸入與先前的聚合結果進行融合,從而得到更準確的輸出。這種方法不僅能夠提高計算效率,還能夠有效地利用歷史信息,提高預測的準確性。遞歸方法在點雲聚合問題中具有廣泛的應用,並且已經取得了令人滿意的結果。

文章也提到,為了增加偵測範圍,一些先進的操作可以被採用,例如稀疏卷積、注意力模組和3D卷積。然而,這些操作通常忽略了目標硬體的兼容性問題。在部署和訓練神經網路時,使用的硬體往往在支援的操作和延遲方面有顯著差異。舉個例子,Nvidia Orin DLA等目標硬體通常不支援稀疏卷積或註意力等操作。此外,由於即時延遲要求,使用3D卷積等層往往是不可行的。這就強調了使用簡單操作,例如2D卷積的必要性。

論文中提出了一個新型的時序遞歸模型,TimePillars,該模型尊重常見目標硬體上支援的操作集,依賴於2D卷積,基於點柱(Pillar)輸入表示和一個卷積遞歸單元。透過單一卷積和輔助學習的幫助,對遞歸單元的隱藏狀態應用了自車Motion Compensation。透過消融研究表明,使用輔助任務來確保這種操作的正確性是適當的。論文還研究了遞歸模組在管道中的最佳位置,並清楚地表明,將其放置在網路的骨幹和檢測頭之間可以獲得最佳性能。在新發布的Zenseact開放資料集(ZOD)上,論文展示了TimePillars方法的有效性。與單幀和多幀點柱基線相比,TimePillars取得了顯著的評估性能提升,特別是在重要的自行車手和行人類別中,在遠距離(長達200米)的檢測上表現尤為突出。最後,TimePillars的延遲顯著低於多幀點柱,使其適合即時系統。

這篇論文提出了一個名為TimePillars的新時序遞歸模型,用於解決3D雷射雷達物體偵測任務,並且考慮了常見目標硬體支援的操作集。透過實驗證明,TimePillars在長距離檢測上相比單幀和多幀點柱基線取得了顯著更好的性能。此外,該論文還首次在Zenseact開放資料集上對3D雷射雷達物體偵測模型進行了基準測試。 然而,該論文的局限性在於它僅關注光達數據,沒有考慮其他感測器輸入,並且其方法基於單一的最新基線。儘管如此,作者認為他們的框架是通用的,即未來對基線的改進將轉化為整體性能的提升。

詳解TimePillars

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

#

Input preprocessing

在這篇論文的「輸入預處理」部分,作者使用了一種稱為「柱化」(Pillarisation)的技術來處理輸入的點雲端數據。與常規的體素化不同,此方法將點雲分割成垂直的柱狀結構,只在水平方向(x和y軸)上進行分割,而在垂直方向(z軸)上保持固定的高度。這種處理方式的好處是可以保持網路輸入尺寸的一致性,並且可以使用2D卷積進行高效處理。透過這種方式,可以有效地處理點雲數據,為後續的任務提供更準確和可靠的輸入。

然而,Pillarisation處理的一個問題是產生了許多空的柱子,導致資料非常稀疏。為解決這個問題,論文中提出了使用動態體素化技術。這種技術避免了為每個柱子設定預定義點數的需求,從而不需要對每個柱子進行截斷或填充操作。相反,整個點雲資料被整體處理,以匹配到所需的總點數,這裡設定為20萬個點。這種預處理方法的好處是,它最大程度地減少了資訊的損失,並且使得產生的數據表示更加穩定和一致。

Model architecture

然後對於Model architecture,作者詳細介紹了一個由柱特徵編碼器(Pillar Feature Encoder)、2D卷積神經網路(CNN)骨幹和檢測頭組成的神經網路架構。

  1. Pillar Feature Encoder:這個部分將預處理後的輸入張量映射成鳥瞰視圖(BEV)偽影像。使用動態體素化後,簡化的PointNet進行了相應的調整。輸入經過1D卷積,批量歸一化和ReLU激活函數處理,得到一個形狀為  的張量,其中  代表通道數。在最終的散射最大化(scatter max)層之前,對通道應用最大池化,形成形狀為  的潛在空間。由於初始張量被編碼為 ,在前面的層之後變成 ,因此去掉了最大池化操作。
  2. Backbone:採用原始柱狀論文中提出的2D CNN骨幹架構,由於其深度效率較為優越。使用三個下取樣區塊(Conv2D-BN-ReLU)縮小潛在空間,並使用三個上取樣區塊和轉置卷積將其恢復,輸出形狀為 
  3. Memory Unit:將系統的記憶建模為遞歸神經網路(RNN),具體採用卷積GRU(convGRU),也就是Gated Recurrent Unit的捲積版本。卷積GRU的優點在於避免了梯度消失問題,並且在維持空間資料特性的同時提高了效率。與其他選擇,如LSTM相比,GRU由於門的數量較少,因此具有較少的可訓練參數,可視為一種記憶正規化技術(降低隱藏狀態的複雜性)。透過合併類似性質的操作,減少了所需卷積層的數量,從而使單元更有效率。
  4. Detection Head:對SSD(Single Shot MultiBox Detector)進行了簡單的修改。保留了SSD的核心理念,即單次通過且無需區域提議,但取消了錨盒(anchor boxes)的使用。直接為網格中的每個單元格輸出預測,雖然失去了單元格多物件偵測能力,但避免了繁瑣且常常不精確的錨盒參數調整,並簡化了推理過程。線性層處理分類和定位(位置、大小和角度)迴歸的各自輸出。只有大小使用激活函數(ReLU),以防止負值。此外,不同於相關文獻,論文透過獨立預測車輛行駛方向的正弦和餘弦分量,並從中提取角度,避免了直接角度回歸的問題。

Feature Ego-Motion Compensation

在論文這一部分,作者討論瞭如何處理由卷積GRU輸出的隱藏狀態特徵,這些特徵是以前一幀的座標系表示的。如果直接儲存並用於計算下一個預測,由於自我運動(ego-motion)會發生空間不匹配。

為了進行轉換,可以應用不同的技術。理想情況下,已經校正的資料將被輸入網絡,而不是在網絡內部進行轉換。然而,這不是論文提出的方法,因為它需要在推理過程中的每一步重置隱藏狀態,轉換先前的點雲,並將它們傳播到整個網路。這不僅效率低下,也違背了使用RNN的目的。因此,在循環上下文中,補償需要在特徵層級進行。這使得假設的解決方案更有效率,但也使問題變得更複雜。傳統的插值方法可以用來取得變換座標系中的特徵。

與此相反,論文中受到Chen等人工作的啟發,提出使用卷積操作和輔助任務來執行變換。考慮到前述工作的細節有限,論文提出了針對此問題的客製化解決方案。

論文採取的方法是透過一個額外的捲積層,為網路提供執行特徵轉換所需的資訊。首先計算兩個連續幀之間的相對變換矩陣,即成功變換特徵所需執行的操作。然後,從中提取2D資訊(旋轉和平移部分):

這種簡化避免了主要矩陣常數,並在2D(偽圖像)域中工作,將16個值簡化為6個。然後將矩陣展平,並擴展以符合要補償的隱藏特徵的形狀 。第一個維度表示需要轉換的幀數。這種表示法使其適合於在隱藏特徵的通道維度中串聯每個潛在柱子。

最後,隱藏狀態特徵被輸入到一個2D卷積層中,該層適合變換過程。需要注意的一個關鍵面向是:卷積的執行並不保證變換的進行。通道串聯只是為網路提供了關於如何可能執行變換的額外資訊。在這種情況下,使用輔助學習是適當的。在訓練過程中,增加了一個額外的學習目標(座標變換)與主要目標(物件偵測)並行。設計一個輔助任務,其目的是在監督下引導網路通過變換過程,以確保補償的正確性輔助任務僅限於訓練過程。一旦網路學會了正確地變換特徵,它就失去了適用性。因此,在推理時不考慮該任務。下一節將進一步實驗,以對比其影響。

實驗

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

實驗結果表明,TimePillars模型在處理Zenseact Open Dataset(ZOD)幀資料集時表現出色,特別是在處理長達120公尺的範圍時。這些結果凸顯了TimePillars在不同運動轉換方法下的表現差異,並與其他方法進行了比較。

在比較基準模型PointPillars和多幀(MF)PointPillars後,可以看出TimePillars在多個關鍵效能指標上取得了顯著提升。尤其是在NuScenes Detection Score(NDS)上,TimePillars展示了更高的綜合評分,反映了其在檢測性能和定位精度方面的優勢。此外,TimePillars在平均轉換誤差(mATE)、平均尺度誤差(mASE)和平均方向誤差(mAOE)上也取得了較低的數值,顯示其在定位準確度和方向估計上較為精確。特別值得注意的是,TimePillars在運動轉換方面的不同實作方法對表現有顯著影響。當採用卷積基的運動轉換(Conv-based)時,TimePillars在NDS、mATE、mASE和mAOE上的表現特別突出,證明了這種方法在Motion Compensation和提高檢測精度方面的有效性。相較之下,使用內插法的TimePillars雖然也優於基準模型,但在某些指標上不如卷積方法。平均精確度(mAP)的結果顯示,TimePillars在車輛、騎乘者和行人類別的偵測上均表現良好,特別是在處理騎乘者和行人這些更為挑戰性的類別時,其效能提升更為顯著。從處理頻率(f (Hz))的角度來看,TimePillars雖然不如單幀PointPillars那麼快,但與多幀PointPillars相比,其處理速度更快,同時保持了較高的偵測效能。這顯示TimePillars在保持即時處理的同時,能夠有效地進行長距離偵測和Motion Compensation。也就是說TimePillars模型在長距離偵測、Motion Compensation以及處理速度方面展現出顯著優勢,尤其是在處理多幀資料和採用卷積基運動轉換技術時。這些結果強調了TimePillars在自動駕駛車輛的3D雷射雷達物體偵測領域的應用潛力。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

上述實驗結果表明,TimePillars模型在不同距離範圍內的物件偵測效能上表現卓越,尤其是與基準模型PointPillars相比。這些結果分為三個主要的檢測範圍:0至50公尺、50至100公尺和100公尺以上。

首先,NuScenes Detection Score(NDS)和平均精確度(mAP)為整體效能指標。 TimePillars在這兩項指標上均優於PointPillars,顯示出整體上更高的偵測能力和定位精度。具體來說,TimePillars的NDS為0.723,遠高於PointPillars的0.657;而在mAP方面,TimePillars也以0.570顯著超越了PointPillars的0.475。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

在不同距离范围内的性能对比中,可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别,TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591,均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面,无论是近距离还是远距离,都具有更高的准确性。在处理易受伤害的交通工具(如摩托车、轮椅、电动滑板车等)时,TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内,TimePillars的检测精度为0.178,而PointPillars仅为0.036,显示出在远距离检测方面的显著优势。对于行人检测,TimePillars也呈现出更好的性能,尤其是在50至100米的范围内,其检测精度达到了0.350,而PointPillars仅为0.211。即便在更远的距离(100米以上),TimePillars仍能实现一定程度的检测(0.032的精度),而PointPillars在这一范围内的表现为零。

这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内,TimePillars均能提供更准确和可靠的检测结果,这对于自动驾驶车辆的安全和效率至关重要。

讨论

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

首先,TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构,模型能够更好地处理稀疏的激光雷达数据,尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外,模型在处理速度上也显示出了较好的性能,这对于实时应用是必不可少的。另一方面,TimePillars在Motion Compensation方面采用了基于卷积的方法,这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性,提高了模型在处理运动对象时的精确度。

然而,论文的研究也存在一些局限。首先,虽然TimePillars在处理远距离物体检测方面表现出色,但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用,但与单帧方法相比,仍有所下降。此外,论文主要关注于LiDAR数据,没有考虑其他传感器输入,如相机或雷达,这可能限制了模型在更复杂多传感器环境中的应用。

也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显著的优势,特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性,TimePillars仍然代表了在这一领域中的一个重要进步。

结论

这项工作表明,考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息,可以应对激光雷达点云的稀疏性质,并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比,赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法TimePillars,实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层,我们证明了基本的网络构建模块足以取得显著成果,并保证了现有的效率和硬件集成规范得以满足。据我们所知,这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。

以上是TimePillars:讓純LiDAR 3D偵測路線延伸至何方?直接覆蓋200m!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
易於理解的解釋如何在Chatgpt中建立兩步身份驗證!易於理解的解釋如何在Chatgpt中建立兩步身份驗證!May 12, 2025 pm 05:37 PM

CHATGPT SECURICE增強:兩階段身份驗證(2FA)配置指南 需要兩因素身份驗證(2FA)作為在線平台的安全措施。本文將以易於理解的方式解釋2FA設置過程及其在CHATGPT中的重要性。這是為那些想要安全使用chatgpt的人提供的指南。 單擊此處獲取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什麼是Openai深入研究?關於如何使用它和費用結構的詳盡解釋! 目錄 chatg

[針對企業] Chatgpt培訓|對8種免費培訓選項,補貼和示例進行了詳盡的介紹![針對企業] Chatgpt培訓|對8種免費培訓選項,補貼和示例進行了詳盡的介紹!May 12, 2025 pm 05:35 PM

生成的AI的使用吸引了人們的關注,這是提高業務效率和創造新業務的關鍵。特別是,由於其多功能性和準確性,許多公司都採用了Openai的Chatgpt。但是,可以有效利用chatgpt的人員短缺是實施它的主要挑戰。 在本文中,我們將解釋“ ChatGpt培訓”的必要性和有效性,以確保在公司中成功使用Chatgpt。我們將介紹廣泛的主題,從ChatGpt的基礎到業務使用,特定的培訓計劃以及如何選擇它們。 CHATGPT培訓提高員工技能

關於如何使用Chatgpt簡化您的Twitter操作的詳盡解釋!關於如何使用Chatgpt簡化您的Twitter操作的詳盡解釋!May 12, 2025 pm 05:34 PM

社交媒體運營的提高效率和質量至關重要。特別是在實時重要的平台上,例如Twitter,需要連續交付及時和引人入勝的內容。 在本文中,我們將解釋如何使用具有先進自然語言處理能力的AI的Chatgpt操作Twitter。通過使用CHATGPT,您不僅可以提高實時響應功能並提高內容創建的效率,而且還可以製定符合趨勢的營銷策略。 此外,使用預防措施

[對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序![對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序!May 12, 2025 pm 05:33 PM

CHATGPT MAC桌面應用程序詳細指南:從安裝到音頻功能 最後,Chatgpt的Mac桌面應用程序現已可用!在本文中,我們將徹底解釋從安裝方法到有用的功能和將來的更新信息的所有內容。使用桌面應用程序獨有的功能,例如快捷鍵,圖像識別和語音模式,以極大地提高您的業務效率! 安裝桌面應用的ChatGpt Mac版本 從瀏覽器訪問:首先,在瀏覽器中訪問chatgpt。

chatgpt的角色限制是什麼?解釋如何避免它和模型上限chatgpt的角色限制是什麼?解釋如何避免它和模型上限May 12, 2025 pm 05:32 PM

當使用chatgpt時,您是否曾經有過這樣的經驗,例如“輸出在中途停止”或“即使我指定了字符的數量,它也無法正確輸出”?該模型非常開創性,不僅允許自然對話,而且還允許創建電子郵件,摘要論文,甚至允許產生諸如小說之類的創意句子。但是,ChatGpt的弱點之一是,如果文本太長,輸入和輸出將無法正常工作。 Openai的最新AI代理“ Openai Deep Research”

什麼是Chatgpt的語音輸入和語音對話功能?解釋如何設置以及如何使用它什麼是Chatgpt的語音輸入和語音對話功能?解釋如何設置以及如何使用它May 12, 2025 pm 05:27 PM

Chatgpt是Openai開發的創新AI聊天機器人。它不僅具有文本輸入,而且還具有語音輸入和語音對話功能,從而可以進行更自然的交流。 在本文中,我們將解釋如何設置和使用Chatgpt的語音輸入和語音對話功能。即使您不能脫身,Chatp Plans也通過與您交談來做出回應並回應音頻,這在繁忙的商業情況和英語對話練習等各種情況下都帶來了很大的好處。 關於如何設置智能手機應用程序和PC的詳細說明以及如何使用。

易於理解的解釋如何使用Chatgpt進行求職和尋找工作!易於理解的解釋如何使用Chatgpt進行求職和尋找工作!May 12, 2025 pm 05:26 PM

成功的快捷方式!使用chatgpt有效的工作變更策略 在當今加劇的工作變更市場中,有效的信息收集和徹底的準備是成功的關鍵。 諸如Chatgpt之類的高級語言模型是求職者的強大武器。在本文中,我們將解釋如何有效利用Chatgpt來提高您的工作企業效率,從自我分析到申請文件和麵試準備。節省時間和學習技術,以充分展示您的優勢,並幫助您成功搜索工作。 目錄 使用chatgpt的狩獵工作示例 自我分析的效率:聊天

易於理解的解釋如何使用ChatGpt創建和輸出思維地圖!易於理解的解釋如何使用ChatGpt創建和輸出思維地圖!May 12, 2025 pm 05:22 PM

思維地圖是組織信息並提出想法的有用工具,但是創建它們可能需要時間。使用Chatgpt可以大大簡化此過程。 本文將詳細說明如何使用chatgpt輕鬆創建思維地圖。此外,通過創建的實際示例,我們將介紹如何在各種主題上使用思維圖。 了解如何使用Chatgpt有效地組織和可視化您的想法和信息。 Openai的最新AI代理OpenA

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中