搜尋
首頁科技週邊人工智慧DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

原文標題:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement

論文連結:https://arxiv.org/pdf/2311.17456.pdf

程式碼連結:https://github.com/IRMVLab/DifFlow3D

作者單位:上海交通大學劍橋大學浙江大學鑑智機器人

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

論文想法:

場景流估計旨在預測動態場景中每個點的3D位移變化,是電腦視覺領域的基礎任務。然而,以往的工作常常受到局部約束搜尋範圍引起的不可靠相關性的困擾,並且在從粗到細的結構中累積不準確性。為了緩解這些問題,本文提出了一種新穎的不確定性感知場景流估計網路(DifFlow3D),該網路採用了擴散機率模型。設計了迭代擴散式細化(Iterative diffusion-based refinement)來增強相關性的穩健性,並對困難情況(例如動態、雜訊輸入、重複模式等)具有較強的適應性。為了限制生成的多樣性,本文的擴散模型中利用了三個關鍵的與流相關的特徵作為條件。此外,本文還在擴散中開發了一個不確定性估計模組,以評估估計場景流的可靠性。本文的 DifFlow3D 在 FlyingThings3D 和 KITTI 2015 資料集上分別實現了6.7%和19.1%的三維端點誤差(EPE3D)降低,並在KITTI資料集上實現了前所未有的毫米級精度(EPE3D為0.0089米)。另外,本文的基於擴散的細化範式可以作為一個即插即用的模組,輕鬆整合到現有的場景流網路中,顯著提高它們的估計精度。

主要貢獻:

為了實現穩健的場景流估計,本研究提出了一個全新的即插即用型基於擴散的細化流程。據我們所知,這是首次在場景流任務中採用擴散機率模型。

作者結合了粗流嵌入、幾何編碼和跨幀成本體積等技術,設計了一種有效的條件引導方法,用於控制生成結果的多樣性。

為了評估本文中流的可靠性並識別不準確的點匹配,作者還在擴散模型中引入了每個點的不確定性估計。

研究結果表明,本文提出的方法在FlyingThings3D和KITTI資料集上表現優異,勝過其他現有方法。特別是,DifFlow3D在KITTI資料集上實現了毫米級的端點誤差(EPE3D),這是首次。相較於以往的研究,本文的方法在處理具有挑戰性的情況時表現更為穩健,如噪音輸入和動態變化。

網路設計:

場景流作為電腦視覺中的一項基礎任務,指的是從連續的圖像或點雲中估計出的三維運動場。它為動態場景的低層次感知提供了訊息,並且有著各種下游應用,例如自動駕駛[21]、姿態估計[9]和運動分割[1]。早期的工作集中在使用立體[12]或RGB-D影像[10]作為輸入。隨著3D感測器,例如光達的日益普及,近期的工作通常直接以點雲作為輸入。

作為開創性的工作,FlowNet3D[16]使用 PointNet [25] 提取層次化特徵,然後迭代回歸場景流。 PointPWC[42] 透過金字塔、變形和成本體積結構[31]進一步改進了它。 HALFlow[35] 跟隨它們,並引入了注意力機制以獲得更好的流嵌入。然而,這些基於迴歸的工作通常遭受不可靠的相關性和局部最優問題[17]。原因主要有兩個面向:(1)在他們的網路中,使用K最近鄰(KNN)來搜尋點對應關係,這並不能考慮到正確但距離較遠的點對,也存在著匹配雜訊[7] 。 (2)另一個潛在問題來自於以往工作[16, 35, 36, 42]中廣泛使用的粗到細結構。基本上,最初的流在最粗糙的層上估計,然後在更高分辨率中迭代細化。然而,流細化的性能高度依賴於初始粗流的可靠性,因為後續的細化通常受限於初始化周圍的小的空間範圍。

為了解決不可靠性的問題,3DFlow[36] 設計了一個 all-to-all 的點收集模組,並加入了反向驗證。類似地,Bi-PointFlowNet[4] 及其擴展MSBRN[5] 提出了一個雙向網絡,具有前向-後向相關性。 IHNet[38] 利用一個具有高解析度引導和重採樣方案的循環網路。然而,這些網路大多因其雙向關聯或循環迭代而在計算成本上遇到了困難。本文發現擴散模型也可以增強相關性的可靠性和對匹配雜訊的韌性,這得益於其去噪本質(如圖1所示)。受到[30]中的發現的啟發,即註入隨機噪聲有助於跳出局部最優,本文用概率擴散模型重新構建了確定性流回歸任務(deterministic flow regression task),如圖2所示。此外,本文的方法可以作為一個即插即用的模組服務於先前的場景流網絡,這種方法更為通用,並且幾乎不增加計算成本(第4.5節)。

然而,在本文的任務中利用生成模型是相當具有挑戰性的,因為擴散模型固有的生成多樣性。與需要多樣化輸出樣本的點雲產生任務不同,場景流預測是一個確定性任務,它計算精確的每點運動向量。為了解決這個問題,本文利用強條件資訊來限制多樣性,並有效控制生成的流。具體來說,先初始化一個粗糙的稀疏場景流,然後透過擴散迭代產生流殘差(flow residuals)。在每個基於擴散的細化層中,本文利用粗流嵌入、成本體積和幾何編碼作為條件。在這種情況下,擴散被應用於實際學習從條件輸入到流殘差的機率映射。

此外,先前的工作很少探索場景流估計的置信度和可靠性。然而,如圖1所示,在雜訊、動態變化、小物體和重複模式的情況下,密集流匹配容易出錯。因此,了解每個估計的點對應關係是否可靠是非常重要的。受到最近在光流任務中不確定性估計成功的啟發[33],本文在擴散模型中提出了逐點不確定性,以評估本文的場景流估計的可靠性。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖3。 DifFlow3D 的整體結構。本文首先在 bottom layer 初始化一個粗糙的稀疏場景流。隨後,將迭代擴散式細化層與流相關的條件訊號結合使用,以恢復更密集的流殘差。為了評估本文估計的流的可靠性,也將與場景流一起共同預測每個點的不確定性。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖2。本文用於場景流估計的擴散過程示意圖。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖4。不確定性的可視化。在訓練過程中,本文設計的不確定性區間逐漸縮小,促使預測的流向真實值靠攏。

實驗結果:

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖1。在具有挑戰性的情況下的比較。 DifFlow3D 使用擴散模型預測具有不確定性感知的場景流,該模型對以下情況具有更強的魯棒性:(a)動態變化,(b)噪聲幹擾的輸入,(c)小物體,以及(d )重複模式。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖 5. 未使用或使用基於擴散的場景流細化 (DSFR) 的視覺化結果。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖6。在輸入點上加入隨機高斯雜訊。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

圖7。不確定性在訓練過程中的作用。本文分別在不同的訓練階段(第10輪和第100輪)可視化了不確定性區間。

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

DifFlow3D:場景流估計新SOTA,擴散模型又下一城!

#總結:

本文創新地提出了一個基於擴散的場景流細化網絡,該網絡能夠感知估計的不確定性。本文採用多尺度擴散細化來產生細粒度的密集流殘差。為了提高估計的穩健性,本文也引入了與場景流一起聯合生成的逐點不確定性。廣泛的實驗顯示了本文的 DifFlow3D 的優越性和泛化能力。值得注意的是,本文的基於擴散的細化可以作為即插即用模組應用於以往的工作,並為未來的研究提供新的啟示。

引用:

Liu J, Wang G, Ye W, et al. DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Diffusion Model[J]. arXiv preprint arXiv:2311.17456, 2023.

#

以上是DifFlow3D:場景流估計新SOTA,擴散模型又下一城!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)