首頁 >科技週邊 >人工智慧 >CVPR 2024 | 面向真實感場景產生的光達擴散模型

CVPR 2024 | 面向真實感場景產生的光達擴散模型

PHPz轉載: 2024-04-24 16:28:011011瀏覽

原標題：Towards Realistic Scene Generation with LiDAR Diffusion Models

論文連結：https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

程式碼連結：https://lidar-diffusion.github.io

作者單位：CMU 豐田研究院南加州大學

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

#論文想法：

擴散模型（DMs）在逼真的影像合成方面表現出色，但將其適配到雷射雷達場景生成中存在著重大挑戰。這主要是因為在點空間運作的DMs 難以保持雷射雷達場景的曲線樣式和三維特性，這消耗了它們大部分的表徵能力。本文提出了光達擴散模型（LiDMs），這一模型透過在學習流程中融入幾何壓縮來模擬現實世界的光達場景。本文引入了曲線壓縮來模擬現實世界的雷射雷達模式，以及區塊級（patch-wise）編碼以獲取完整的三維物體上下文。借助這三個核心設計，本文在無條件雷射雷達生成場景中建立了新的SOTA，並同時與基於點的DMs相比保持了高效率（最高可快107倍）。此外，透過將雷射雷達場景壓縮到隱空間，本文使DMs能夠在各種條件下控制，例如語義地圖、相機視圖和文字提示。

主要貢獻：

本文提出了一種新穎的雷射達擴散模型（LiDM），這是一種生成模型，能夠基於任意輸入條件的逼真光達場景生成。據本文所知，這是第一個能夠從多模態條件產生雷射雷達場景的方法。

本文引入了曲線級壓縮以保持逼真的雷射達模式，點級座標監督以規範場景級幾何的模型，並且引入了區塊級編碼以完全捕捉3D物體的上下文。

本文引入了三個指標，用於在感知空間中全面且定量地評估生成的雷射達場景質量，比較包括距離影像、稀疏體積和點雲等多種表現形式。

本文的方法是利用64線雷射雷達場景的無條件場景合成上實現了最新水平，並且相比於基於點的擴散模型實現了高達107倍的速度提升。

網頁設計：

近年來，條件生成模型的發展迅速，這些模型能夠產生視覺上吸引人且高度逼真的圖像。在這些模型中，擴散模型（DMs）憑藉其無可挑剔的性能，已成為最受歡迎的方法之一。為了實現任意條件下的生成，隱擴散模型（LDMs）[51] 結合了交叉注意力機制和卷積自編碼器，以生成高解析度影像。其後續擴展（例如，Stable Diffusion [2], Midjourney [1], ControlNet [72]）進一步增強了其條件影像合成的潛力。

這一成功引發了本文的思考：我們能否將可控的擴散模型（DMs）應用於自動駕駛和機器人技術中的光達場景生成？例如，給定一組邊界框，這些模型能否合成相應的雷射雷達場景，從而將這些邊界框轉化為高品質且昂貴的標註資料？或者，是否有可能僅從一組影像生成一個3D場景？甚至更有野心地，我們能設計出一個由語言驅動的光達產生器來進行可控模擬嗎？為了回答這些交織在一起的問題，本文的目標是設計出能夠結合多種條件（例如，佈局、相機視角、文字）來產生逼真光達場景的擴散模型。

為此，本文從最近自動駕駛領域的擴散模型（DMs）工作中獲得了一些見解。在[75]中，介紹了一種基於點的擴散模型（即LiDARGen），用於無條件的雷射雷達場景產生。然而，這個模型往往會產生吵雜的背景（如道路、牆壁）和模糊的物體（如汽車），導致生成的雷射雷達場景與現實情況相去甚遠（參見圖1）。此外，在沒有任何壓縮的情況下對點進行擴散，會使得推理過程計算速度變慢。而且，直接應用 patch-based 擴散模型（即 Latent Diffusion [51]）到雷射雷達場景生成，無論是在質量上或數量上，都未能達到令人滿意的性能（參見圖1）。

为了实现条件化的逼真激光雷达场景生成，本文提出了一种基于曲线的生成器，称为激光雷达扩散模型（LiDMs），以回答上述问题并解决近期工作中的不足。LiDMs 能够处理任意条件，例如边界框、相机图像和语义地图。LiDMs 利用距离图像作为激光雷达场景的表征，这在各种下游任务中非常普遍，如检测[34, 43]、语义分割[44, 66]以及生成[75]。这一选择是基于距离图像与点云之间可逆且无损的转换，以及从高度优化的二维卷积操作中获得的显著优势。为了在扩散过程中把握激光雷达场景的语义和概念本质，本文的方法在扩散过程之前，将激光雷达场景的编码点转换到一个感知等效的隐空间(perceptually equivalent latent space)中。

为了进一步提高真实世界激光雷达数据的逼真模拟效果，本文专注于三个关键组成部分：模式真实性、几何真实性和物体真实性。首先，本文利用曲线压缩在自动编码过程中保持点的曲线图案，这一做法受到[59]的启发。其次，为了实现几何真实性，本文引入了点级坐标监督，以教会本文的自编码器理解场景级别的几何结构。最后，本文通过增加额外的块级下采样策略来扩大感受野，以捕捉视觉上较大物体的完整上下文。通过这些提出的模块增强，所产生的感知空间使得扩散模型能够高效地合成高质量的激光雷达场景（参见图1），同时在性能上也表现出色，与基于点的扩散模型相比速度提升了107倍（在一台NVIDIA RTX 3090上评估），并支持任意类型的基于图像和基于 token 的条件。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图1. 本文的方法（LiDM）在无条件的激光雷达逼真场景生成方面确立了新的SOTA，并标志着从不同输入模态生成条件化激光雷达场景方向上的一个里程碑。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图2. 64线数据上 LiDMs 的概览，包括三个部分：激光雷达压缩（参见第3.3节和3.5节）、多模态条件化（参见第3.4节）以及激光雷达扩散（参见第3.5节）。

实验结果：

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图3. 在64线场景下，来自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图4. 在32线场景下，来自本文 LiDMs 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图5. 在SemanticKITTI [5]数据集上，用于语义地图到激光雷达生成的本文的 LiDM 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图6. 在KITTI-360 [37]数据集上，用于条件相机到激光雷达生成的 LiDM 的例子。橙色框表示输入图像所覆盖的区域。对于每个场景，KITTI-360提供一个视角，它只覆盖了场景的一部分。因此，LiDM 对相机覆盖的区域执行条件生成，对其余未观测到的区域执行无条件生成。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图7. 在64线场景下，用于 zero-shot 文本到激光雷达生成的 LiDM 的例子。橙色虚线框起的区域表示受条件影响的区域，绿色框突出显示了可能与提示词相关联的物体。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图8. 总体缩放因子（）与采样质量（FRID和FSVD）的对比。本文在KITTI-360 [37]数据集上比较了不同规模的曲线级编码（Curve）、块级编码（Patch）以及带有一（C 1P）或两（C 2P）阶段块级编码的曲线级编码。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

圖9. LiDM 的例子，包括有或沒有點級監督，如第3.3節所提出的。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

#總結：

##本文提出了光達擴散模型（LiDMs），這是一個用於雷射雷達場景產生的通用條件化框架。本文的設計著重於保留曲線狀的圖案以及場景層級和物體層級的幾何結構，為擴散模型設計了一個高效的隱空間，以實現雷射雷達逼真生成。這種設計使得本文的LiDMs 在64線場景下能夠在無條件生成方面取得有競爭力的性能，並在條件生成方面達到了最先進的水平，可以使用多種條件對LiDMs 進行控制，包括語義地圖、相機視圖和文字提示。據本文所知，本文的方法是首次成功將條件引入雷射雷達生成的方法。

引用：

@inproceedings{ran2024towards,
title={Towards Realistic Scene Generation with LiDAR Diffusion Models},
author={ Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2024}
}

以上是CVPR 2024 | 面向真實感場景產生的光達擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Token github stable diffusion https midjourney

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：GenAI的投資熱潮推動IT支出，但其回報仍令人質疑下一篇：GenAI的投資熱潮推動IT支出，但其回報仍令人質疑

看更多