增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

王林

Oct 27, 2023 am 11:17 AM

3d模態

原標題：GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Detection

需要重寫的內容是：論文連結：https://arxiv.org/pdf/2310.08261. pdf

作者單位：北京交通大學河北科技大學清華大學

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

##論文想法：

LiDAR 和相機是自動駕駛中3D目標偵測的互補感光元件。然而，研究點雲和影像之間的非自然交互作用具有挑戰，關鍵在於如何進行異構模態的特徵對齊。目前，許多方法僅透過投影校準來實現特徵對齊，而忽略了感測器之間座標轉換精度誤差的問題，導致性能次優。本文提出了一種名為GraphAlign的更準確的特徵對齊策略，透過圖匹配來進行3D目標檢測。具體而言，本文將影像分支中語意分割編碼器的影像特徵與LiDAR分支中3D稀疏CNN的點雲特徵進行融合。為了減少運算量，本文利用歐氏距離計算在點雲特徵子空間內進行最近鄰關係構造。透過影像和點雲之間的投影校準，將點雲特徵的最近鄰投影到影像特徵上。然後，透過將單一點雲的最近鄰與多個影像進行匹配，本文搜尋更合適的特徵對齊。此外，本文也提供了一個自註意力模組，以增強重要關係的權重，從而微調異構模態之間的特徵對齊。在nuScenes基準測試中進行了大量實驗證明了本文提出的GraphAlign的有效性和效率

#主要貢獻：

本文提出了GraphAlign，一種基於圖匹配(graph matching)的特徵對齊框架，來解決多模態3D 目標偵測中的未對齊問題。

本文提出圖形特徵對齊(Graph Feature Alignment)（GFA）和自註意力特徵對齊(Self-Attention Feature Alignment)（SAFA）模組來實現圖像特徵和點雲特徵的精確對齊，這可以進一步增強點雲和影像模態之間的特徵對齊，從而提高偵測精度。

透過使用KITTI和nuScenes兩個基準進行實驗，我們證明了GraphAlign可以有效提高點雲檢測的精確度，尤其是在遠距離目標檢測方面

網路設計：

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

圖1. 特徵對齊策略的比較

(a) 基於投影的方法可以快速建立模態特徵之間的關係，但可能會因感測器誤差而出現未對齊的情況。 (b) 基於注意力的方法透過學習對齊來保留語意訊息，但計算成本較高。 (c) 本文提出的 GraphAlign 使用基於圖形的特徵對齊來匹配模態之間更合理的對齊，從而減少計算量並提高準確性。

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

圖 2. GraphAlign 的框架。

重新寫成中文如下：它由圖形特徵對齊（GFA）模組和自註意力特徵對齊（SAFA）模組組成。 GFA模組接收影像和點雲特徵作為輸入，利用投影校準矩陣將3D位置轉換為2D像素位置，建構局部鄰域資訊來尋找最近鄰，並結合影像和點雲特徵。 SAFA模組透過自註意力機制對K近鄰之間的上下文關係進行建模，以增強融合特徵的重要性，並最終選擇最具代表性的特徵

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

圖3. GFA 處理流程

(a) 感測器精度誤差導致未對齊。 (b) GFA透過點雲特徵中的圖建立鄰近關係。 (c) 本文將點雲特徵投影到影像特徵上，並獲得影像特徵的 K 個最近鄰。 (d) 本文執行一對多融合，具體來說，透過將每個單獨的點雲特徵與 K 個相鄰影像特徵融合來實現更好的對齊。

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

圖4.SAFA 模組流程

我們簡化了head和max模組，SAFA模組的目的是改善K鄰域之間的全局上下文信息，以增強融合特徵的表示

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

實驗結果：

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用

引用：

Song, Z., Wei, H., Bai, L., Yang, L., & Jia, C. (2023) . GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Detection.

增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用 ArXiv. /abs/2310.08261

###### //mp.weixin.qq.com/s/eN6THT2azHvoleT1F6MoSw###

以上是增強多模態3D目標偵測的準確特徵對齊：GraphAlign的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

为何在自动驾驶方面Gaussian Splatting如此受欢迎，开始放弃NeRF？Jan 17, 2024 pm 02:57 PM

写在前面&笔者的个人理解三维Gaussiansplatting（3DGS）是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯，这与神经辐射场（NeRF）方法有很大的不同，后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法，不仅保证了实时渲染能力，而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

了解 Microsoft Teams 中的 3D Fluent 表情符号Apr 24, 2023 pm 10:28 PM

您一定记得，尤其是如果您是Teams用户，Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后，该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示，更新后的1800表情符号将为我们每天

选择相机还是激光雷达？实现鲁棒的三维目标检测的最新综述Jan 26, 2024 am 11:18 AM

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术，通过使用各种传感器（如相机、激光雷达、雷达等）来感知周围环境，并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等，从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注，并认为是未来交通领域的重要发展领域之一。但是，让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体，包括它们的位置、

Windows 11中的Paint 3D：下载、安装和使用指南Apr 26, 2023 am 11:28 AM

当八卦开始传播新的Windows11正在开发中时，每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测，Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外，它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint，它对抽屉，涂鸦者和涂鸦者有好处，但它放弃了Paint3D，它提供了额外的功能，非常适合3D创作者。如果您正在寻找一些额外的功能，我们建议AutodeskMaya作为最好的3D设计软件。如

单卡30秒跑出虚拟3D老婆！Text to 3D生成看清毛孔细节的高精度数字人，无缝衔接Maya、Unity等制作工具May 23, 2023 pm 02:34 PM

ChatGPT给AI行业注入一剂鸡血，一切曾经的不敢想，都成为如今的基操。正持续进击的Text-to-3D，就被视为继Diffusion（图像）和GPT（文字）后，AIGC领域的下一个前沿热点，得到了前所未有的关注度。这不，一款名为ChatAvatar的产品低调公测，火速收揽超70万浏览与关注，并登上抱抱脸周热门（Spacesoftheweek）。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术，受到了广泛关注现行beta版本生成的3D模型，

自动驾驶3D视觉感知算法深度解读Jun 02, 2023 pm 03:42 PM

对于自动驾驶应用来说，最终还是需要对3D场景进行感知。道理很简单，车辆不能靠着一张图像上得到感知结果来行驶，就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的，而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说，自动驾驶车辆的视觉传感器（比如摄像头）安装在车身上方或者车内后视镜上。无论哪个位置，摄像头所得到的都是真实世界在透视视图（PerspectiveView）下的投影（世界坐标系到图像坐标系）。这种视图与人类的视觉系统很类似，

跨模态占据性知识的学习：使用渲染辅助蒸馏技术的RadOccJan 25, 2024 am 11:36 AM

原标题：Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation论文链接：https://arxiv.org/pdf/2312.11829.pdf作者单位：FNii,CUHK-ShenzhenSSE,CUHK-Shenzhen华为诺亚方舟实验室会议：AAAI2024论文思路：3D占用预测是一项新兴任务，旨在使用多视图图像估计3D场景的占用状态和语义。然而，由于缺乏几何先验，基于图像的场景

《原神》：知名原神3d同人作者被捕Feb 15, 2024 am 09:51 AM

一些原神“奇怪”的关键词，在这两天很有关注度，明明搜索指数没啥变化，却不断有热议话题蹦窜。例如了龙王、钟离等“转变”立绘激增，虽在网络上疯传了一阵子，但是经过追溯发现这些是合理、常规的二创同人。如果单是这些，倒也翻不起多大的热度。按照一部分网友的说法，除了原神自身就有热度外，发现了一件格外醒目的事情：原神3d同人作者shirakami已经被捕。这引发了不小的热议。为什么被捕？关键词，原神3D动画。还是越过了线（就是你想的那种），再多就不能明说了。经过多方求证，以及新闻报道，确实有此事。自从去年发

See all articles