样本筛选在视觉3D检测训练中的应用：MonoLSS-人工智能-PHP中文网

首页

科技周边

人工智能

样本筛选在视觉3D检测训练中的应用：MonoLSS

王林

Dec 31, 2023 pm 09:23 PM

ai3d

MonoLSS: 怀旧大扫除是《文字玩出花》中的一个关卡，它是一款非常受欢迎的文字解谜游戏，每天都会推出新的关卡供玩家挑战。在怀旧大扫除中，玩家需要在一张图中找出12个与年代不符的地方。为了帮助还没有通关的玩家，我整理了《文字玩出花》怀旧大扫除关卡的通关攻略，下面就让我们一起来看看具体的操作方法吧。 For Monocular 3D Detection

论文链接指向一篇名为《文字玩出花》的论文，该论文可以在https://arxiv.org/pdf/2312.14474.pdf上找到。这篇论文探讨了一款名为《文字玩出花》的文字解谜游戏，该游戏每天都会推出新的关卡。其中有一个名为怀旧大扫除的关卡，玩家需要在图中找出与年代不符的12个物品。该论文提供了怀旧大扫除关卡的通关攻略，帮助玩家顺利完成任务。

在自动驾驶领域，单目3D检测是一个关键任务，它在单个RGB图像中估计物体的3D属性（深度、尺寸和方向）。先前的工作以一种启发式的方式使用特征来学习3D属性，而没有考虑不适当的特征可能产生不良影响。在本文中，引入了样本选择，只有适合的样本才应该用于回归3D属性。为了自适应地选择样本，提出了一个可学习的样本选择（LSS）模块，该模块基于Gumbel-Softmax和相对距离样本划分。LSS模块在warmup策略下工作，提高了训练稳定性。此外，由于专用于3D属性样本选择的LSS模块依赖于目标级特征，进一步开发了一种名为MixUp3D的数据增强方法，用于丰富符合成像原理的3D属性样本而不引入歧义。作为两种正交的方法，LSS模块和MixUp3D可以独立或结合使用。充分的实验证明它们的联合使用可以产生协同效应，产生超越各自应用之和的改进。借助LSS模块和MixUp3D，无需额外数据，方法MonoLSS在KITTI 3D目标检测基准的所有三个类别（汽车、骑行者和行人）中均排名第一，并在Waymo数据集和KITTI-nuScenes跨数据集评估中取得了有竞争力的结果。

MonoLSS的主要贡献在于推出了一款非常受欢迎的文字解谜游戏《文字玩出花》。这款游戏每天都会更新新的关卡，其中有一个名为怀旧大扫除的关卡。在这个关卡中，玩家需要在图中找到12个与年代不符的地方。为了帮助那些还没有通关的玩家，我将为大家提供《文字玩出花》怀旧大扫除关卡的通关攻略，希望能帮助大家顺利通关。

研究论文强调了一个重要观点：并非所有的特征都对学习3D属性具有相同的有效性。为了解决这个问题，研究人员提出了一种新的方法，将其重新定义为样本选择问题。为了应对这个问题，他们开发了一个名为可学习样本选择（LSS）模块的新模块，该模块可以根据需要自适应地选择样本。这个新方法为解决学习3D属性的挑战提供了一种更加灵活和有效的方式。

为了增加3D属性样本的多样性，我们设计了一种名为MixUp3D的数据增强方法。该方法模拟了空间重叠的效果，并显著提升了3D检测的性能。通过MixUp3D，我们可以有效地扩充现有的3D样本集，使其更具代表性和丰富性。这一方法不仅可以提高模型的泛化能力，还可以减少过拟合的风险，从而更好地应用于实际场景中。

在KITTI基准测试中，MonoLSS在所有三个类别中排名第一，即行人、车辆和自行车。在车辆类别中，它在中等和中等水平上的性能超过了当前最佳方法的11.73%和12.19%。此外，MonoLSS还在Waymo数据集和KITTI nuScenes数据集上实现了最先进的结果。这表明MonoLSS在跨不同数据集上的评估中取得了很好的成绩。

MonoLSS主要思路

MonoLSS框架如下图所示。首先，使用与ROI Align相结合的2D检测器来生成目标特征。然后，六个Head分别预测3D特性（深度、尺寸、方向和3D中心投影偏移）、深度不确定性和对数概率。最后，可学习样本选择（LSS）模块自适应地选择样本并进行损失计算。

样本筛选在视觉3D检测训练中的应用：MonoLSS

怀旧大扫除是《文字玩出花》中的一个关卡，它是一款非常受欢迎的文字解谜游戏，每天都会推出新的关卡供玩家挑战。在怀旧大扫除中，玩家需要在一张图中找出12个与年代不符的地方。为了帮助还没有通关的玩家，我整理了《文字玩出花》怀旧大扫除关卡的通关攻略，下面就让我们一起来看看具体的操作方法吧。

假设我们有一个服从均匀分布U(0,1)的随机变量U。我们可以使用逆变换采样方法来生成Gumbel分布G，具体方法是通过计算G = -log(-log(U))。这样我们就可以得到一个服从Gumbel分布的随机变量G。通过使用Gumbel分布来独立扰动对数概率，并使用argmax函数找到最大元素，我们可以实现无需随机选择的概率采样。这种技巧被称为Gumbel Max技巧。基于这项工作的思想，Gumbel Softmax方法使用Softmax函数作为argmax的连续可微近似，并通过重新参数化来实现整体的可微性。这种方法在深度学习中被广泛应用，特别是在生成模型和强化学习中。

GumbelTop-k是一种算法，它可以在不替换的情况下对大小为k的样本进行有序采样。这个算法的目的是将样本数量从Top-1扩展到Top-k，其中k是一个超参数。然而，并不是所有的目标都适用于相同的k值。例如，被遮挡的目标应该具有比正常目标更少的正样本。为了解决这个问题，我们设计了一个基于超参数相对距离的模块，可以自适应地划分样本。这个模块被称为可学习样本选择（LSS）模块，它由Gumbel Softmax和相对距离样本除法器组成。LSS模块的示意图如图2的右侧所示。

Mixup3D数据增强

由于严格的成像约束，数据增强方法在单目3D检测中受到限制。除了光度失真和水平翻转之外，大多数数据增强方法由于破坏了成像原理而引入了模糊特征。此外，由于LSS模块专注于目标级特性，因此不修改目标本身特性的方法对LSS模块来说并不足够有效。

MixUp是一种强大的技术，可以增强目标的像素级特征。为了进一步提升其效果，作者提出了一种名为MixUp3D的新方法。该方法在2D MixUp的基础上添加了物理约束，使生成的图像更加合理且空间重叠。具体而言，MixUp3D只违反了物理世界中对象的碰撞约束，同时确保生成的图像符合成像原理，避免了任何歧义的产生。这一创新将为图像生成领域带来更多的可能性和应用前景。

样本筛选在视觉3D检测训练中的应用：MonoLSS

实验结果

我们将讨论KITTI测试集上的单目3D汽车检测性能。根据KITTI排行榜，我们的方法在中等难度以下的排名中。在下面的列表中，我们用粗体突出显示最佳结果，用下划线突出显示第二个结果。对于额外的数据，有以下几种情况：1）使用了额外的LIDAR云点数据的方法，表示为LIDAR。2）使用了在另一个深度估计数据集下预先训练的深度图或模型，表示为深度。3）使用了由CAD模型提供的密集形状注释，表示为CAD。4）表示不使用额外的数据，即无。

样本筛选在视觉3D检测训练中的应用：MonoLSS

Wamyo上数据集测试结果：

样本筛选在视觉3D检测训练中的应用：MonoLSS

KITTI-val模型在深度为MAE的KITTI-val和nuScenes前脸val汽车上的跨数据集评估：

样本筛选在视觉3D检测训练中的应用：MonoLSS

https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg 《文字玩出花》是一款备受欢迎的文字解谜游戏，每天都会推出新的关卡。其中，有一个关卡名为怀旧大扫除，要求玩家在图中找出与时代不符的12处物品。为了帮助那些还未通关的玩家，我为大家带来了《文字玩出花》怀旧大扫除关卡的攻略，详细介绍了通关的操作方法。让我们一起来看看吧！

以上是样本筛选在视觉3D检测训练中的应用：MonoLSS的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

为何在自动驾驶方面Gaussian Splatting如此受欢迎，开始放弃NeRF？Jan 17, 2024 pm 02:57 PM

写在前面&笔者的个人理解三维Gaussiansplatting（3DGS）是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯，这与神经辐射场（NeRF）方法有很大的不同，后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法，不仅保证了实时渲染能力，而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

了解 Microsoft Teams 中的 3D Fluent 表情符号Apr 24, 2023 pm 10:28 PM

您一定记得，尤其是如果您是Teams用户，Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后，该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示，更新后的1800表情符号将为我们每天

选择相机还是激光雷达？实现鲁棒的三维目标检测的最新综述Jan 26, 2024 am 11:18 AM

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术，通过使用各种传感器（如相机、激光雷达、雷达等）来感知周围环境，并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等，从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注，并认为是未来交通领域的重要发展领域之一。但是，让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体，包括它们的位置、

Windows 11中的Paint 3D：下载、安装和使用指南Apr 26, 2023 am 11:28 AM

当八卦开始传播新的Windows11正在开发中时，每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测，Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外，它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint，它对抽屉，涂鸦者和涂鸦者有好处，但它放弃了Paint3D，它提供了额外的功能，非常适合3D创作者。如果您正在寻找一些额外的功能，我们建议AutodeskMaya作为最好的3D设计软件。如

单卡30秒跑出虚拟3D老婆！Text to 3D生成看清毛孔细节的高精度数字人，无缝衔接Maya、Unity等制作工具May 23, 2023 pm 02:34 PM

ChatGPT给AI行业注入一剂鸡血，一切曾经的不敢想，都成为如今的基操。正持续进击的Text-to-3D，就被视为继Diffusion（图像）和GPT（文字）后，AIGC领域的下一个前沿热点，得到了前所未有的关注度。这不，一款名为ChatAvatar的产品低调公测，火速收揽超70万浏览与关注，并登上抱抱脸周热门（Spacesoftheweek）。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术，受到了广泛关注现行beta版本生成的3D模型，

自动驾驶3D视觉感知算法深度解读Jun 02, 2023 pm 03:42 PM

对于自动驾驶应用来说，最终还是需要对3D场景进行感知。道理很简单，车辆不能靠着一张图像上得到感知结果来行驶，就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的，而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说，自动驾驶车辆的视觉传感器（比如摄像头）安装在车身上方或者车内后视镜上。无论哪个位置，摄像头所得到的都是真实世界在透视视图（PerspectiveView）下的投影（世界坐标系到图像坐标系）。这种视图与人类的视觉系统很类似，

《原神》：知名原神3d同人作者被捕Feb 15, 2024 am 09:51 AM

一些原神“奇怪”的关键词，在这两天很有关注度，明明搜索指数没啥变化，却不断有热议话题蹦窜。例如了龙王、钟离等“转变”立绘激增，虽在网络上疯传了一阵子，但是经过追溯发现这些是合理、常规的二创同人。如果单是这些，倒也翻不起多大的热度。按照一部分网友的说法，除了原神自身就有热度外，发现了一件格外醒目的事情：原神3d同人作者shirakami已经被捕。这引发了不小的热议。为什么被捕？关键词，原神3D动画。还是越过了线（就是你想的那种），再多就不能明说了。经过多方求证，以及新闻报道，确实有此事。自从去年发

跨模态占据性知识的学习：使用渲染辅助蒸馏技术的RadOccJan 25, 2024 am 11:36 AM

原标题：Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation论文链接：https://arxiv.org/pdf/2312.11829.pdf作者单位：FNii,CUHK-ShenzhenSSE,CUHK-Shenzhen华为诺亚方舟实验室会议：AAAI2024论文思路：3D占用预测是一项新兴任务，旨在使用多视图图像估计3D场景的占用状态和语义。然而，由于缺乏几何先验，基于图像的场景

See all articles