ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项-人工智能-PHP中文网

首页

科技周边

人工智能

ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 04, 2023 pm 09:37 PM

产业iccv

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕

作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。

ICCV的热度一直以来都与CVPR不相上下，屡创新高

在今天的开幕式上，ICCV官方公布了今年的论文数据：本届ICCV共有8068篇投稿，其中有2160篇被接收，录用率为26.8%，略高于上一届ICCV 2021的录用率25.9%

在论文主题方面，官方也公布了相关数据：多视角和传感器的3D技术热度最高

在今天的开幕式上，最重要的部分无疑是颁发奖项的环节。接下来，我们将逐一揭晓最佳论文、最佳论文提名和最佳学生论文的获奖者

最佳论文-马尔奖

今年的最佳论文（马尔奖）有两篇论文获得该奖项

第一篇研究是由多伦多大学的研究者进行的

论文地址：https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

作者： Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos

重写后的内容：多伦多大学是一所知名的机构

摘要：本文考虑在极端的时间尺度范围内，同时（秒到皮秒）对动态场景进行成像的问题，并且是被动地进行成像，没有太多的光，也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计（flux estimation）技术在这种情况下会失效，因此本文开发了一种通量探测理论，该理论从随机微积分中汲取见解，从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。

本文利用这一理论来 (1) 表明无源自由运行 SPAD 相机在低通量条件下具有可实现的频率带宽，跨越整个 DC-to31 GHz 范围，(2) 推导出了一种新颖的傅里叶域通量重建算法，并且 (3) 确保算法的噪声模型即使对于非常低的光子计数或不可忽略的死区时间也保持有效。

ControlNet、SAM等热门论文获奖，ICCV 2023论文奖项公布。本文通过实验展示了这种异步成像机制的潜力：（1）对由以截然不同的速度运行的光源（灯泡、投影仪、多个脉冲激光器）同时照明的场景进行成像，而无需同步，（2）被动非视距视频采集；(3)记录超宽带视频，稍后可以以30 Hz的速度播放以显示日常运动，但也可以慢十亿倍的速度播放以显示光本身的传播

需要被重写的内容是：第二篇就是我们所熟知的ControNet

论文地址：https://arxiv.org/pdf/2302.05543.pdf

撰写者：张绿民、饶安怡、Maneesh Agrawala

机构：斯坦福大学

摘要：本文提出了一种端到端的神经网络架构 ControlNet，该架构可以通过添加额外条件来控制扩散模型（如 Stable Diffusion），从而改善图生图效果，并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型（如 Stable Diffusion），从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

重新写成: 我们可以通过将额外的条件以图像的形式输入，让模型进行Canny边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测（HED）、人体姿态识别等操作，并在生成的图像中保留这些信息。利用这个模型，我们可以将线稿或涂鸦直接转换成全彩图，并生成具有相同深度结构的图像，同时还可以通过手部关键点来优化人物手部的生成

详细介绍请参考本站报道：AI降维打击人类画家，文生图引入ControlNet，深度、边缘信息全能复用

最佳论文提名：SAM

今年4月份，Meta发布了名为「分割一切（SAM）」的AI模型，它能够为任何图像或视频中的物体生成遮罩。这一技术让计算机视觉领域的研究者们感到震惊，有人甚至称之为「CV不存在了」

如今，这篇备受关注的论文摘的最佳论文提名。

论文地址：https://arxiv.org/abs/2304.02643

重写后的内容：机构：Meta AI

重写后的内容：对于分割问题的解决，目前大致有两种方法。第一种是交互式分割，这种方法可以用来分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割，可以用来分割预定义的特定对象类别（例如猫或椅子），但需要大量手动注释对象进行训练（例如数千甚至数万个分割猫的例子）。这两种方法都没有提供通用的、全自动的分割方法

Meta提出的SAM很好地总结了这两种方法。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、框选、文本等），就可以完成各种广泛的分割任务

总结一下，这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的

详细介绍请参考本站报道：CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

最佳学生论文

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成，一作是来自Cornell Tech 的博士生Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion，并提出一种新的测试时（test-time）优化方法，对视频中每个像素进行准确、完整的运动估计。

论文地址：https://arxiv.org/abs/2306.05422
项目主页：https://omnimotion.github.io/

在计算机视觉领域，有两种常用的运动估计方法：稀疏特征追踪和密集光流。然而，这两种方法都存在一些缺点。稀疏特征追踪不能对所有像素的运动进行建模，而密集光流则无法长时间捕捉运动轨迹

OmniMotion 是一项研究提出的新技术，它使用了 quasi-3D 规范体积来表征视频。通过局部空间和规范空间之间的双射，OmniMotion 能够对每个像素进行追踪。这种表征方法不仅能够保证全局一致性，即使在物体被遮挡的情况下也能进行运动追踪，而且能够对相机和物体运动的任何组合进行建模。实验证明，OmniMotion 方法在性能上显着优于现有的SOTA 方法

详细介绍请参考本站报道：随时随地，追踪每个像素，连遮挡都不怕的「追踪一切」视频算法来了

当然，除了这些获奖论文，今年ICCV还有许多优秀论文值得大家关注。最后为大家附上17篇获奖论文初始清单。

以上是ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

机器人的大脑：亿万富翁蓬勃发展的指南Apr 23, 2025 am 11:16 AM

人工通用情报（AGI）已经到达，迎来了前所未有的全球转型时期。 McKinsey＆Company将AGI定义为具有人类水平能力的AI，这是一种可能导致“奇异性”的发展，

我在2025年学习了数十个AI代理的测试Apr 23, 2025 am 11:13 AM

人工智能的快速发展正在推动企业将AI代理集成到其运营中。最近的IBM和晨咨询调查显示，绝大多数（99％）的企业AI开发人员正在积极探索或开发AI代理TEC

建立AI基础模型和生成性AI，以专业进行心理健康疗法Apr 23, 2025 am 11:12 AM

开发能够提供专家心理健康疗法的AI是一项重要的工作。初创企业正在积极地追求这一具有挑战性的道路，吸引了大量的风险投资。学术研究人员正在积极探索其贫困

提示：光标的客户支持机器人构成了政策Apr 23, 2025 am 11:11 AM

人工智能编码软件风靡一时。一个特别受欢迎的工具是光标，它是由新生的AI初创公司Anysphere构建的，它已成为有史以来发展最快的初创公司之一。但是，即使光标也不能免于幻觉 - AI倾向于制造

NVIDIA ISAAC GR00T N1如何重新定义类人形机器人技术？Apr 23, 2025 am 11:07 AM

NVIDIA Isaac GR00T N1：引领人形机器人技术革新 NVIDIA的Isaac GR00T N1在人形机器人领域实现了飞跃式发展，它将尖端的AI技术与开源的可访问性完美结合。作为全球首个用于通用人形机器人推理的开放式基础模型，该技术使机器人能够理解语言指令、处理视觉数据并在各种环境中执行复杂的操作任务。目录技术架构详解完整安装指南综合工作流程实施突破性的合成数据生成部署与性能指标企业级开发工具入门资源总结技术架构详解双系统认知框架系统1（快速思考）：