搜索
首页科技周边人工智能ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕

作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。

ICCV的热度一直以来都与CVPR不相上下,屡创新高

在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV 2021的录用率25.9%

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

在今天的开幕式上,最重要的部分无疑是颁发奖项的环节。接下来,我们将逐一揭晓最佳论文、最佳论文提名和最佳学生论文的获奖者

最佳论文-马尔奖

今年的最佳论文(马尔奖)有两篇论文获得该奖项

第一篇研究是由多伦多大学的研究者进行的

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

作者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos

重写后的内容:多伦多大学是一所知名的机构

摘要:本文考虑在极端的时间尺度范围内,同时(秒到皮秒)对动态场景进行成像的问题,并且是被动地进行成像,没有太多的光,也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计(flux estimation)技术在这种情况下会失效,因此本文开发了一种通量探测理论,该理论从随机微积分中汲取见解,从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。

本文利用这一理论来 (1) 表明无源自由运行 SPAD 相机在低通量条件下具有可实现的频率带宽,跨越整个 DC-to31 GHz 范围,(2) 推导出了一种新颖的傅里叶域通量重建算法,并且 (3) 确保算法的噪声模型即使对于非常低的光子计数或不可忽略的死区时间也保持有效。

ControlNet、SAM等热门论文获奖,ICCV 2023论文奖项公布。本文通过实验展示了这种异步成像机制的潜力:(1)对由以截然不同的速度运行的光源(灯泡、投影仪、多个脉冲激光器)同时照明的场景进行成像,而无需同步,(2)被动非视距视频采集;(3)记录超宽带视频,稍后可以以30 Hz的速度播放以显示日常运动,但也可以慢十亿倍的速度播放以显示光本身的传播

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

需要被重写的内容是:第二篇就是我们所熟知的ControNet

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

论文地址:https://arxiv.org/pdf/2302.05543.pdf

撰写者:张绿民、饶安怡、Maneesh Agrawala

机构:斯坦福大学

摘要:本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

重新写成: 我们可以通过将额外的条件以图像的形式输入,让模型进行Canny边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等操作,并在生成的图像中保留这些信息。利用这个模型,我们可以将线稿或涂鸦直接转换成全彩图,并生成具有相同深度结构的图像,同时还可以通过手部关键点来优化人物手部的生成

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

详细介绍请参考本站报道:AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用

最佳论文提名:SAM

今年4月份,Meta发布了名为「分割一切(SAM)」的AI模型,它能够为任何图像或视频中的物体生成遮罩。这一技术让计算机视觉领域的研究者们感到震惊,有人甚至称之为「CV不存在了」

如今,这篇备受关注的论文摘的最佳论文提名。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

论文地址:https://arxiv.org/abs/2304.02643

重写后的内容:机构:Meta AI

重写后的内容:对于分割问题的解决,目前大致有两种方法。第一种是交互式分割,这种方法可以用来分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割,可以用来分割预定义的特定对象类别(例如猫或椅子),但需要大量手动注释对象进行训练(例如数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法

Meta提出的SAM很好地总结了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、框选、文本等),就可以完成各种广泛的分割任务

总结一下,这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的

详细介绍请参考本站报道:CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻

最佳学生论文

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成,一作是来自Cornell Tech 的博士生Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

在计算机视觉领域,有两种常用的运动估计方法:稀疏特征追踪和密集光流。然而,这两种方法都存在一些缺点。稀疏特征追踪不能对所有像素的运动进行建模,而密集光流则无法长时间捕捉运动轨迹

OmniMotion 是一项研究提出的新技术,它使用了 quasi-3D 规范体积来表征视频。通过局部空间和规范空间之间的双射,OmniMotion 能够对每个像素进行追踪。这种表征方法不仅能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,而且能够对相机和物体运动的任何组合进行建模。实验证明,OmniMotion 方法在性能上显着优于现有的SOTA 方法

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

详细介绍请参考本站报道:随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

当然,除了这些获奖论文,今年ICCV还有许多优秀论文值得大家关注。最后为大家附上17篇获奖论文初始清单。

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

以上是ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
机器人的大脑:亿万富翁蓬勃发展的指南机器人的大脑:亿万富翁蓬勃发展的指南Apr 23, 2025 am 11:16 AM

人工通用情报(AGI)已经到达,迎来了前所未有的全球转型时期。 McKinsey&Company将AGI定义为具有人类水平能力的AI,这是一种可能导致“奇异性”的发展,

我在2025年学习了数十个AI代理的测试我在2025年学习了数十个AI代理的测试Apr 23, 2025 am 11:13 AM

人工智能的快速发展正在推动企业将AI代理集成到其运营中。 最近的IBM和晨咨询调查显示,绝大多数(99%)的企业AI开发人员正在积极探索或开发AI代理TEC

建立AI基础模型和生成性AI,以专业进行心理健康疗法建立AI基础模型和生成性AI,以专业进行心理健康疗法Apr 23, 2025 am 11:12 AM

开发能够提供专家心理健康疗法的AI是一项重要的工作。 初创企业正在积极地追求这一具有挑战性的道路,吸引了大量的风险投资。 学术研究人员正在积极探索其贫困

提示:光标的客户支持机器人构成了政策提示:光标的客户支持机器人构成了政策Apr 23, 2025 am 11:11 AM

人工智能编码软件风靡一时。一个特别受欢迎的工具是光标,它是由新生的AI初创公司Anysphere构建的,它已成为有史以来发展最快的初创公司之一。但是,即使光标也不能免于幻觉 - AI倾向于制造

NVIDIA ISAAC GR00T N1如何重新定义类人形机器人技术?NVIDIA ISAAC GR00T N1如何重新定义类人形机器人技术?Apr 23, 2025 am 11:07 AM

NVIDIA Isaac GR00T N1:引领人形机器人技术革新 NVIDIA的Isaac GR00T N1在人形机器人领域实现了飞跃式发展,它将尖端的AI技术与开源的可访问性完美结合。作为全球首个用于通用人形机器人推理的开放式基础模型,该技术使机器人能够理解语言指令、处理视觉数据并在各种环境中执行复杂的操作任务。 目录 技术架构详解 完整安装指南 综合工作流程实施 突破性的合成数据生成 部署与性能指标 企业级开发工具 入门资源 总结 技术架构详解 双系统认知框架 系统1(快速思考):

用BLEU度量评估语言模型用BLEU度量评估语言模型Apr 23, 2025 am 11:05 AM

评估语言模型:深入研究BLEU指标及其他 在人工智能领域,评估语言模型的性能提出了一个独特的挑战。与图像识别或数值预测等任务不同,EV

探索Microsoft的代理工作流动框架探索Microsoft的代理工作流动框架Apr 23, 2025 am 10:59 AM

生成AI的快速发展需要从人为驱动的提示转变为自主任务执行。 这是代理工作流程和AI代理的所在地 - 代理充当模型“大脑”的“四肢”,使IND能够

使用汇编,QDRANT和DEEPSEEK-R1构建音频抹布使用汇编,QDRANT和DEEPSEEK-R1构建音频抹布Apr 23, 2025 am 10:48 AM

本指南展示了建立一个由AI驱动的聊天机器人,该聊天机器人将录音(会议,播客,访谈)转换为交互式对话。 它利用汇编进行转录,qdrant进行有效的数据存储和DeepSeek-R1 VI

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)