搜索
首页科技周边人工智能目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

Feb 23, 2024 pm 12:49 PM
目标检测产业数据丢失yolov9

在目标检测领域,YOLOv9 在实现过程中不断进步,通过采用新架构和方法,有效提高了传统卷积的参数利用率,这使得其性能远超前代产品。

继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了!

自2015年Joseph Redmon和Ali Farhadi等人提出了第一代YOLO模型以来,目标检测领域的研究者们对其进行了多次更新和迭代。 YOLO是一种基于图像全局信息的预测系统,其模型性能不断得到增强。通过不断改进算法和技术,研究人员取得了显着的成果,使得YOLO在目标检测任务中表现出越来越强大的能力。这些不断的改进和优化为目标检测技术的发展带来了新的机遇和挑战,同时也推动了该领域的进步和创新。 YOLO的成功也激励着研究者们继续努力,

此次,YOLOv9 由中国台湾 Academia Sinica、台北科技大学等机构联合开发,相关的论文《Learning What You Want to Learn Using Programmable Gradient Information 》已经放出。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

论文地址:https://arxiv.org/pdf/2402.13616.pdf

GitHub 地址:https://github.com/WongKinYiu/yolov9

如今的深度学习方法重点关注如何设计最合适的目标函数,从而使得模型的预测结果能够最接近真实情况。同时,必须设计一个适当的架构,可以帮助获取足够的信息进行预测。然而,现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。 

因此,YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数。

研究者提出了可编程梯度信息(programmable gradient information,PGI)的概念,来应对深度网络实现多个目标所需要的各种变化。 PGI 可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权值。

此外,研究者基于梯度路径规划设计了一种新的轻量级网络架构,即通用高效层聚合网络(Generalized Efficient Layer Aggregation Network,GELAN)。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。

研究者在基于 MS COCO 数据集的目标检测任务上验证所提出的 GELAN 和 PGI。结果表明,与基于深度卷积开发的 SOTA 方法相比,GELAN 仅使用传统卷积算子即可实现更好的参数利用率。

对于 PGI 而言,它的适用性很强,可用于从轻型到大型的各种模型。我们可以用它来获取完整的信息,从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。下图 1 展示了一些比较结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

对于新发布的 YOLOv9,曾参与开发了 YOLOv7、YOLOv4、Scaled-YOLOv4 和 DPT 的 Alexey Bochkovskiy 给予了高度评价,表示 YOLOv9 优于任何基于卷积或 transformer 的目标检测器。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                                    来源:https://twitter.com/alexeyab84/status/1760685626247250342

还有网友表示,YOLOv9 看起来就是新的SOTA 实时目标检测器,他自己的自定义训练教程也在路上了。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                               来源:https://twitter.com/skalskip92/status/1760717291593834648

更有「勤劳」的网友已经为 YOLOv9 模型添加了 pip 支持。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                                 来源:https://twitter.com/kadirnar_ai/status/1760716187896283635

接下来看 YOLOv9 的详细信息。

问题陈述

通常,人们将深度神经网络收敛困难问题归因于梯度消失或梯度饱和等因素,这些现象确实存在于传统的深度神经网络中。然而,现代深度神经网络通过设计各种归一化和激活函数,已经从根本上解决了上述问题。不过即便如此,深度神经网络中仍然存在着收敛速度慢或收敛效果差的问题。那么这个问题的本质到底是什么?

研究者通过对信息瓶颈的深入分析,推断出了该问题的根本原因:梯度最初从非常深层的网络传递出来后不久,就丢失了许多达成目标所需的信息。为了验证这一推断,研究者们对具有初始权重的不同架构的深度网络进行前馈处理。图 2 对此进行了可视化说明。显然,PlainNet 在深层丢失了很多进行对象检测所需的重要信息。至于 ResNet、CSPNet 和 GELAN 能够保留的重要信息比例,确实与训练后能够获得的准确性正相关。研究者进一步设计了基于可逆网络的方法来解决上述问题的原因。

方法介绍

可编程梯度信息(PGI)

该研究提出了一种新的辅助监督框架:可编程梯度信息(Programmable Gradient Information,PGI),如图 3(d)所示。 

PGI 主要包括三个部分,即(1)主分支,(2)辅助可逆分支,(3)多级辅助信息。

  • PGI 的推理过程仅使用了主分支,因此不需要额外的推理成本;

  • 辅助可逆分支是为了处理神经网络加深带来的问题, 网络加深会造成信息瓶颈,导致损失函数无法生成可靠的梯度;

  • 多级辅助信息旨在处理深度监督带来的误差累积问题,特别是多个预测分支的架构和轻量级模型。 

GELAN 网络

此外,该研究还提出了一个新的网络架构 GELAN(如下图所示),具体而言,研究者把 CSPNet、 ELAN 这两种神经网络架构结合起来,从而设计出兼顾轻量级、推理速度和准确性的通用高效层聚合网络(generalized efficient layer aggregation network ,GELAN)。研究者将最初仅使用卷积层堆叠的 ELAN 的功能泛化到可以使用任何计算块的新架构。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

实验结果

为了评估 YOLOv9 的性能,该研究首先将 YOLOv9 与其他从头开始训练的实时目标检测器进行了全面的比较,结果如下表 1 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

该研究还将 ImageNet 预训练模型纳入比较中,结果如下图 5 所示。值得注意的是,使用传统卷积的 YOLOv9 在参数利用率上甚至比使用深度卷积的 YOLO MS 还要好。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

消融实验

为了探究 YOLOv9 中各个组件的作用,该研究进行了一系列消融实验。

该研究首先对 GELAN 的计算块进行消融实验。如下表 2 所示,该研究发现用不同的计算块替换 ELAN 中的卷积层后,系统可以保持良好的性能。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

然后该研究又在不同尺寸的 GELAN 上针对 ELAN 块深度和 CSP 块深度进行了消融实验,结果如下表 3 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

在 PGI 方面,研究者分别在主干网络和 neck 上对辅助可逆分支和多级辅助信息进行了消融研究。表 4 列出了所有实验的结果。从表 4 中可以看出,PFH 只对深度模型有效,而本文提出的 PGI 在不同组合下都能提高精度。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

研究者进一步在不同大小的模型上实现了 PGI 和深度监控,并对结果进行了比较,结果如表 5 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

图 6 显示了从基准 YOLOv7 到 YOLOv9- E 逐步增加组件的结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

可视化

研究者探讨了信息瓶颈问题,并将其进行了可视化处理,图 6 显示了在不同架构下使用随机初始权重作为前馈获得的特征图的可视化结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

图 7 说明了 PGI 能否在训练过程中提供更可靠的梯度,从而使用于更新的参数能够有效捕捉输入数据与目标之间的关系。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

更多技术细节,请阅读原文。

以上是目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
5强大的AI提示可以提高任何业务想法5强大的AI提示可以提高任何业务想法Apr 16, 2025 am 11:11 AM

幸运的是,这是一个生成AI的领域,可以非常有帮助。不,它不会带来万无一失的策略。但这可以帮助您集思广益,研究市场以及微调营销内容和消息传递。 不是

Smart研究生:AI时代的职业建议Smart研究生:AI时代的职业建议Apr 16, 2025 am 11:10 AM

只有今年只有不同。不确定。 关税战争正在进行中,这不仅仅是事实。 AI是最近抓挠和灵魂搜索的根本原因。国家青年慈善机构最近对

有效的加速主义或亲社会AI。 AI的未来是什么?有效的加速主义或亲社会AI。 AI的未来是什么?Apr 16, 2025 am 11:09 AM

加速主义者的愿景:全速前进 有效的加速主义,即短期内被称为E/ACC,在2022年左右出现,是一种技术优越的运动,在硅谷及其他地区获得了巨大的牵引

Excel中的相对,绝对和混合参考是什么?Excel中的相对,绝对和混合参考是什么?Apr 16, 2025 am 11:03 AM

介绍 我最初的电子表格经历令人沮丧,因为复制时公式的行为不可预测。 那时我不了解细胞引用,但是掌握亲戚,绝对和混合的参考文献彻底改变了我的广播。

Word2Vec的智能主题电子邮件线生成Word2Vec的智能主题电子邮件线生成Apr 16, 2025 am 11:01 AM

本文演示了如何使用Word2Vec嵌入生成有效的电子邮件主题行。 它可以指导您建立一个利用语义相似性来创建上下文相关主题行,改善电子邮件营销的系统

数据分析师的未来数据分析师的未来Apr 16, 2025 am 11:00 AM

数据分析:导航不断发展的景观 想象一个世界,数据不仅是数字,而且是每个管理决定的基石。 在这个动态的环境中,数据分析师是必不可少的,将原始数据转换为可操作的

Excel中的Sumproduct函数是什么? - 分析VidhyaExcel中的Sumproduct函数是什么? - 分析VidhyaApr 16, 2025 am 10:55 AM

Excel的Sumproduct函数:数据分析强大 解锁Excel Sumpropoduct函数的功能,以用于简化数据分析。这种多功能功能毫不费力地结合了求和功能,扩展到添加,减去

什么是数据擦洗?什么是数据擦洗?Apr 16, 2025 am 10:53 AM

数据清洁:确保数据的准确性和可靠性 想象一下,计划一个大型家庭聚会,其中有不正确的客人名单 - 重复联系人,重复,拼写错误的名字。 准备不足的清单可能会破坏活动。 相似地

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),