YOLOv10重磅登场:大幅提升性能,引领目标检测新高度

原文标题:清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜

原文作者:机器之心

冷月清谈:

* YOLOv10由清华大学研究人员接手,在性能和推理延迟方面取得突破,再次成为目标检测领域的标杆。 * 研究团队提出了无NMS训练的一致双重分配策略,有效降低了计算开销并增强了模型能力。 * YOLOv10采用了轻量级分类head、空间通道解耦下采样和排序指导的模块设计等方法,提高了模型效率和准确率。 * 在COCO数据集上,YOLOv10-S在相似AP下比RT-DETR-R18快1.8倍,同时参数数量和FLOP大幅减少。 * YOLOv10-B在性能相同的情况下,比YOLOv9-C延迟减少了46%,参数减少了25%。 * YOLOv10实现了一系列不同规模的实时端到端检测器,从YOLOv10-N到YOLOv10-X,满足不同应用场景的需求。

怜星夜思:

1、**对于YOLOv10在不同应用场景中的性能表现,你有什么看法?**
2、**YOLOv10的推出对目标检测领域有哪些潜在的影响?**
3、**对于YOLOv10的未来发展,你有什么期待?**

原文内容

机器之心报道
机器之心编辑部

相同性能情况下,延迟减少 46%,参数减少 25%。

目标检测系统的标杆 YOLO 系列,再次获得了重磅升级。



自之后, YOLO(You Only Look Once)系列的接力棒传到了清华大学研究人员的手上。


上周末,YOLOv10 推出的消息引发了 AI 界的关注。它被认为是计算机视觉领域的突破性框架,以实时的端到端目标检测能力而闻名,通过提供结合效率和准确性的强大解决方案,延续了 YOLO 系列的传统。



论文地址:https://arxiv.org/pdf/2405.14458

项目地址:https://github.com/THU-MIG/yolov10


新版本发布之后,很多人已经进行了部署测试,效果不错:


图片


图片


YOLO 因为性能强大、消耗算力较少,一直以来都是实时目标检测领域的主要范式。该框架被广泛用于各种实际应用,包括自动驾驶、监控和物流。其高效、准确的物体检测能力使其成为实时识别行人和车辆等任务的理想选择;在物流方面,它有助于库存管理和包裹跟踪,通过 AI 能力帮助人们在很多工作上提高了效率。


几年来,研究人员对 YOLO 的架构设计、优化目标、数据增强策略等进行了探索,取得了显著进展。然而,后处理对非极大值抑制(NMS)的依赖阻碍了 YOLO 的端到端部署,并对推理延迟产生不利影响。此外,YOLO 中各个组件的设计缺乏全面彻底的检查,导致明显的计算冗余并限制了模型的能力。


YOLOv10 的突破就在于从后处理和模型架构方面进一步提升了 YOLO 的性能 - 效率边界。


为此,研究团队首次提出了 YOLO 无 NMS 训练的一致双重分配(consistent dual assignment),这使得 YOLO 在性能和推理延迟方面有所改进。


研究团队为 YOLO 提出了整体效率 - 准确率驱动的模型设计策略,从效率和准确率两个角度全面优化 YOLO 的各个组件,大大降低了计算开销并增强了模型能力。


大量实验表明,YOLOv10 在各种模型规模上都实现了 SOTA 性能和效率。例如,YOLOv10-S 在 COCO 上的类似 AP 下比 RT-DETR-R18 快 1.8 倍,同时参数数量和 FLOP 大幅减少。与 YOLOv9-C 相比,在性能相同的情况下,YOLOv10-B 的延迟减少了 46%,参数减少了 25%。



方法介绍


为了实现整体效率 - 准确率驱动的模型设计,研究团队从效率、准确率两方面分别提出改进方法。


为了提高效率,该研究提出了轻量级分类 head、空间通道(spatial-channel)解耦下采样和排序指导的块设计,以减少明显的计算冗余并实现更高效的架构。


为了提高准确率,研究团队探索了大核卷积并提出了有效的部分自注意力(partial self-attention,PSA)模块来增强模型能力,在低成本下挖掘性能改进的潜力。基于这些方法,该团队成功实现了一系列不同规模的实时端到端检测器,即 YOLOv10-N / S / M / B / L / X。


用于无 NMS 训练的一致双重分配


在训练期间,YOLO 通常利用 TAL 为每个实例分配多个正样本。一对多的分配方式产生了丰富的监督信号,促进了优化并使模型实现了卓越的性能。


然而,这需要 YOLO 依赖于 NMS 后处理,这导致了部署时次优的推理效率。虽然之前的研究工作探索了一对一匹配来抑制冗余预测,但它们通常引入了额外的推理开销。


与一对多分配不同,一对一匹配对每个 ground truth 仅分配一个预测,避免 NMS 后处理。然而,这会导致弱监督,以至于准确率和收敛速度不理想。幸运的是,这种缺陷可以通过一对多分配来弥补。


该研究提出的「双标签分配」结合了上述两种策略的优点。如下图所示,该研究为 YOLO 引入了另一个一对一 head。它保留了与原始一对多分支相同的结构并采用相同的优化目标,但利用一对一匹配来获取标签分配。在训练过程中,两个 head 联合优化,以提供丰富的监督;在推理过程中,YOLOv10 会丢弃一对多 head 并利用一对一 head 做出预测。这使得 YOLO 能够进行端到端部署,而不会产生任何额外的推理成本。



整体效率 - 准确率驱动的模型设计 


除了后处理之外,YOLO 的模型架构也对效率 - 准确率权衡提出了巨大挑战。尽管之前的研究工作探索了各种设计策略,但仍然缺乏对 YOLO 中各种组件的全面检查。因此,模型架构表现出不可忽视的计算冗余和能力受限。


YOLO 中的组件包括 stem、下采样层、带有基本构建块的阶段和 head。作者主要对以下三个部分执行效率驱动的模型设计。


  1. 轻量级分类 head

  2. 空间通道解耦下采样

  3. 排序指导的模块设计



为了实现准确率驱动的模型设计,研究团队进一步探索了大核卷积和自注意力机制,旨在以最小的成本提升模型性能。


实验


如表 1 所示,清华团队所开发的的 YOLOv10 在各种模型规模上实现了 SOTA 的性能和端到端延迟。



该研究还针对 YOLOv10-S 和 YOLOv10-M 进行了消融实验,实验结果如下表所示:



如下表所示,双标签分配实现了最佳的 AP - 延迟权衡,采用一致匹配度量可以达到最优性能。





如下表所示,每个设计组件,包括轻量级分类 head、空间通道解耦下采样和排序指导的模块设计,都有助于减少参数数量、FLOPs 和延迟。重要的是,这些改进是在保持卓越性能的同时所实现的。





针对准确性驱动的模型设计的分析。研究人员展示了基于 YOLOv10-S/M 逐步集成准确性驱动设计元素的结果。


如表 10 所示,采用大核卷积和 PSA 模块分别在延迟最小增加 0.03ms 和 0.15ms 的情况下,使 YOLOv10-S 的性能有了 0.4% AP 和 1.4% AP 的显著提升。



参考内容:

https://visionplatform.ai/yolov10-object-detection/

https://www.youtube.com/watch?v=29tnSxhB3CY



为了挖掘和展示人工智能领域具有市场竞争力、技术实力的机构、产品、案例,形成 “鸿雁” 引领效应,机器之心发起 2024 “人工智能 +” 标杆示范征集活动。本次征集将设置《2024 “人工智能 +” 产品标杆》、《2024 “人工智能 +” 创新案例标杆》、《2024 人工智能隐形冠军企业标杆》三大维度,面向全球征集 “人工智能 +” 标杆示范。本次征集结果将于 7 月在 2024 WAIC “人工智能 +” 论坛上公布并进行颁奖。本次征集截至 2024 年 6 月 7 日,最终结果将于 7 月在世界人工智能大会上公布并颁奖。

扫码或点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

YOLOv10 的推出对目标检测领域的影响是多方面的:

1、YOLOv10 进一步夯实了 YOLO 系列在目标检测领域的领先地位,其出色的性能和效率将吸引更多研究人员和开发者投入到 YOLO 研究中,推动 YOLO 算法的持续演进和创新。

2、YOLOv10 的无 NMS 后处理策略为目标检测算法设计提供了新的思路,有望突破传统 NMS 后处理的瓶颈,进一步提升目标检测模型的推理速度和准确率。

3、YOLOv10 的开源发布将加速目标检测技术在实际应用中的落地,为开发者和企业提供高效、易用的目标检测工具,助力各种人工智能应用的快速开发和部署。

4、YOLOv10 的出现也将刺激其他目标检测算法的研发,推动目标检测领域百花齐放,为人工智能技术的发展注入新的活力。

YOLOv10的推出对目标检测领域可能带来以下几方面的潜在影响:

  1. 进一步提升目标检测的准确率和速度:YOLOv10在性能和效率上都取得了突破,这将推动目标检测技术进一步向实用化发展,在安防监控、自动驾驶等领域发挥更大的作用。

  2. 促进目标检测算法的创新:YOLOv10的无NMS后处理策略为目标检测算法的创新提供了新的思路,相信未来会有更多研究人员探索NMS后处理的替代方案,推动算法的进步。

  3. 扩大目标检测的应用范围:YOLOv10的高效性和准确性将使其能够应用到更多领域。例如,在工业质检、医疗影像分析等领域,YOLOv10可以帮助提高检测效率和准确性。

YOLOv10的推出,必将对目标检测领域产生深远的影响。随着人工智能技术的发展,目标检测在各行各业的应用会越来越广泛。YOLOv10的出现,无疑为开发者提供了更加高效、准确的工具。期待在未来,YOLOv10能在更多领域大放异彩。我个人非常看好YOLOv10在智能安防、智能交通、工业质检等领域的应用前景。

YOLOv10的无NMS后处理策略是一个亮点,它能有效减少推理延迟,在需要实时性要求高的应用场景中,如安防监控、自动驾驶等,YOLOv10的优势会更加明显。不过,需要注意的是,由于去掉了NMS,可能会对模型的准确率造成一定影响,在一些对准确率要求较高的任务中,可能需要进行权衡。

YOLOv10在各种模型规模上都取得了良好的性能和效率,因此我认为它在不同应用场景中都能有不错的表现。具体来看,YOLOv10-S适用于需要低推理延迟的场景,如移动端目标检测;YOLOv10-M在延迟和准确率之间取得较好的平衡,适用于一般的目标检测任务;YOLOv10-L和YOLOv10-X则适用于需要更高精度和实时性的任务,如自动驾驶和视频监控。

基于YOLOv10,还可以做哪些应用层面的创新?比如,利用其无NMS的特性,可以探索一些新的后处理算法,进一步挖掘YOLOv10的潜力。此外,结合其他CV技术,如图像分割、姿态估计等,可以开发出更加强大的多模态AI模型。期待研究人员和开发者们的脑洞大开!

YOLOv10是一款出色的目标检测框架,它的未来发展潜力巨大。我希望在以下几个方面能够看到YOLOv10的进步:

  1. 进一步提高准确率:期待YOLOv10在保持高效的同时,进一步提升准确率,在更多复杂场景下都能取得良好的检测效果。

  2. 探索更多应用场景:希望YOLOv10能够拓展到更多应用场景,例如视频目标检测、人脸检测等,成为一个通用的目标检测框架。

  3. 提供更友好的开发接口:期待YOLOv10能够提供更友好的开发接口,降低使用门槛,让更多开发者能够轻松上手。

YOLOv10作为一款开源框架,为研究人员和开发者提供了极大的便利。相信在社区的共同努力下,YOLOv10将不断完善和进化,为目标检测领域的发展做出更多的贡献。同时也希望YOLOv10能够启发更多开发者,共同推动AI技术的发展。

对 YOLOv10 未来发展,本人有以下期待:

  1. 模型压缩和优化:期待 YOLOv10 能够继续在模型压缩和优化方面取得突破,进一步降低模型大小和计算资源消耗,使其能够部署在更多资源受限的设备上。

  2. 多模态融合:希望 YOLOv10 能够与其他模态(如点云、文本)的数据和算法进行融合,实现多模态目标检测,满足更复杂、更全面的应用场景。

  3. 算法泛化性提升:期待 YOLOv10 能够提升算法的泛化性,使其能够适应不同数据集、不同场景和光照条件的变化,提高模型的鲁棒性和实用性。

  4. 部署工具和生态完善:希望 YOLOv10 能够提供更完善的部署工具和生态,方便开发者将模型部署到实际应用中,降低部署难度。

对于YOLOv10的未来发展,我充满期待,希望在以下几个方面有所突破:

1、探索变压器架构的整合:将变压器架构与 YOLOv10 结合,充分发挥两者的优势,进一步提升模型的性能。

2、增强对小目标和遮挡目标的检测能力:针对小目标和遮挡目标检测的难点,进行针对性的算法改进,提升 YOLOv10 在复杂场景中的检测效果。

3、轻量化和嵌入式部署优化:针对嵌入式设备和移动端等资源受限场景,对 YOLOv10 进行轻量化和优化,使其能够部署在更多应用中。

4、探索自适应学习和持续训练策略:引入自适应学习和持续训练机制,使 YOLOv10 能够根据实际应用场景和数据变化进行持续学习和优化。

5、多任务学习和知识蒸馏:通过多任务学习和知识蒸馏技术,提升 YOLOv10 的泛化能力和鲁棒性,使其能够同时执行多种目标检测任务。期待 YOLOv10 在未来持续创新,引领目标检测领域的发展。

个人认为 YOLOv10 的推出对目标检测领域有以下几个潜在影响:

  • 推动目标检测算法的进一步发展,尤其是无 NMS 后处理策略的研究和应用;

  • 加速目标检测技术在安防、自动驾驶、医疗等实际领域的落地,提升相关应用的效率和准确性;

  • 培养更多目标检测领域的人才,吸引研究人员和开发者关注 YOLO 算法,推动该领域的知识积累和技术进步;

  • 提升我国在目标检测领域的核心竞争力,为我国人工智能产业发展注入新动力。