清华团队发布YOLOE:新一代开放场景物体实时检测与分割模型

清华大学团队发布YOLOE,一款支持文本、视觉、无提示的开放场景物体实时检测与分割模型,让AI真正“看见一切”。

原文标题:在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割

原文作者:数据派THU

冷月清谈:

清华大学团队在YOLO基础上,推出了开放物体探测与分割模型YOLOE。该模型支持文本提示、视觉提示和无提示三种模式,具备强大的多模态能力,既能理解语言指令,也能解析图像,甚至可以自主发现新事物,从而实现对开放场景的实时、全面感知。YOLOE是对传统YOLO系列模型的突破,使其不再局限于预定义的目标类别,大大提升了在实际应用中的灵活性和适应性。目前,HyperAI超神经官网已提供YOLOE的一键部署教程,方便用户快速体验。

怜星夜思:

1、YOLOE模型支持文本、视觉和无提示三种方式进行物体检测,你觉得哪种方式在实际应用中最有潜力?为什么?
2、YOLOE模型在实时性方面表现出色,但在哪些场景下,对实时性的要求会更高?这种高实时性会带来哪些挑战?
3、YOLOE模型在开放场景下的物体检测能力很强,你觉得它在哪些行业或领域有最大的应用前景?会给这些行业带来哪些变革?

原文内容

本文约1000字,建议阅读5分钟
清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE。



清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。


YOLO (You Only Look Once) 自 2015 年首次发布以来,已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术,在 10 年间已经更新了十余个版本,凭借高精度且高帧率图像的实时处理,广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。


然而,传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测,但其依赖于预定义的目标类别,在实际的开放场景中缺乏灵活性。


针对这一问题,清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景,这一多模态能力使其既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。


目前 HyperAI超神经官网的教程板块已经上线了「YOLOE:实时看见一切」的一键部署教程,感兴趣的小伙伴快来体验吧!


教程链接:
https://go.hyper.ai/U2PXt


Demo 运行


1.登录 hyper.ai,在「教程」页面,选择「YOLOE:实时看见一切」,点击「在线运行此教程」。



2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。



3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!


HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://go.openbayes.com/9S6Dr



4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。




效果展示


首先是文本提示检测,YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」,检测结果如右图所示,清晰识别出图中的老虎、观光巴士和游客。可以看到,即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。



其次是视觉提示,通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后,即可精准识别同类检测对象,效果如下图所示:



最后是全自动无提示检测,能够自动识别场景对象,如下图所示:



以上就是本期为大家推荐的教程,快来上手亲自体验吧!


教程链接:
https://go.hyper.ai/U2PXt

编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

从学术角度来看,我觉得无提示检测更有潜力,虽然目前还不太成熟。因为它代表了AI自主学习和理解世界的方向,如果能提高准确率和效率,就能应用在更广泛的领域,比如自动驾驶、智能监控等,真正实现AI的智能化。

我认为在军事和安防领域,对实时性的要求是最高的。比如,需要快速识别和跟踪潜在威胁,以便及时采取行动。这种高实时性带来的挑战包括计算资源的限制、算法的优化以及数据传输的延迟等等。

高实时性带来的挑战是多方面的。除了算力、算法,还有功耗问题。在嵌入式设备或移动设备上部署高性能的实时检测模型,如何在保证实时性的同时,降低功耗,是个很大的挑战。另外,数据传输也是个瓶颈,尤其是在无线环境下。

个人觉得在医疗影像分析方面潜力巨大。传统的医疗影像分析需要医生手动标注,效率很低。YOLOE 可以辅助医生快速识别病灶、肿瘤等,提高诊断效率和准确性,减轻医生的工作负担。

个人认为视觉提示更胜一筹。很多时候,我们可能不清楚目标的准确名称,或者目标名称存在歧义。视觉提示可以通过框选、涂鸦等方式,直接告诉模型我们关注的目标,从而避免了语言描述上的偏差,尤其适用于专业领域或特定场景。

我觉得在智慧城市领域应用前景很大。摄像头遍布城市各个角落,YOLOE可以用来做智能交通管理、异常事件检测、人群密度分析等等,提高城市管理效率和安全性。

我觉得文本提示最有潜力。在实际应用中,我们经常需要根据具体需求来检测特定物体,文本提示可以直接告诉模型我们要找什么,非常灵活方便。视觉提示虽然也很直观,但在复杂场景下可能不太好操作。无提示检测虽然很智能,但可能会有很多误判。

实时性要求高的场景太多了,比如自动驾驶,稍微延迟一点可能就是车毁人亡的事故。还有工业自动化,需要机械臂快速准确地识别和抓取物体,延迟也会影响生产效率和安全性。

在农业领域也有很大的应用空间。比如,可以用无人机搭载YOLOE模型,进行作物病虫害监测、产量预测等,实现精准农业管理,提高农业生产效率和质量。甚至可以用在水产养殖上,监测鱼虾的生长情况和水质状况。