在计算机视觉领域,YOLO 系列一直是备受瞩目的存在。日前,在伦敦举行的年度混合活动 YOLO Vision 2025(YV25)上,Ultralytics 创始人兼 CEO Glenn Jocher 正式发布了 Ultralytics YOLO 系列模型的最新成果 ——Ultralytics YOLO26。
YOLO26 的核心特点
- 架构精简与创新
- DFL 移除:YOLO26 完全取消了分布焦距损耗(DFL)模块。该模块在以往的模型中虽有一定作用,但会使导出过程复杂化,还限制了硬件兼容性。移除 DFL 后,YOLO26 简化了推理过程,扩大了对边缘和低功耗设备的支持范围,无论图像中物体大小如何,都能更高效地精准绘制边界框。
- 端到端无 NMS 推断:与传统检测器不同,YOLO26 是原生的端到端模型,无需非最大抑制(NMS)这一后处理步骤即可直接生成预测结果。这一突破性方法由清华大学的王敖在 YOLOv10 中首创,并在 YOLO26 中得到进一步发展。端到端设计省去了管道的整个阶段,大大减少了延迟,降低了复杂度,使模型能更快地输出结果,让集成到生产系统的过程变得更快、更轻便、更可靠,在实际应用中的部署也更加稳健。
- ProgLoss + STAL:YOLO26 采用了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)技术。ProgLoss 有助于稳定训练过程并提升准确率,STAL 则确保模型能更有效地检测小物体,在复杂场景中的小目标检测方面表现更为优异,满足了物联网、机器人、航空图像等对小目标识别有较高要求的应用场景需求。
- MuSGD 优化器:引入了 MuSGD 优化器,它是 SGD 和 Muon 的混合体,灵感来自 Moonshot AI 在 LLM 训练中取得的 Kimi K2 突破。该优化器结合了 Muon 与 SGD 的优势,具有更高的稳定性和更快的收敛速度,将语言模型中的优化技术成功应用到了计算机视觉领域,加快了学习速度并提升了模型精度。
- 硬件性能优化:YOLO26 专门针对边缘计算进行了优化,其最小版本 ——nano 模型在标准 CPU 上的运行速度提高了 43%,大大加快了 CPU 推理速度,确保在没有 GPU 的设备上也能实现实时性能,非常适合移动应用、智能摄像头和其他对速度和效率要求极高的边缘设备。
- 多任务支持:YOLO26 是一个多任务模型系列,支持多种计算机视觉任务,包括目标检测、实例分割、图像分类、姿态估计、旋转边界框检测和目标追踪等。它提供了五种不同的模型版本,分别是 YOLO26n、YOLO26s、YOLO26m、YOLO26l 和 YOLO26x,用户可以根据具体应用场景和需求灵活选择,无论选择哪种规模的模型,都能获得稳定而强大的全方位功能支持。
YOLO26 的性能指标
在 COCO 数据集上的检测任务中,YOLO26 展示了出色的性能:
模型 | 尺寸 (像素) | mAPval50 – 95(e2e) | mAPval50 – 95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs(B) |
---|---|---|---|---|---|---|---|
YOLO26n | 640 | 39.8 | 40.3 | 38.90 ± 0.7 | 1.7 ± 0.0 | 2.4 | 5.4 |
YOLO26s | 640 | 47.2 | 47.6 | 87.16 ± 0.9 | 2.7 ± 0.0 | 9.5 | 20.7 |
YOLO26m | 640 | 51.5 | 51.7 | 220.0 ± 1.4 | 4.9 ± 0.1 | 20.4 | 68.2 |
YOLO26l | 640 | 53.0* | 53.4* | 286.17 ± 2.0* | 6.5 ± 0.2* | 24.8 | 86.4 |
YOLO26 的应用领域
- 机器人领域:可帮助机器人实时理解周围环境,使机器人在导航过程中能够更精准地识别障碍物和路径,实现更顺畅的移动;在物体抓取任务中,能更准确地定位物体,提高抓取的成功率和精准度,还能实现更安全的人机协作,保障人员和设备的安全。
- 制造业:在生产线上,YOLO26 可用于缺陷检测,能够快速、准确地识别产品表面的划痕、裂纹、孔洞等瑕疵,比人工检测效率更高、准确率更高,有助于及时发现问题并进行质量控制,提高产品质量和生产效率。
- 智能安防:在监控视频分析中,能够实时检测和追踪人员、车辆等目标,实现异常行为检测、入侵报警等功能,为安防系统提供更强大的技术支持,保障公共场所和企业的安全。
- 自动驾驶:可以对道路上的车辆、行人、交通标志和信号灯等进行快速检测和识别,为自动驾驶汽车提供准确的环境感知信息,辅助车辆做出决策,提高自动驾驶的安全性和可靠性。
- 航空航天:在航拍和卫星图像分析中,能够检测任意角度的物体,对建筑物、车辆、农作物等进行识别和分析,为城市规划、农业监测、资源勘探等提供有力的数据支持。
YOLO26 的部署优势
- 广泛的兼容性:Ultralytics Python 包支持多种导出格式,如 TensorRT 可最大化 GPU 加速性能、ONNX 具有广泛兼容性、CoreML 适用于 iOS 原生应用、TFLite 适用于 Android 和边缘设备、OpenVINO 可在英特尔硬件上优化性能。这使得 YOLO26 能轻松集成到现有工作流中,兼容几乎所有平台,从开发到生产的过渡更加顺畅。
- 量化技术支持:YOLO26 在量化方面表现出色,支持 INT8 部署,通过 8 位压缩减小了模型体积并提升了速度,且仅损失极少精度;同时支持半精度(FP16)推理,在支持的硬件上能够实现更快的推理,在不同硬件环境下都能保持一致的性能表现,无论是在强大的服务器还是紧凑的边缘设备上都能可靠运行。
YOLO26 的出现为计算机视觉领域带来了新的技术突破和应用可能性,其在速度、准确性和部署便捷性之间的完美平衡,使其在多个领域都具有广阔的应用前景。随着技术的不断发展和完善,相信 YOLO26 将为推动计算机视觉技术的进步和行业的发展发挥重要作用。