news 2026/4/16 21:28:57

大模型时代,为什么工业界还在疯狂用 YOLO?算完这笔账,我沉默了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型时代,为什么工业界还在疯狂用 YOLO?算完这笔账,我沉默了
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

如果你最近关注了 GitHub,可能会注意到一个有趣的现象:

YOLO 的版本号,直接从 11 跳到了 26。

起初我以为是分支管理出了 bug,但看完技术报告,我收回这个想法, 确实是有意为之的宣告。YOLO26 的“26”,代表着与 2026 年同步,这么大的版本号跨越,也必然代表这是一次重大升级。

官方给这次升级的定位是——

标志着计算机视觉模型在真实世界系统中的训练方式、部署方式以及规模化路径发生了根本性的转变。

用 Ultralytics 创始人 Glenn Jocher 在 YOLO Vision 2025 大会上的话说:

“我们希望 AI 不再只停留在云端,而是下沉到边缘设备、你的手机、车辆以及低功耗系统中。”

YOLO26 正是这一愿景的技术实现:生产级、以边缘端为核心的计算机视觉新标准

在大模型时代,为什么还要关注 YOLO?

在所有人都在追逐 GPT、Claude 的时代,为什么还要关注一个目标检测模型?

这两年 CV 圈确实被大模型抢尽风头,GPT-4V 能看图写代码,Gemini 能一口气吞下几小时视频,SAM 号称分割一切,很多人以为传统 CV 任务已经过时。

但现实世界里:

  • 你打开购物 App 拍照搜同款,后台跑的是 YOLO;

  • 你走进商场被统计客流,天花板上的摄像头跑的是 YOLO;

  • 工厂流水线每秒飞过 10 个零件,负责揪出次品的,还是 YOLO。

原因也很简单,算一笔账你就懂了。

假设用大模型做流水线质检,调用一次 API 耗时 0.1 秒、成本 1 美分。一条产线每秒过 10 个件、一天跑 8 小时:

推理费用就是:10×3600×8×0.01=2880 美元/天 10×3600×8×0.01=2880 美元/天

折合人民币两万。请问哪个老板顶得住?

而 YOLO26 呢?

  • 跑在一块几百块的边缘计算板上

  • 推理延迟 6ms(比人眨眼还快)

  • 单次成本约等于零

这就是大模型与 YOLO 的根本差异。

大模型解决的是“能力上限"——它能理解复杂语义,告诉你:这张图里有一只忧郁的橘猫坐在复古天鹅绒沙发上。
YOLO 解决的是“工程下限”——在最苛刻的条件下,用最快的速度、最低的成本,把活儿干完。

这也是为什么 Ultralytics YOLO 能拿下12.3 万 GitHub Stars2.08 亿 + Python 包下载量日使用量接近 25 亿次的原因——它解决的是真实世界里“省钱、高效、能落地”的问题。

YOLO26 的架构革新

那这次的 YOLOv26 有什么新东西?

说实话,看完文档我挺惊讶,基本上做了一次“断舍离”式的架构重构。

第一,移除 NMS,实现端到端推理。

咱们搞算法的都知道,以前的模型( 比如 YOLOv8/11)在“看”图时,会生成成千上万个重叠的候选框,然后用非极大值抑制(NMS)过滤掉多余的框。

这个过程就像是高速公路的收费站:无论你的模型推理速度有多快,到了收费站(NMS 后处理)都得排队缴费,整体速度立马就下来了。

YOLO26 直接拆掉了这个收费站。

它采用了全新的端到端无 NMS 架构,模型输出的就是最终结果,不再需要复杂的后处理。这一改变带来的效果是立竿见影的:

  • 推理速度更快:没有 NMS 的延迟损耗

  • 部署更简单:不需要在不同硬件上适配 NMS 实现

  • 结果更稳定:避免了 NMS 阈值调参带来的不确定性

第二,移除 DFL,解除隐形围栏。

以前的 YOLO 喜欢用 分布焦点损失(DFL) 来提升精度。但 DFL 像一道隐形围栏,限制了边界框的回归范围。 这就导致模型在检测 超大目标(比如贴着摄像头的大卡车)时,经常“束手束脚”,框画不全。

YOLO26 移除 DFL 后:

  • 大目标检测更准,稳定性和准确性大幅提升;

  • 模型结构变得更"纯粹"—导出成 ONNX 或 TensorRT 部署到边缘设备时,兼容性更好,玄学 Bug 更少。

  • 边缘部署更友好,在嵌入式设备上运行更稳定。

听到这儿,有同学可能要问了:

"博主,去掉了 DFL,那小目标检测会不会变差啊?"

别急,Ultralytics 显然想到了这点。他们设计了 STAL(Small Target Alignment Loss):专门增强模型对小目标和远距离目标的感知能力。

在航拍无人机找地面行人、工业相机检测微小裂痕这类场景下,STAL 的加持让 YOLO26 比前辈们稳得多。

最后,还有一个新玩意值得一提—MuSGD 优化器。

它融合了传统 SGD 的稳定性和大模型训练的一些优化思路,能让模型收敛得更快、更稳,尤其在处理复杂数据集时,调参的头疼程度会下降不少。

第三,拆掉云端依赖,CPU 性能暴涨 43%。

传统观念里,深度学习模型吃 GPU。但 YOLO26 专为边缘计算优化,实现了一个惊人的数据:CPU 推理速度提升高达 43%

这意味着什么?

  • 不需要昂贵的 GPU 服务器,普通 CPU 就能跑实时检测;

  • 摄像头、机器人、嵌入式设备可以直接在本地完成推理;

  • 基础设施成本大幅降低。

YOLO26 还做了一系列对特定任务的优化。

  • 在实例分割上,它引入语义分割损失与升级版原型模块,像开了“微距模式”一样,让复杂场景下的掩码边缘告别锯齿;

  • 姿态估计则集成了 RLE 技术,让模型学会了在遮挡下衡量“不确定性”,拒绝盲猜坐标;

  • 针对最让人头疼的旋转框检测,新增的角度损失函数彻底治愈了方形物体方向预测的“抖动症”。

性能实测

YOLO26 继续沿用了 n(Nano)、s(Small)、m(Medium)、l(Large)、x(Extra Large)五种尺寸的家族设计,能够支持根据部署的客观条件来完成多种任务。

与 YOLO11 相比,YOLO26 的 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升,成为目前边缘端和基于 CPU 部署场景中速度与精度兼顾的领先目标检测模型之一。

更重要的是,这些性能提升不需要硬件升级——YOLO26 可以在现有硬件上高效运行,包括 CPU、边缘加速器以及各类嵌入式设备。

YOLO26 如何使用?

我也第一时间上手盘了一下,体验非常丝滑。目前有两种主流玩法:

方式一:Ultralytics 云平台(适合生产部署)

官方提供了一站式平台,把训练、微调、导出、部署全包圆了。

传送门:https://bit.ly/3LIom24

(Ps:也可以点击阅读原文)

在平台上可以:

  • 获取 YOLO26 预训练模型

  • 在自定义数据集上训练和微调

  • 导出模型用于边缘部署和生产部署

  • 在统一工作流程中监控实验进度和已部署模型

我试着传了一个“玩具数据集”上去,点击训练。好家伙,不到 20 秒就跑完了!

而且训练过程中的 loss 曲线、各项指标看得清清楚楚。 对于不想折腾环境、或者需要团队协作的朋友:

ps:现在好像有活动,只要注册就给 5 美刀用于训练,反正我测的时候没花钱。

方式二:本地开源部署

YOLO26 完全开源,可以通过 Ultralytics Python 包使用,老规矩,pip 一把梭:

pip install ultralytics from ultralytics import YOLO model = YOLO("yolo26n.pt") # 自动下载预训练权重_ results = model("bus.jpg") # 一行推理_

教程传送门: https://docs.ultralytics.com/models/yolo26/

如果你想训练自己的模型,也就是几行代码的事。

训练:

from ultralytics import YOLO # Load a model model = YOLO("yolo26n.pt") # load a pretrained model (recommended for training) # Train the model results = model.train(data="african-wildlife.yaml", epochs=100, imgsz=640)

推理:

model = YOLO("yolo26n.pt") results = model.train( data="coco.yaml", # 数据集配置文件 epochs=100, # 训练轮次 imgsz=640, # 图像大小 batch=16 # 批次大小 ) # 训练 YOLO26 分割模型 model = YOLO("yolo26n-seg.pt") results = model.train( data="coco.yaml", # 数据集配置文件 epochs=100, # 训练轮次 imgsz=640, # 图像大小 batch=16 # 批次大小 )

训练起来非常流畅!

哪怕是不太懂 CV 的新手,也能在几分钟内跑通一个自己的目标检测模型。而且 YOLO26n 这种 Nano 级别的模型,在笔记本 CPU 上跑起来简直飞快。

总之,云端有全家桶,本地有自由度,丰俭由人。

最后必须友情提醒一下家人们,Ultralytics 提供了两种授权方案,大家对号入座,别踩坑:

  1. AGPL-3.0 开源许可证

  • 适合学生、研究员、独立开发者(为爱发电)。

  • 免费用,但它是“传染性”协议。如果你的项目基于它开发并对外发布,你的代码也必须开源。

  • 企业级商业许可证

    • 想把 YOLO 塞进产品里卖钱的公司。

    • 不用开源你的代码,安心闭源部署,合规赚钱。

    结语

    这两年大模型太火了,火到很多人忘了一个基本事实——99% 的 AI 应用场景,根本用不起大模型。

    一个工厂的质检摄像头,不需要理解莎士比亚;一台送餐机器人,不需要和你聊人生哲学。它们只需要又快又准地完成一件事:看懂眼前这一帧画面,然后做出反应。

    这就是 YOLO 系列存在的意义,不是所有 AI 都要追求"大而全",有时候"小而美"才是真正的生产力。

    作为一名 AI 科技的观察者,我其实很看好一种未来的“师生模型”范式:

    比如,我们用云端那个牛逼但昂贵的 GPT 去自动标注海量数据,教出轻量级、反应快的 YOLO26,然后把学生派到世界各地的摄像头里去干活。

    云端有智慧,边缘有速度。

    家人们,你们怎么看 ~ 欢迎评论区和我们一起讨论!

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:人工智能0基础学习攻略手册

    在「小白学视觉」公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:34:28

行业第一!百度智能云领跑能源GenAI市场

近期权威调研机构Omdia发布的《2025年上半年中国能源领域GenAI市场格局》报告中,百度智能云成为最受能源企业青睐的GenAI服务商,市场渗透率位居行业第一。 Omdia首席分析师Lian Jye Su表示,中国能源行业的GenAI市场正在快速形成以国有能源企业…

作者头像 李华
网站建设 2026/4/15 14:44:28

Flutter for OpenHarmony 实战:华容道游戏完整开发指南

Flutter for OpenHarmony 实战:华容道游戏完整开发指南 文章目录Flutter for OpenHarmony 实战:华容道游戏完整开发指南摘要一、项目背景与功能概述1.1 华容道游戏历史1.2 应用功能规划1.3 棋子类型与尺寸二、华容道游戏规则2.1 棋盘布局2.2 移动规则2.3…

作者头像 李华
网站建设 2026/4/16 12:42:21

健康有益赋能智能座舱:打造多模态车载健康监测体系

我国汽车保有量持续攀升,驾驶行为与乘员健康的关联性日益凸显。国家卫健委数据显示,疲劳驾驶、突发心血管事件等健康相关因素导致的交通事故占比逐年上升,传统“以车为中心”的智能座舱系统,已难以满足公众日益增长的出行健康安全…

作者头像 李华
网站建设 2026/4/16 18:18:48

华为MetaERP零售业全渠道库存共享中台解决方案

华为MetaERP零售业全渠道库存共享中台解决方案 基于TOGAF 4A架构方法论设计 1. 业务架构 1.1 业务目标 统一库存视图:整合线上线下、仓库、门店、第三方渠道库存 防超卖机制:实时库存校验,支持高并发订单处理 动态库存分配:基…

作者头像 李华