商业电讯

YOLO Vision 2025 深圳场精彩回顾丨我们聊的不只是 AI 视觉，而是未来如何被更好的「看见」

10月26日，YOLO Vision 2025（YV25）在深圳华侨城创意文化园首次亮相中国。本次大会吸引了200多名与会者亲临现场，还有许多的伙伴们通过Bilibili和YouTube在线参加了活动，在Bilibili共计有2w+的观看量。

这是继今年9月在伦敦举办的YOLO Vision之后，今年举办的第二届YOLO Vision，也是YOLO Vision首次来到中国，我们非常开心能够在深圳和Vision AI社区的小伙伴们一起见面，也非常的荣幸能够邀请到AI领域内知名的企业以及社区一同分享大家的成果以及洞见。

Ultralytics YOLO模型的发展历程

Ultralytics 创始人兼首席执行官Glenn Jocher带来了当天的首场主题演讲，分享了Ultralytics YOLO模型如何从一次研究突破，现在成长为全球最广泛应用的视觉人工智能模型之一。

Glenn 回顾道，自己在早期的核心目标其实很简单——让YOLO更易用。他将模型迁移至PyTorch框架，完善了文档，并将所有成果开源共享，让世界各地的开发者都能在此基础上创新。

正如他回忆的那样：“2018年我一头扎进了这个领域，当时我就知道——这就是我未来要走的路。”

从一位开发者的个人探索开始，YOLO最终发展成了一场全球性的开源浪潮。

Glenn Jocher在深圳YOLO Vision 2025大会上发言

如今，Ultralytics YOLO模型每天为全球数十亿次推理提供动力。Glenn在演讲中提到，这样的成就并非一人之功，而是来自无数人的共同努力。来自世界各地的研究者、工程师、学生、爱好者与开源贡献者，一起把YOLO打磨成了如今这款被广泛使用的视觉AI模型。

“在全球范围内，有近千名贡献者参与其中。我们对此深表感激——没有他们，就没有今天的YOLO。”

Ultralytics YOLO26：迈向更快、更强、更智能的下一代视觉模型

在今年早些时候的YOLO Vision 2025伦敦站上，Ultralytics首次发布了YOLO26。而在深圳站，Glenn Jocher带来了这一模型的最新进展，向AI社区展示了过去数月中它的成长与演进。

Glenn介绍道，YOLO26的设计目标十分明确：让模型更小、更快、更准，同时依然足够实用，适应真实世界的落地场景。过去一年，团队不断打磨架构、在多设备上进行性能基准测试，并广泛吸收社区和研究领域的反馈。团队的核心理念是——在不增加部署难度的前提下，追求最先进的性能表现。

YOLO26的新特性亮点

超参数优化新策略：YOLO26将引入专门的超参数调优机制，从“完全从零训练”转向基于更大数据集的精调策略。这一改变更贴近实际应用场景，让模型更高效地适应多样任务。

更简洁的模型结构：移除了DFL层，使模型结构更轻、更快，同时保持原有精度不变。

原生端到端推理支持：YOLO26原生支持 End-to-End Inference，无需独立的NMS层。这大大简化了模型导出与部署流程（如ONNX、TensorRT等格式），让其在边缘设备上部署更加轻松。

更强的小目标检测能力：新的损失策略优化了对小目标的识别表现，解决了计算机视觉中长期存在的难题。

全新混合优化器（Hybrid Optimizer）：受大语言模型（LLM）训练研究启发，YOLO26引入了全新的混合优化器，进一步提升模型精度，并已集成至最新版本的Ultralytics Python包中。

与YOLO11相比，YOLO26在CPU上的推理速度提升最高可达43% ，同时在精度上也实现了显著优化。这让YOLO26尤其适用于嵌入式设备、机器人以及边缘计算系统。

目前，YOLO26计划支持与YOLO11相同的任务类型和模型规模，共计25个模型变体，涵盖检测、分割、姿态估计、旋转框检测及分类等任务，从Nano级到Extra Large一应俱全。

更值得期待的是，团队还在研发5个可提示式（Promptable）模型变体。这类模型能直接根据文本提示生成检测框，无需额外训练，为基于指令的视觉工作流奠定基础，让模型在不同场景下的适应性更强，也更具灵活性。

目前，YOLO26系列仍在积极开发中，但从早期测试结果来看，性能表现相当出色。

Ultralytics Platform：让视觉AI工作流更简单、更开放

在介绍完YOLO26的最新进展后，Ultralytics 产品工程负责人Prateek Bhatnagar登台，为大家带来了Ultralytics Platform的现场演示。

这是一款正在打造中的视觉AI平台，旨在将计算机视觉工作流的关键环节整合到一起——从数据集探索、图像标注、模型训练到结果对比，都能在同一环境中完成。

Prateek Bhatnagar现场演示Ultralytics Platform

Prateek在演讲中强调，平台延续了Ultralytics的开源精神，并引入了两个全新的社区空间：

Dataset Community（数据集社区）

Projects Community（项目社区）

开发者可以在这里共享数据集、复用模型、改进他人项目，让开源协作更加高效。

现场演示中，他展示了平台的多项功能：包括AI辅助标注、便捷的云端训练，以及无需本地GPU即可直接在社区中微调模型的能力。

目前，该平台仍在开发阶段。Ultralytics团队也正在中国扩充研发力量，以更好地支持平台的正式发布与本地化发展。

走进YOLO的幕后：听作者们讲述他们的故事

随着现场氛围不断升温，活动进入了圆桌论坛环节，本次论坛的嘉宾包括Glenn Jocher、Ultralytics高级机器学习工程师邱靖、YOLOv10 & YOLOE作者之一陈辉，以及YOLOv6作者之一张勃。

YOLO模型发展圆桌论坛嘉宾（从左到右：黄雪莹、陈辉、张勃、邱靖、Glenn Jocher）

本次讨论的核心聚焦在YOLO如何在真实应用中不断演进。嘉宾们提到，正是实际部署中的挑战不断的推动了YOLO的进步，例如如何在边缘设备上高效运行、提升小目标检测能力，以及简化模型导出流程等。相比单纯追求精度，嘉宾们强调在生产环境中，速度、可用性与稳定性之间的平衡同样重要。另一个共同观点是：持续迭代与社区反馈是推动YOLO成长的关键。

以下是讨论中一些有趣的观点：

开放词汇检测（Open-Vocabulary Detection）正在兴起：新一代YOLO模型展示了视觉-语言对齐与基于提示的工作流如何突破固定类别，实现更灵活的目标检测。

轻量化注意力机制的崛起：嘉宾们讨论了如何在模型中使用高效注意力机制，而非全局注意力，以在保证推理轻量化的同时提升精度，这对边缘设备尤其重要。

与社区“早迭代、快反馈”：嘉宾们倡导“构建—测试—改进”的开发理念，通过更早发布模型、从用户中学习，比漫长的闭门开发周期更能带来优质成果。

从前沿研究到产业落地：视觉AI的新方向

来自全球AI社区的领军人物在现场分享了视觉AI的最新发展趋势——从数字人和机器人，到多模态推理与高效的边缘部署。

以人为中心的 AIGC 与虚拟人技术

来自阿里巴巴通义实验室的张鹏博士介绍了通义实验室Human-AIGC团队在基于视频大模型的可控人物视频生成和实时交互数字人方面的工作与探索。

阿里巴巴通义实验室张鹏博士

他深入解析了当前人物视频生成领域所面临的困境——如生成过程中的可控性不足、过度依赖“抽卡式”结果等问题。随后，他介绍了Human-AIGC团队近期开源的两项成果Wan-S2V与Wan-Animate。这两项模型分别可通过输入音频或模板视频，实现更高可控度的人物生成，如讲话、演唱、动作模仿与视频人物替换等。在此基础上，团队还在探索如何将视频大模型应用于实时、交互式数字人场景。目前的研究方向包括：（1）实时的上下文免训练（in-context zero-shot）的人物形象、动作、音频风格联合克隆（2）wan-animate的lite版本，实时从摄像头的视频驱动图片形象（3）手机端实时运行的极地成本数字人。

软硬协同赋能机器人智能感知

地瓜机器人开发者生态副总裁胡春旭在分享中指出，机器人的“眼睛”和“大脑”正面临前所未有的挑战：复杂多变的场景、实时的决策需求，与有限的功耗和成本之间存在着巨大的矛盾。

地瓜机器人开发者生态副总裁胡春旭

地瓜机器人通过深度软硬件协同设计，推出了高性能、低功耗的计算平台Sunrise以及一站式开发套件RDK，为机器人与视觉应用提供5至128TOPS的强大算力支持。配合高度优化的算法工具链，让YOLO、OCC、双目深度等视觉算法能够快速、高效地转化为机器人稳定可靠的实时感知能力。这不仅让机器人“看得清”，更“看得懂”——能够灵活应对现实世界中瞬息万变的复杂环境，实现真正意义上的智能感知与决策。

PaddleOCR：提取PDF和图片中的结构化数据

百度高级产品经理张晶

在本次分享中，来自百度的高级产品经理张晶回顾了YOLO与PaddleOCR在真实场景中的应用，展示了两者在车牌识别、无人机巡检、文档智能等任务中如何实现从“看见”到“读懂”的协同能力。同时，他介绍了PaddleOCR的发展历程及其在2025年发布的多语言文档解析模型PaddleOCR-VL。他指出，在大模型时代，YOLO与PaddleOCR的结合将为视觉理解和智能应用带来更深层次的合作与创新潜力。

DEEPX与Ultralytics YOLO：端侧与物理世界中的AI实践

在本次大会上，DEEPX销售总监郑韩彬和金禹光分享了与Ultralytics建立合作伙伴关系后的最新进展，介绍了双方在中国与欧洲地区的技术协作与应用落地情况。现场还展示了基于YOLO系列模型的多项性能对比结果，从帧率、AI精度、功耗与能效比等多个维度，与竞品进行了全面对标，充分体现出YOLO在性能与效率上的优势。

DEEPX销售总监郑韩彬和金禹光

同时，DEEPX团队还展示了其主要产品与核心技术，并通过YOLO系列DEMO呈现了端侧视觉AI的实际应用效果。大会还带来了第五代百度飞桨OCR DEMO，并公布了与RTX 2080 Ti平台的性能对比结果，展示了PaddleOCR的强劲表现。最后，双方也分享了DEEPX与百度飞桨的合作进度，展现了在AI生态共建与模型优化方向上的深度协同与探索。

Ultralytics YOLO和CV类模型在E300 SOC上的部署实践

摩尔线程端侧技术负责人刘令飞介绍了E300 AI模组的最新进展。摩尔线程E300 AI模组凭借CPU+GPU+NPU异构融合算力，在端侧实现四路1080P高清视频下YOLOv8s/m模型分别跑到170/101 FPS，充分展现50TOPS INT8稠密算力的实战价值。通过MTNN编译器一键完成INT8量化，与前处理融合，配合Torch-MUSA AOT静态编译，部署时间从小时级缩至分钟级；msys可视化性能分析工具快速锁定瓶颈，指导优化。

摩尔线程端侧技术负责人刘令飞

团队已在Gitee开源40+CV模型，覆盖检测、分割、姿态、OCR、人脸识别等场景，提供从转模型、调优到落地的全套示例，显著降低开发者门槛。未来将继续完善工具链，推动更多YOLO系列及Transformer视觉模型在边缘端高效运行，让“高性能+低功耗”的端侧AI真正触手可及。

RWKV在视觉模型中的应用

围绕“RWKV在视觉领域的应用”，元始智能高级算法工程师岳紫寅详细介绍了RWKV架构在视觉应用的技术优势以及活跃的技术生态，并分享了多篇知名产学研机构使用RWKV技术进行视觉优化的论文与重要成果。

元始智能高级算法工程师岳紫寅

技术展区：看见视觉AI的无限可能

如果说主会场的演讲让人看见了视觉AI的未来，那么展区的现场展示，则让大家切身感受到它已经如何改变现实。在这里，来自众多公司的团队带来了各自最新的技术成果与创新产品，让参会者能够近距离观看模型实时运行、体验不同硬件平台的差异，并与研发团队面对面交流，了解背后的故事与灵感。

从鼓舞人心的主题演讲，到沉浸式的实操展示，YOLO Vision 2025深圳大会充分展现了Ultralytics社区的创新精神与凝聚力。在这场为期一整天的盛会中，研究人员、工程师、学生与开发者们畅所欲言，分享从模型训练到部署落地的实践经验，讲者与参会者们思想碰撞、探索前沿技术，共同描绘出对人工智能未来的愿景，也为Ultralytics YOLO的下一个篇章奠定了坚实的起点。

YOLO Vision的故事仍在继续，未来，我们再相聚于创新的前沿！