news 2026/6/10 13:39:02

YOLOv8改进策略【Conv和Transformer】| CVPR 2023:Super Token Attention 超级令牌注意力机制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
YOLOv8改进策略【Conv和Transformer】| CVPR 2023:Super Token Attention 超级令牌注意力机制

一、本文介绍

本文记录的是利用Super Token Attention(STA)机制优化YOLOv8的目标检测网络模型

传统视觉Transformer的全局自注意力机制虽能捕捉长程依赖,但计算复杂度与令牌数量呈二次关系,资源占用极大;局部注意力或早期卷积虽降低了计算量,却牺牲了全局建模能力,且浅层存在高冗余。STA借鉴超像素思想,通过稀疏关联学习将视觉令牌聚合为语义紧凑的超令牌,在超令牌空间高效执行自注意力以捕捉全局依赖,再通过令牌上采样映射回原始令牌空间,将复杂的全局注意力分解为稀疏关联图与低维注意力的乘积,实现了高效且有效的全局上下文建模,同时保留局部特征表达能力


专栏目录:YOLOv8改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址:YOLOv8改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

文章目录

  • 一、本文介绍
  • 二、Super Token Attention介绍
    • 2.1 出发点
    • 2.2 原理
    • 2.3 结构
      • 2.3.1 Super Token Sampling (STS)
      • 2.3.2 Multi - Head Self - Attention (MHSA)
      • 2.3.3 Token Upsampling (TU)
    • 2.4 优势
  • 三、Super Token Attention的实现代码
  • 四、创新模块
    • 4.1 改进点1
    • 4.2 改进点2⭐
  • 五、添加步骤
    • 5.1 修改一
    • 5.2 修改二
    • 5.3 修改三
  • 六、yaml模型文件
    • 6.1 模型改进版本一⭐
    • 6.2 模型改进版本二⭐
  • 七、成功运行结果

二、Super Token Attention介绍

Vision Transformer with Super Token Sampling

2.1 出发点

  • Vision transformer在浅层捕获局部特征时可能存在高冗余,局部自注意力或早期卷积的使用会牺牲捕获长程依赖的能力。为了解决在神经网络早期阶段能否进行高效且有效的全局上下文建模这一挑战,受超像素设计的启发,将其引入到Vision transformer中,提出了Super Token Attention模块。

2.2 原理

  • 借鉴超像素减少后续处理中图像基元数量的思想,假设超令牌是视觉内容的一种语义上有意义的细分,从而减少自注意力中的令牌数量并保留全局建模能力。通过稀疏关联学习从视觉令牌中采样超令牌,对超令牌进行自注意力操作,然后将它们映射回原始令牌空间,将普通的全局注意力分解为稀疏关联映射和低维注意力的乘法,从而高效地捕获全局依赖关系。

2.3 结构

  • Super Token Attention模块由三个过程组成,即Super Token Sampling (STS)Multi - Head Self - Attention (MHSA)和<
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:09:52

TensorRT-LLM自定义算子C++开发全指南

TensorRT-LLM自定义算子C开发全指南 在构建超大规模语言模型推理系统时&#xff0c;通用框架的“开箱即用”能力往往在关键时刻捉襟见肘。你有没有遇到过这样的场景&#xff1a;模型中引入了一个新型激活函数&#xff0c;开源框架要么不支持&#xff0c;要么实现效率低下&#…

作者头像 李华
网站建设 2026/6/10 13:54:34

Excalidraw监控告警体系搭建(Prometheus+Grafana)

Excalidraw监控告警体系搭建&#xff08;PrometheusGrafana&#xff09; 在现代技术团队中&#xff0c;可视化协作早已不是“锦上添花”&#xff0c;而是日常研发流程的基础设施。Excalidraw 作为一款轻量、灵活且支持手绘风格的开源白板工具&#xff0c;正被越来越多团队用于架…

作者头像 李华
网站建设 2026/6/9 22:26:14

LangFlow可视化工具在HTML前端开发中的创新应用

LangFlow可视化工具在HTML前端开发中的创新应用 在智能应用开发日益普及的今天&#xff0c;如何让非AI专业的前端工程师、产品经理甚至运营人员也能快速参与AI功能的设计与调试&#xff1f;这已成为企业推进智能化转型过程中亟待解决的核心问题。传统的LangChain开发模式虽然强…

作者头像 李华
网站建设 2026/6/9 16:01:06

GitHub项目贡献指南:参与GPT-SoVITS开发全流程

GitHub项目贡献指南&#xff1a;参与GPT-SoVITS开发全流程 在AI语音技术飞速发展的今天&#xff0c;个性化语音合成已不再是科研实验室的专属。你有没有想过&#xff0c;仅用一分钟的录音&#xff0c;就能克隆出一个高度还原的“数字声音”&#xff1f;这正是GPT-SoVITS这类开…

作者头像 李华
网站建设 2026/6/9 14:19:33

Miniconda3安装与Python 3.8环境搭建指南

Miniconda3 与 Python 3.8 环境搭建实战指南 你有没有遇到过这样的场景&#xff1a;刚跑通一个深度学习模型&#xff0c;准备在另一台机器上复现时&#xff0c;却因为 Python 版本不一致、依赖包冲突而卡住&#xff1f;又或者团队协作中&#xff0c;别人总说“你的代码在我这儿…

作者头像 李华
网站建设 2026/6/7 16:55:29

gpt-oss-20b稳定版部署与优化全指南

gpt-oss-20b稳定版部署与优化全指南 你有没有遇到过这种情况&#xff1a;想本地跑一个大模型&#xff0c;结果显存爆了&#xff1b;用云服务吧&#xff0c;每秒都在烧钱。更别提那些闭源模型动不动就限制商用——刚做出点成绩&#xff0c;法律风险就来了。 但最近出现的一个项…

作者头像 李华