CANN权重量化批量矩阵乘算子-编程阁

WeightQuantBatchMatmulV2

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√

功能说明

算子功能：完成一个输入为伪量化场景的矩阵乘计算，并可以实现对于输出的量化计算。
计算公式：
$$ y = x @ ANTIQUANT(weight) + bias $$
公式中的$weight$为伪量化场景的输入，其反量化公式$ANTIQUANT(weight)$为
$$ ANTIQUANT(weight) = (weight + antiquantOffset) * antiquantScale $$
当需要对输出进行量化处理时，其量化公式为
$$ \begin{aligned} y &= QUANT(x @ ANTIQUANT(weight) + bias) \ &= (x @ ANTIQUANT(weight) + bias) * quantScale + quantOffset \ \end{aligned} $$
当不需要对输出再进行量化操作时，其计算公式为
$$ y = x @ ANTIQUANT(weight) + bias $$

参数说明

参数名	输入/输出/属性	描述	数据类型	数据格式
x	输入	矩阵乘运算中的左矩阵。	FLOAT16, BF16	ND
weight	输入	矩阵乘运算中的右矩阵。	INT8, INT4, INT32, FLOAT8_E4M3FN, HIFLOAT8, FLOAT4_E2M1	ND, FRACTAL_NZ
antiquant_scale	输入	反量化参数中的缩放因子，对应公式的antiquantScale。	FLOAT16, BF16, UINT64, INT64, FLOAT8_E8M0	ND
antiquant_offset	输入	反量化参数的偏置因子，对应公式的antiquantOffset。	FLOAT16, BF16, INT32	ND
quant_scale	输入	量化参数的缩放因子，对应公式的quantScale。	FLOAT32, UINT64	ND
quant_offset	输入	量化参数的偏置因子，对应公式的quantOffset。	FLOAT32	ND
bias	输入	矩阵乘运算后累加的偏置，对应公式中的bias。	FLOAT16, FLOAT32, BF16	ND
y	输出	矩阵乘运算的计算结果。	FLOAT16, BF16, INT8	ND

Atlas A2 训练系列产品/Atlas A2 推理系列产品：
- weight只支持INT8、INT4、INT32。
- antiquant_scale只支持FLOAT16、BF16、UINT64、INT64。
Atlas A3 训练系列产品/Atlas A3 推理系列产品：
- weight只支持INT8、INT4、INT32。
- antiquant_scale只支持FLOAT16、BF16、UINT64、INT64。
Ascend 950PR/Ascend 950DT：quant_scale和quant_offset暂不支持。

约束说明

不支持空tensor。
支持连续tensor，非连续tensor只支持转置场景。

调用说明

调用方式	样例代码	说明
aclnn接口	test_aclnn_weight_quant_batch_matmul_v2	通过 aclnnWeightQuantBatchMatmulV2 aclnnWeightQuantBatchMatmulV3 aclnnWeightQuantBatchMatmulNz 等方式调用WeightQuantBatchMatmulV2算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

从DCI-P3到sRGB：跨媒体色彩转换的矩阵奥秘与实践

1. 为什么需要从DCI-P3转换到sRGB？ 第一次接触色彩空间转换时，我也被各种专业术语搞得一头雾水。直到有次帮朋友处理电影宣传片，才真正理解这个转换的价值所在。当时他用专业调色显示器做的DCI-P3版本影片，在普通电脑上播放时颜色…

李华

为什么92%的AI团队在DP集成中失败？2026奇点大会披露4个致命反模式及对应生产级修复checklist

更多请点击： https://intelliparadigm.com 第一章：AI原生差分隐私实现：2026奇点智能技术大会数据隐私保护在2026奇点智能技术大会上，AI原生差分隐私（AI-Native Differential Privacy）成为核心议题。该范式…

李华

基于 Simulink 的三相三电平 NPC（中点钳位）逆变器中点电位平衡控制实战教程

目录 🎯 一、核心原理：为什么中点会“飘”？ NPC 拓扑的“阿喀琉斯之踵” 解决思路 🛠️ 二、详细建模步骤第一步：搭建含“不平衡源”的主电路第二步：策略 A —— SPWM 下的零序电压注入第三步：策略 B —— SVPWM 下的小矢量分配 📊 四、仿真结果分析 …

李华

喜马拉雅音频下载技术重构：Go+Qt5混合架构的3大创新突破

喜马拉雅音频下载技术重构：GoQt5混合架构的3大创新突破【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 在音频内容消费…

李华

保姆级教程：在树莓派4B上用RTL8821CU模块搭建一个便携WiFi热点（含完整配置文件）

树莓派4BRTL8821CU打造高性能便携热点：从驱动编译到配置优化全指南在创客圈里，树莓派一直是最受欢迎的硬件开发平台之一。而将树莓派变成一个便携WiFi热点，不仅可以用作临时网络共享，还能为物联网项目提供灵活的组网方案。RTL882…

李华