news 2026/5/11 13:03:32

CANN权重量化批量矩阵乘算子

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN权重量化批量矩阵乘算子

WeightQuantBatchMatmulV2

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

  • 算子功能:完成一个输入为伪量化场景的矩阵乘计算,并可以实现对于输出的量化计算。

  • 计算公式

    $$ y = x @ ANTIQUANT(weight) + bias $$

    公式中的$weight$为伪量化场景的输入,其反量化公式$ANTIQUANT(weight)$为

    $$ ANTIQUANT(weight) = (weight + antiquantOffset) * antiquantScale $$

    当需要对输出进行量化处理时,其量化公式为

    $$ \begin{aligned} y &= QUANT(x @ ANTIQUANT(weight) + bias) \ &= (x @ ANTIQUANT(weight) + bias) * quantScale + quantOffset \ \end{aligned} $$

    当不需要对输出再进行量化操作时,其计算公式为

    $$ y = x @ ANTIQUANT(weight) + bias $$

参数说明

参数名输入/输出/属性描述数据类型数据格式
x输入矩阵乘运算中的左矩阵。FLOAT16, BF16ND
weight输入矩阵乘运算中的右矩阵。INT8, INT4, INT32, FLOAT8_E4M3FN, HIFLOAT8, FLOAT4_E2M1ND, FRACTAL_NZ
antiquant_scale输入反量化参数中的缩放因子,对应公式的antiquantScale。FLOAT16, BF16, UINT64, INT64, FLOAT8_E8M0ND
antiquant_offset输入反量化参数的偏置因子,对应公式的antiquantOffset。FLOAT16, BF16, INT32ND
quant_scale输入量化参数的缩放因子,对应公式的quantScale。FLOAT32, UINT64ND
quant_offset输入量化参数的偏置因子,对应公式的quantOffset。FLOAT32ND
bias输入矩阵乘运算后累加的偏置,对应公式中的bias。FLOAT16, FLOAT32, BF16ND
y输出矩阵乘运算的计算结果。FLOAT16, BF16, INT8ND
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:
    • weight只支持INT8、INT4、INT32。
    • antiquant_scale只支持FLOAT16、BF16、UINT64、INT64。
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:
    • weight只支持INT8、INT4、INT32。
    • antiquant_scale只支持FLOAT16、BF16、UINT64、INT64。
  • Ascend 950PR/Ascend 950DT:quant_scale和quant_offset暂不支持。

约束说明

  • 不支持空tensor。
  • 支持连续tensor,非连续tensor只支持转置场景。

调用说明

调用方式样例代码说明
aclnn接口test_aclnn_weight_quant_batch_matmul_v2通过
aclnnWeightQuantBatchMatmulV2
aclnnWeightQuantBatchMatmulV3
aclnnWeightQuantBatchMatmulNz
等方式调用WeightQuantBatchMatmulV2算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 13:00:32

从DCI-P3到sRGB:跨媒体色彩转换的矩阵奥秘与实践

1. 为什么需要从DCI-P3转换到sRGB? 第一次接触色彩空间转换时,我也被各种专业术语搞得一头雾水。直到有次帮朋友处理电影宣传片,才真正理解这个转换的价值所在。当时他用专业调色显示器做的DCI-P3版本影片,在普通电脑上播放时颜色…

作者头像 李华
网站建设 2026/5/11 12:55:31

FanControl终极指南:免费开源的Windows风扇智能控制软件

FanControl终极指南:免费开源的Windows风扇智能控制软件 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/…

作者头像 李华
网站建设 2026/5/11 12:55:30

喜马拉雅音频下载技术重构:Go+Qt5混合架构的3大创新突破

喜马拉雅音频下载技术重构:GoQt5混合架构的3大创新突破 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 在音频内容消费…

作者头像 李华