news 2026/4/16 9:02:52

昇腾服务器大模型量化方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
昇腾服务器大模型量化方法

昇腾服务器大模型量化方法

本文介绍如何使用量化工具在昇腾服务器上做量化,量化工具使用msModelSlim,推理框架使用MindIE,昇腾卡为Atlas300I Duo卡,以量化多模型模型Qwen2.5-VL-7B-Instruct为例。

准备mindie镜像

镜像版本:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

创建容器

dockerrun -it -u root --ipc=host --net=host\--name mindie22\--privileged\--device=/dev/davinci_manager\--device=/dev/devmm_svm\--device=/dev/hisi_hdc\-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common\-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver\-v /etc/ascend_install.info:/etc/ascend_install.info\-v /etc/vnpu.cfg:/etc/vnpu.cfg\-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info\-v /data:/data\ca41f88c275c /bin/bash

在容器内安装量化工具

gitclone https://gitcode.com/Ascend/msit.gitcdmsmodelslimbashinstall.sh


模型量化

#还需要执行以下命令安装qwen_vl_utils依赖pipinstallqwen_vl_utilscdmsit/msmodelslim/example/multimodal_vlm/ Qwen2.5-VL python quant_qwen2_5vl.py --model_path /data/models/Qwen/Qwen2.5-VL-7B-Instruct --calib_images../calibImages --save_directory /data/models/Qwen/Qwen2.5-VL-7B-Instruct-w8a8 --w_bit8--a_bit8--device_type npu --trust_remote_code True --anti_method m2 --mindie_format

在Duo卡上量化会遇到“System Direct Memory Access (DMA) hardware execution error”报错
使用NPU多卡量化(特别是Qwen2.5-VL-72B这种大模型),先配置多卡环境变量(Atlas 300I Duo 系列产品不支持多卡量化):

exportASCEND_RT_VISIBLE_DEVICES=0,1exportPYTORCH_NPU_ALLOC_CONF=expandable_segments:False

设置完上述环境变量后可正常量化


MindIE 推理验证

curl-X POST"http://127.0.0.1:1025/v1/chat/completions"\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5-vl", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述这张图"}, { "type": "image_url", "image_url": {"url": "/data/VL/bus.jpg"} } ] } ], "max_tokens": 1024 }'

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 0:01:36

【计算机毕业设计案例】基于SpringBoot+vue的山区特色农产品供销服务系统的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/15 5:40:42

AI应用架构师揭秘AI驱动的元宇宙金融的合规性问题

AI应用架构师揭秘:AI驱动的元宇宙金融的合规性困局与破局之道 一、引言:当元宇宙金融撞上合规“墙” 1.1 一个真实的“元宇宙金融合规事故” 2023年11月,某海外元宇宙平台推出“AI数字人贷款”服务:用户通过虚拟形象提交身份信息&…

作者头像 李华
网站建设 2026/4/14 5:07:24

AI应用架构师:模型评估中的延迟与准确率权衡,如何做决策?

AI应用架构师实战指南:模型延迟与准确率的艺术平衡 关键词:AI架构设计, 模型评估, 延迟优化, 准确率, 决策框架, 推理性能, 机器学习部署 摘要:在AI应用架构设计中,模型延迟与准确率的权衡是一个永恒的挑战。本文深入探讨了这一核心矛盾的本质、技术原理和实践策略,为AI…

作者头像 李华
网站建设 2026/4/11 18:25:45

Java毕设选题推荐:基于SpringBoot+Vue的影视购票平台的设计与实现基于SpringBoot和Vue电影购票管理系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/13 7:18:02

AI算法实时“站岗” 及时发现商铺通道堵塞,避免安全隐患

货车堵门影响卸货、电动车乱停阻碍顾客进店、临时堆货堵塞消防通道——这些看似寻常的运营场景,正在悄悄吞噬你的门店效率,并埋下巨大的安全隐忧。 AI数智店商系统,正是专为解决此类精细化管理的痛点而来。它无需你改造或更换现有摄像头&…

作者头像 李华