news 2026/4/16 17:56:07

速度与准确性的结合:量化感知 LLM 预训练 “QAP“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
速度与准确性的结合:量化感知 LLM 预训练 “QAP“

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。

本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。

具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。

因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。特别是,事实证明,与 FP16 精度模型相比,4 位量化模型的精度几乎没有下降,从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差,为将来应用量化做准备的方法。与传统的训练后量化(post-training quantisation)不同,QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说,最容易受到量化影响的线性变换层(尤其是注意力和 MLP)是以 4 位或 6 位精度模拟的,这一点反映在损失函数中。此外,预训练期间使用的数据和超参数与现有的高精度模型基本相同,因此实施 QAP 的额外成本可以忽略不计。
此外,所提出的方法还为量化敏感权重和激活添加了软正则化,从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中,具有很强的实用性,将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性,作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM,并对其准确性和推理速度进行了评估。

基准测试使用了多种任务,包括 MMLU、GSM8K 和 HumanEval,并对每个模型的性能进行了比较。

结果显示,与不支持的基本模型相比,在相同位宽下,QAP 实现的模型的准确率提高了 6.3 个百分点。

特别是在推理速度方面,该模型比基于 FP16 的模型快达 2.5 倍,同时运行精度几乎没有损失。

对不同量化方案(如 SmoothQuant、AWQ、GPTQ)的鲁棒性也进行了验证,结果表明,QAP’ed 模型能保持稳定的性能,与量化方案无关。
此外,培训成本的增加也非常小,这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明,QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 4:08:31

13、OpenStack网络构建与实例连接全解析

OpenStack网络构建与实例连接全解析 1. 网络与子网管理 在云环境中,网络和子网的管理是基础且关键的操作。管理员可以通过特定的操作来添加子网、创建子网池以及管理网络端口等。 1.1 创建子网 云管理员若要在仪表盘创建子网,可按如下步骤操作: 1. 以管理员用户登录,导…

作者头像 李华
网站建设 2026/4/16 4:09:34

2、OpenStack网络入门指南

OpenStack网络入门指南 1. 背景与需求 在当今的数据中心中,网络所包含的设备数量比以往任何时候都要多。曾经占据大量数据中心空间的服务器、交换机、路由器、存储系统和安全设备,如今都以虚拟机和虚拟网络设备的形式存在。这些设备给传统网络管理系统带来了巨大压力,因为…

作者头像 李华
网站建设 2026/4/16 5:38:11

StyleGAN2数据集制作5步终极指南:从零开始构建高质量训练数据

StyleGAN2数据集制作5步终极指南:从零开始构建高质量训练数据 【免费下载链接】stylegan2 StyleGAN2 - Official TensorFlow Implementation 项目地址: https://gitcode.com/gh_mirrors/st/stylegan2 你是否在为AI图像生成项目准备数据集时感到困惑&#xff…

作者头像 李华
网站建设 2026/4/16 5:45:48

实战突破:ollama-deep-researcher提示词定制指南

实战突破:ollama-deep-researcher提示词定制指南 【免费下载链接】ollama-deep-researcher Fully local web research and report writing assistant 项目地址: https://gitcode.com/GitHub_Trending/ol/ollama-deep-researcher 你是否曾经遇到过这样的困境&…

作者头像 李华
网站建设 2026/4/16 5:45:49

科研写作全流程工具指南:从文献管理到论文投稿

构建你的学术工具链,让科研写作效率提升300%在准备毕业论文的那段日子,我经历了所有研究生都会遇到的困境:文献散落各处、写作毫无头绪、格式调整到崩溃。直到我系统性地构建了自己的学术工具链,才发现科研写作可以如此高效。本文…

作者头像 李华