news 2026/5/11 12:08:11

Gemma-4-31B-it 在 DGX Spark 上的性能测试结果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Gemma-4-31B-it 在 DGX Spark 上的性能测试结果

以下是Gemma-4-31B-IT 在 DGX Spark 上的性能测试结果,数据来自 2026 年 4 月 2 日(模型发布当天)NVIDIA 开发者论坛发布的初步基准测试。


🖥️ 测试硬件环境

规格数值
架构Grace Blackwell Superchip(GB10)
统一内存122 GB LPDDR5X
内存带宽~273 GB/s
平台Ubuntu 24.04, aarch64
CUDA13.0(驱动 580.142)

部署使用官方 Docker 镜像vllm/vllm-openai:gemma4-cu130,上下文窗口配置为 256K tokens(262144),KV cache 类型为 fp8。


📊 测试模型对比

模型量化方式磁盘大小
gemma-4-31B-itbf16~62 GB
gemma-4-31B-it-AWQ-8bitint8~33 GB
gemma-4-31B-it-AWQ-4bitint4~20 GB
gemma-4-26B-A4B-it(MoE)bf16~49 GB

⚡ Prompt 处理吞吐量(t/s,越高越好)

模型pp128pp512pp2048
31B bf16244 ± 46757 ± 671066 ± 48
31B AWQ int8267 ± 26399 ± 33430 ± 0
31B AWQ int4545 ± 104778 ± 39810 ± 2
26B-A4B MoE429 ± 1651299 ± 4413105 ± 372

🔤 Token 生成(解码)吞吐量(t/s,越高越好)

模型tg128峰值
31B bf163.7 ± 0.14.0
31B AWQ int86.5 ± 0.17.0
31B AWQ int410.6 ± 0.011.0
26B-A4B MoE23.7 ± 0.024.0

⏱️ 首次响应时间(ms,越低越好)

模型TTFR pp128TTFR pp512TTFR pp2048
31B bf16547 ± 91686 ± 641929 ± 89
31B AWQ int8490 ± 511297 ± 1084761 ± 2
31B AWQ int4247 ± 46664 ± 332533 ± 8
26B-A4B MoE371 ± 176464 ± 197672 ± 82

本地实测:

部署参数:4并发,70%显存占用

参数含义
--model /home/admin/models/modelscope/gemma-4-31B-it模型路径,指定 Gemma 4 31B 指令微调版的位置
--served-model-name gemma-4-31b对外暴露的模型名称,API 调用时使用的标识名
--enable-auto-tool-choice启用自动工具选择,让模型自动决定是否调用工具
--tool-call-parser pythonic工具调用解析器格式,使用 Python 风格的工具调用格式
--reasoning-parser gemma4推理解析器,专门用于解析 Gemma 4 模型的推理输出格式
--gpu-memory-utilization 0.70GPU 内存使用率上限,限制使用 70% 的显存,预留空间给其他进程
--host 0.0.0.0监听地址,绑定到所有网络接口,允许外部访问
--port 30000服务端口,容器内部监听端口(与 Docker 映射的 30000 对应)
--kv-cache-dtype fp8KV 缓存数据类型,使用 8 位浮点量化,减少显存占用
--load-format safetensors模型加载格式,使用 SafeTensors 格式(更安全、加载更快)
--enable-prefix-caching启用前缀缓存,对相同前缀的输入复用 KV 缓存,加速推理
--enable-chunked-prefill启用分块预填充,将长输入分块处理,减少显存峰值占用
--max-model-len 262144最大上下文长度,支持 262,144 tokens(约 20 万字)
--max-num-seqs 4最大并发序列数,同时处理 4 个请求序列
--max-num-batched-tokens 8192最大批处理 token 数,每个批次最多处理 8192 个 token

🧠 关键分析

31B是稠密模型

属性E2BE4B31B 稠密
总参数量2.3B 有效参数(含嵌入层共 5.1B)4.5B 有效参数(含嵌入层共 8B)30.7B
层数354260
滑动窗口大小512 个 token512 个 token1024 个 token
上下文长度128K 个 token128K 个 token256K 个 token
词表大小262K262K262K
支持的模态文本、图像、音频文本、图像、音频文本、图像
视觉编码器参数量~1.5 亿~1.5 亿~5.5 亿
音频编码器参数量~3 亿~3 亿不支持音频

解码受限于内存带宽:在 DGX Spark 上,单用户 Token 生成受限于内存带宽。理论值与实测值对比如下:

  • 31B bf16:273 GB/s ÷ 62 GB ≈ 4.4 t/s,实测 3.7 t/s(效率 84%)
  • 31B int8:≈ 8.8 t/s,实测 6.5 t/s(效率 74%)
  • 31B int4:≈ 17.0 t/s,实测 10.6 t/s(效率 62%)
  • 26B-A4B MoE:≈ 34.0 t/s,实测 23.7 t/s(效率 70%)

MoE 的结构性优势:MoE 模型解码优势来自其架构特性:尽管 49 GB 的专家权重全部驻留在显存中,每个 Token 生成时只需读取 4B 激活参数,解码吞吐量比 dense bf16 基准高 6.4 倍,比 AWQ int4 高 2.2 倍。

31B AWQ int4 是 dense 模型的最佳选择:对于需要完整 31B dense 模型质量的场景,AWQ int4 是最优选择:解码速度 10.6 t/s(约为 bf16 基准的 3 倍),短提示首次响应时间最低(247 ms),且仅占用 20 GB 磁盘,为 256K 上下文留出充裕的 KV 缓存空间。


📝 总结建议

对于交互式和 Agentic 工作负载,26B-A4B MoE 是 DGX Spark 上的明确赢家:最快解码速度(23.7 t/s)、长上下文下最佳 Prompt 处理速度(pp2048 达 3105 t/s)、首次响应时间也具有竞争力。LPDDR5X 统一内存架构在限制 dense 模型的同时,反而有利于 MoE 设计——每个 Token 只需流式读取 4B 激活参数。

⚠️注意:这是 2026 年 4 月 2 日模型发布当天的初步快照,随着 vLLM 内核成熟、量化方案优化和服务参数调整,数字会持续改善。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 12:07:12

番茄小说下载器:从入门到精通的开源解决方案

番茄小说下载器:从入门到精通的开源解决方案 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 当你发现一本精彩的网络小说却无法离线阅读时,当你想保存喜欢的作品却受…

作者头像 李华
网站建设 2026/5/11 12:07:07

L型热收缩包装机选型:产业集群优势下的自动化包装方案解析

一、行业包装自动化的关键挑战在现代化生产体系中,包装环节正面临多维度的效率压力。传统纸箱包装不仅材料成本居高不下,仓储空间占用问题也日益突出。更为关键的是,手工包装速度难以匹配高速生产线的产出节奏,这种产能不匹配现象…

作者头像 李华
网站建设 2026/4/13 9:22:50

周末收听:中国之声DRM短波信号实收记录

本周末(4月4日)在成都用接收了CNR中国之声的DRM短波广播,记录了13825 kHz和13810 kHz两个频率的信号数据。一个从北京发射,一个从昆明发射,传播路径和信号特征差异明显。接收条件接收地点:成都。接收时间&a…

作者头像 李华
网站建设 2026/4/13 9:05:21

2026开发者App质量监控工具盘点与选型

2026开发者App质量监控工具盘点与选型 质量导航君 头像: 粉丝数:9.6万|获赞数:42.7万 专注开发者工具选型科普,长期输出真实测评与场景解法,帮你在繁杂方案中快速锁定匹配工具。本期聚焦App质量监控领域&a…

作者头像 李华
网站建设 2026/4/15 23:22:25

【仅限早期 Adopter 内部流出】C# 14 AOT + Dify 客户端部署黄金配置清单:含 RuntimeConfiguration.json 12项关键裁剪参数与动态代理绕过方案

第一章:C# 14 原生 AOT 部署 Dify 客户端避坑指南总览C# 14 原生 AOT(Ahead-of-Time)编译为 .NET 应用提供了极致的启动性能与零依赖部署能力,但在集成 Dify(开源 LLM 编排平台)客户端时,因反射…

作者头像 李华