拒绝平均数陷阱：深度解读 LLM 推理性能的核心指标—

在评估大语言模型（LLM）推理服务时，我们往往容易被单一的“吞吐量”或“平均延迟”所迷惑。然而，真正的用户体验往往隐藏在那些不起眼的百分位数据（Percentiles）中。

今天，我们基于一份真实的推理性能测试报告，来深度拆解一个关键指标：TPOT (Time Per Output Token)，并看看这组极其优秀的数据背后暗示了什么。

01. 什么是 TPOT (Excl. 1st Token)？

首先，我们要明确这次测试的主角：

Time per Output Token (excl. 1st token)

TTFT (Time to First Token)：是首字延迟，代表模型“思考”和“预填充（Prefill）”的时间。
TPOT (Time per Output Token)：是首字之后，模型每生成一个新 token 所花费的时间。

简单来说，如果把 LLM 比作一个打字员，TTFT 是他读懂题目发呆的时间，而TPOT 则是他真正开始打字的手速。

这份报告排除了首字，专注于衡量Decode 阶段的纯生成速度。这是决定用户看到文字是否“像流水一样顺畅”的关键。

02. 数据概览：不仅是快，更是“离谱”的快

让我们先看一眼原始数据：

Metric	Value (ms)	换算为 Tokens/Sec (TPS)
Mean (平均值)	3.47	~288
Median (中位数)	1.60	~625
P99	12.88	~77
P99.99	120.22	~8

亮点一：中位数的极致性能

Median TPOT 仅为 1.60 ms。
这意味着在 50% 的情况下，模型生成一个 token 只需要 1.6 毫秒。换算下来，生成速度高达625 tokens/s。
这是什么概念？人类的默读速度大约是每秒 5-10 个 token。这个推理服务的速度是人类阅读速度的60 倍以上。用户感觉到的不是“流式输出”，而是文字瞬间“崩”到了屏幕上。

亮点二：平均值 vs 中位数的背离

注意：Mean (3.47ms)是Median (1.60ms)的两倍多。
在统计学中，当平均值显著大于中位数时，说明数据分布是右偏的（Right-skewed）。通俗地说，虽然大部分请求快得飞起，但有一小部分“慢请求”拖了后腿，把平均值拉高了。

03. 深入长尾：P99 与 P99.99 的启示

对于架构师和运维工程师来说，平均数是给老板看的，百分位（P-values）才是给自己看的。

P99 (12.88 ms)：稳如泰山

P99 表示 99% 的 token 生成时间都小于 12.88ms。

电影级流畅度：电影的标准帧率是 24fps（每帧约 41ms），60fps 游戏的每帧约 16ms。
结论：即使是在 P99 这种相对较慢的情况下，12.88ms 的延迟依然快于 60fps 的刷新率。用户肉眼完全无法察觉到任何卡顿。

P99.99 (120.22 ms)：万分之一的“偶发抖动”

这是整个数据中最有趣的部分。

从 Median (1.6ms) 到 P99.99 (120ms)，延迟暴涨了75倍。
这 0.01% 的情况发生了什么？

在高性能推理引擎（如 vLLM, TensorRT-LLM）中，这种毫秒级的极端长尾通常由以下原因引起：

显存调度（KV Cache 换页）：当显存碎片化或需要从 CPU 换入数据时。
批处理（Continuous Batching）干扰：一个新的大请求（Prefill 阶段）突然插入到正在 Decode 的批次中，抢占了计算资源。
系统级开销：Python 的 GC（垃圾回收）、网络微突发拥塞等。

对体验的影响：
120ms 大约是一次眨眼时间的 1/3。虽然对于计算机来说是巨慢，但对于聊天机器人的用户来说，这只是文字生成过程中极其轻微的一次“停顿”，几乎无感。

04. 总结与建议

这份测试报告展示了一个经过极度优化、性能过剩的推理系统。

如果你是这个系统的开发者，这篇报告告诉你：

基线性能完美：1.6ms 的中位数证明算子优化和硬件利用率已经做到了极致。
无需过度优化 Mean：平均值被 P99.99 拉高了，优化平均值收益不大。
关注稳定性（可选）：如果你追求极致的 SLA，可以排查那 0.01% 的 120ms 延迟来源（大概率是调度策略导致），但在实际业务中，这已经是可以忽略的噪音。

一句话总结：
这是一个“快到没朋友”的系统。用户在使用时，唯二的限制因素将是他们的网速和他们的阅读速度。

附：技术指标速查表
TPOT: Time Per Output Token，反映生成流式感。
Latency: 端到端延迟，通常 = TTFT + (TPOT * Token数)。
Throughput: 系统吞吐量，单位时间内处理的总 Token 数。

RexUniNLU真实案例分享：11类NLP任务在真实业务文本中的输出效果

RexUniNLU真实案例分享：11类NLP任务在真实业务文本中的输出效果 1. 这不是又一个“能跑就行”的NLP工具你有没有遇到过这样的情况： 客服工单里混着方言、错别字和缩写，传统NER模型一识别就崩；电商评论里一句“这手机充电快但发…

李华

Qwen3-ASR-1.7B实战：会议录音转文字全流程

Qwen3-ASR-1.7B实战：会议录音转文字全流程 1. 为什么会议转写需要更专业的ASR模型你有没有遇到过这样的场景：刚开完一场两小时的客户会议，录音文件发到群里，结果没人愿意听——不是不想，是真没时间。有人用手机自带…

李华

立知-lychee-rerank-mm部署教程：NVIDIA驱动+CUDA版本兼容性清单

立知-lychee-rerank-mm部署教程：NVIDIA驱动CUDA版本兼容性清单 1. 什么是立知-lychee-rerank-mm？ 立知-lychee-rerank-mm 是一款轻量级多模态重排序模型，专为解决“找得到但排不准”这一实际难题而设计。它不像传统检索系统只负责召回候选内…

李华

计算机毕业设计springboot新能源车辆租赁换电管理系统基于SpringBoot的电动汽车智能租换电服务平台 SpringBoot框架下绿色出行车辆租赁与电池交换一体化系统

计算机毕业设计springboot新能源车辆租赁换电管理系统v4nykfdv （配套有源码程序 mysql数据库论文） 本套源码可以在文本联xi,先看具体系统功能演示视频领取，可分享源码参考。随着"双碳"目标的持续推进和新能源汽车产业的蓬勃发展…

李华

使用Qwen3-ForcedAligner-0.6B构建.NET语音日志分析工具

使用Qwen3-ForcedAligner-0.6B构建.NET语音日志分析工具 1. 为什么需要语音日志分析工具在现代软件系统中，语音交互正变得越来越普遍。客服系统、智能助手、会议记录、远程协作等场景每天都会产生大量语音数据。但这些语音数据本身是无法直接被程序处理的——它们…

李华

重磅！“K宝智能问答”上线金仓社区！

“K宝智能问答”重磅上线金仓社区！有问题问K宝！金仓社区K宝智能问答系统已正式上线。你专属的724小时智能助手——K宝，已准备就绪，随时为你的数据库技术探索保驾护航。如何开启对话PART 011随时点击，一键唤醒在金仓社区…

李华