news 2026/4/16 14:21:59

面试-Decoder-Only生成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面试-Decoder-Only生成模型

1 背景

Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是“根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。

  • 输入:整个历史序列。

  • 输出:下一个 Token。

  • 循环:预测出的 Token 会被拼接到输入中,作为下一次计算的输入。

Q1 为什么会分为两个截然不同的阶段?
维度Prefill 阶段 (预填充)Decode 阶段 (解码)
任务目标处理用户输入的 Prompt(提示词)。逐个生成新的 Token。
计算特征并行计算。一次性把用户输入的 N 个词全部喂给模型。串行计算。一次只处理一个词,算完才能算下一个。
计算强度计算密集型 (Compute-bound)。矩阵维度大,GPU 算力被充分利用。访存密集型 (Memory-bound)。矩阵维度极小(向量),大部分时间花在从显存搬运权重上。
核心瓶颈GPU 的峰值算力(TFLOPS)。显存带宽 (Memory Bandwidth)。
关键指标TTFT(Time to First Token,首字延迟)。TPOT(Time Per Output Token,单字生成速度)。

看图 1 中 Iter 2 和 Iter 3 的虚线框,你会发现它们只处理新生成的词。为什么不需要重新计算之前的“I think this”?

  • 背景:在 Attention 计算中,每一个词都需要和之

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 16:02:11

2026年Java会回暖吗?现在面试需要储备哪些技术?

金三银四快到了,不少人找LZ咨询,问我现在的面试需要提前准备什么?为了造福更多的开发者,也为了让更多的小伙伴通过面试;LZ近期也一直想着怎么才能帮到大家。所以近期在各大渠道整合大厂相关面试题,并结合了…

作者头像 李华
网站建设 2026/4/16 10:58:59

43578344

3745826.

作者头像 李华
网站建设 2026/4/16 10:54:01

麻省理工学院人工智能领域有影响力人物

麻省理工学院人工智能领域有影响力人物摘要:麻省理工学院(Massachusetts Institute of Technology,MIT)作为全球人工智能(Artificial Intelligence,AI)研究的策源地与核心阵地,自20世…

作者头像 李华
网站建设 2026/4/16 12:45:27

系统架构设计师

为避免混叠失真,采样频率必须大于或等于信号最高频率的两倍; 处理一个连续时间信号,对其进行采样的频率为3kHz,要不失真的恢复该连续信号,则该连续信号的最高频率可能是为1.5kHz。 某计算机系统采用分页管理方式,页面大小为4KB,主存容量为16GB,采用位示图来记录主存页面…

作者头像 李华
网站建设 2026/4/16 10:53:05

dvwa靶场详细通关教程三(CSRF跨站请求伪造)

CSRF(跨站请求伪造),全称为Cross-site request forgery。CSRF攻击利用了Web应用程序对用户的信任,攻击者通过诱使用户访问恶意网站或点击恶意链接,使受害者在已登录的状态下访问目标网站。然后攻击者利用受害者的身份在…

作者头像 李华
网站建设 2026/4/16 12:43:56

Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法

Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法 文章目录Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法摘要前言一、我想先设计好游戏的数据结构1.1 七种方块怎么表示?1.2 棋盘…

作者头像 李华