news 2026/6/9 21:23:48

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

每个参数大约对应 20 个 token(常被叫作Chinchilla 比例)并不是一条“宇宙定律”。

你看到LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了

尤其从 Llama 3 开始,论文里甚至明确承认:小模型会被“刻意训练得比 compute-optimal 更久”,因为这样在同等推理成本(inference budget)下更强

一、先把“20”从哪来讲清楚:它来自 Chinchilla 论文的 compute-optimal 前沿

Chinchilla(Hoffmann et al., 2022 / 2203.15556)要解的问题是:

在固定训练计算量(FLOPs 预算)下,参数量和训练 token 数怎么分配,才能让 loss 最小?

论文里把训练计算量近似写成(文中用 FLOPs 估算;常见近似形式之一是与N ⋅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:16:37

Bootstrap5 轮播

Bootstrap5 轮播 Bootstrap 是一个流行的前端框架,它简化了网页设计和开发。Bootstrap5 作为其最新版本,提供了丰富的组件和工具,其中轮播组件(Carousel)是网页设计中常见的功能。本文将详细介绍 Bootstrap5 的轮播组件,包括其基本用法、配置选项以及如何自定义轮播效果…

作者头像 李华
网站建设 2026/6/10 11:55:39

Web 标准

Web 标准 引言 随着互联网技术的飞速发展,Web 标准(Web Standard)已经成为互联网领域的基础和核心。本文将详细介绍Web标准的概念、重要性以及在我国的发展现状。 一、Web 标准的概念 Web标准是指一系列用于构建互联网内容的规范,包括HTML、CSS、JavaScript等技术规范。…

作者头像 李华
网站建设 2026/6/10 11:56:49

Eureka 在大数据领域的故障排查与解决

Eureka 在大数据领域的故障排查与解决 关键词:Eureka,大数据领域,故障排查,故障解决,微服务 摘要:本文聚焦于 Eureka 在大数据领域的故障排查与解决。首先介绍了 Eureka 在大数据环境中的重要性以及本文的目…

作者头像 李华
网站建设 2026/6/10 11:57:21

2024年最值得学习的5个大数据流处理技术

2024年最值得学习的5个大数据流处理技术 关键词:大数据流处理、Apache Flink、Apache Kafka Streams、Spark Structured Streaming、Google Dataflow、Apache NiFi 摘要:本文深度解析2024年大数据流处理领域最具学习价值的五大技术——Apache Flink、Apache Kafka Streams、S…

作者头像 李华
网站建设 2026/6/10 11:57:23

MySQL删除表语句详解

基础语法 -- 删除单个表(表不存在时报错) DROP TABLE table_name;-- 安全删除(表不存在时不报错) DROP TABLE IF EXISTS table_name;-- 删除多个表(逗号分隔) DROP TABLE table1, table2, table3;关键特性…

作者头像 李华