news 2026/6/10 17:29:06

ScalingLaws-2022-Chinchilla-3:llama3中的Scaling Laws

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ScalingLaws-2022-Chinchilla-3:llama3中的Scaling Laws

下面把Llama 3(arXiv:2407.21783)里所有“scaling law(尺度律)”相关的:常数、公式、推理流程、结论按论文原文顺序完整梳理出来(并标明出处)。我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。


0. 论文里“scaling law”用来解决的两个问题

论文明确说他们做 scaling laws 主要为两件事:

  1. 给定预训练算力预算 ©,决定旗舰模型应当“多大”(模型规模/参数量)以及应当训练多少 tokens。
  2. 不只预测“下一个词的损失(loss)”,还要预测下游任务的准确率(例如 ARC Challenge)。为此他们用了“两段式”相关性拟合:先 (C\rightarrow) NLL,再 NLL (\rightarrow) Accuracy。

另外,论文还说他们用同样的 scaling law 方法来挑选预训练 data mix(数据配比)


1) Scaling law 实验里出现的“常数/设定”(论文给出的固定数字)

这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数(你问的“常数”里,这些都属于论文明确写死/给出的数值)。

1.1 训练算力与模型规模范围(实验数据来源范围)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:49:41

AI 学习与实战系列:RAG 入门与实践全指南

前言 在近年来 AI 技术的蓬勃发展中,如何有效地获取、处理和利用知识成为了研究者和开发者们关注的焦点。RAG(Retrieval Augmented Generation)作为一种结合知识检索与生成模型的技术,脱颖而出,为许多实际问题带来了解…

作者头像 李华
网站建设 2026/6/10 14:12:08

智能仪器仪表读数识别 圆形表盘指针分割识别 智慧电力电表识别 电流计读数 电压及识别 深度学习仪表读数第10472期

实例分割数据集一、数据集核心信息类别数量类别名称数据总量格式种类核心应用价值2仪表板 /指针2600YOLO可用于实例分割算法的基础训练与测试,为后续自定义类别标注提供数据支撑,适配计算机视觉领域中需实例分割技术的各类场景验证二、数据三要素概述 往…

作者头像 李华
网站建设 2026/6/10 14:13:35

AI技术革新学术研究,开题报告的完善工作更轻松高效

工具对比速览 工具名称 核心功能 适用场景 效率评分 特色优势 AIBiYe 开题报告生成/降重 中文论文全流程 ★★★★★ 国内院校适配度高 AICheck 初稿生成/格式检查 快速产出框架 ★★★★☆ 结构化输出优秀 AskPaper 文献综述辅助 外文文献处理 ★★★★ 跨…

作者头像 李华
网站建设 2026/6/10 14:13:40

提示工程架构师能力评估标准全梳理

提示工程架构师能力评估标准全梳理 引言 背景介绍 随着人工智能技术的飞速发展,特别是大语言模型(LLMs)的广泛应用,提示工程(Prompt Engineering)已经成为释放这些模型潜力的关键技术。提示工程架构师负责设…

作者头像 李华
网站建设 2026/6/10 10:24:36

jsp服装商铺管理系统n811i(程序+源码+数据库+调试部署+开发环境)

本系统(程序源码数据库调试部署开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 系统程序文件列表 用户,商家,商品分类,商品信息,招租信息,商铺租赁 开题报告内容 一、课题名称 服装商铺管理系统设计与实现 二、…

作者头像 李华