news 2026/5/13 23:25:53

2025ICLR-Honorable Mentions-DATA SHAPLEY IN ONE TRAINING RUN

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025ICLR-Honorable Mentions-DATA SHAPLEY IN ONE TRAINING RUN

文章核心总结与创新点

主要内容

本文针对传统Data Shapley在大规模模型中存在的计算效率低、无法评估特定训练过程数据贡献的问题,提出了In-Run Data Shapley方法。该方法无需重复训练模型,通过在单次训练过程中累加各梯度更新迭代的Shapley值,实现对数据贡献的高效评估。文章通过理论推导(泰勒展开近似)和技术优化(幽灵点积、幽灵梯度-海森-梯度积技术),使方法在基础模型预训练场景中具备可行性,并通过实验验证了其在数据筛选、训练阶段贡献分析、生成式AI版权相关研究中的应用价值。

创新点

  1. 概念创新:提出In-Run Data Shapley,首次实现对特定训练过程的数据贡献评估,突破传统方法针对通用学习算法的局限,贴合实际部署需求。
  2. 效率优化:基于泰勒展开将全局效用分解为单迭代局部效用,结合“幽灵”系列技术,在单次训练中完成计算,一阶近似与常规训练耗时接近,二阶近似仅增加一倍耗时,远超传统方法效率。
  3. 应用拓展:首次将数据归因应用于基础模型预训练,揭示数据贡献的阶段依赖性、高质量数据集仍存在16%低价值数据等新洞察,为数据筛选和生成式AI版权分配提供理论支持。

翻译部分(Markdown格式)

Abstract

数据沙普利(Data Shapley)提供了一个原

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 6:13:09

好写作AI:教育学研究,AI辅助教学设计分析与质性数据编码

教育学研究,深植于真实而复杂的教学情境。面对海量的课堂录像、访谈文本和反思日志,如何进行系统性分析并提炼出深刻洞见?好写作AI,专为教育研究者打造,成为您探索教学现象的“智能协作者”,在 教学设计分析…

作者头像 李华
网站建设 2026/5/6 8:11:56

网络分析工具Wireshark系列专栏:18-着色规则

在前面的文章中,我们着重介绍了很多协议分析,当你凝视数据包,别忘了用颜色把它们分门别类。 Wireshark 作为最强大的网络抓包工具之一,不仅能展示细节,更有一个你可能忽视但非常强大的功能 —— 着色规则(Coloring Rules)。当网络流量纷至沓来,如何快速识别出 TCP 三次…

作者头像 李华
网站建设 2026/5/11 16:44:13

前后端分离家电销售展示平台系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

摘要 随着互联网技术的快速发展,电子商务在家电销售领域的应用日益广泛。传统的家电销售模式受限于地域和展示形式,难以满足消费者对便捷购物和个性化体验的需求。基于前后端分离架构的家电销售展示平台系统能够有效解决这一问题,通过线上展示…

作者头像 李华
网站建设 2026/5/8 17:34:31

LangFlow与专利撰写结合:技术文档自动化辅助

LangFlow与专利撰写结合:技术文档自动化辅助 在知识产权竞争日益激烈的今天,一份高质量的专利申请文件不仅是技术创新的“身份证”,更是企业构筑护城河的关键武器。然而,传统专利撰写过程耗时长、门槛高、重复劳动多——工程师埋头…

作者头像 李华
网站建设 2026/5/12 6:49:18

部分工具支持一键生成开题报告框架,节省前期准备时间

AI写论文平台排名:9个实测,开题报告论文降重都好用工具对比排名表格工具名称核心功能突出优势Aibiye降AIGC率适配高校规则,AI痕迹弱化Aicheck论文降重速度快,保留专业术语Askpaper论文降重逻辑完整性好秘塔写作猫智能降重结合语法…

作者头像 李华