news 2026/4/24 21:54:44

2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

文章核心总结与翻译

一、主要内容

本文聚焦m-集半臂赌博机问题(从d个臂中精确选择m个臂的组合半臂赌博机场景),研究了Follow-the-Perturbed-Leader(FTPL)算法在对抗性和随机性环境下的性能。在对抗性环境中,已知Follow-the-Regularized-Leader(FTRL)算法能达到O(√(nmd))的最优遗憾界,但需通过优化问题计算臂选择概率;而FTPL算法通过随机扰动选择损失最小的m个臂,无需复杂计算。作者证明了带Fréchet扰动的FTPL算法在对抗性环境下达到近最优遗憾界O(√(nm)(√(d log d)) + m^(5/6)),在随机性环境下实现对数级遗憾界O(∑(log n)/Δ_i)(Δ_i为非最优臂的次优间隙),接近“两全其美”(Best-of-Both-Worlds, BOBW)性能。同时通过下界证明,算法中的额外因子(log d和m(5/6)/d(1/2))无法通过现有方法移除,进一步改进需全新分析框架。

二、创新点

  1. 首次将FTPL算法扩展到m-集半臂赌博机场景,实现了对抗性和随机性环境下的近BOBW性能(m ≤ d/2时)。
  2. 扩展了FTRL分析框架,适配m-集动作空间凸包无内点的特性,简化了原有证明逻辑。
  3. 解决了m-集半臂赌博机中臂选择概率结构复杂的分析难题,通过Fréchet扰动的特性保证算法效率。
  4. 建立了算法的下界,明确现有方法的性能极限,为后续研究指明方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 17:14:20

持续训练中的测试:监控模型退化

持续训练与模型退化的挑战 在当今快速迭代的软件开发环境中,持续训练(Continuous Training, CT)已成为机器学习(ML)系统部署的核心实践。它通过自动化流水线,实时更新模型以适应新数据,提升预测…

作者头像 李华
网站建设 2026/4/19 17:01:03

测试AI的鲁棒性:极端案例生成

AI鲁棒性测试的必要性与挑战 人工智能(AI)系统的广泛应用已渗透至金融、医疗、自动驾驶等关键领域,但其“黑箱”特性带来了独特的脆弱性。鲁棒性测试旨在评估AI在异常输入或极端条件下的稳定性,防止因小概率事件导致的灾难性失败…

作者头像 李华
网站建设 2026/4/22 14:56:01

MLOps测试流水线:软件测试工程师的AI质量守护指南

一、MLOps测试的范式转变 相较于传统软件测试,ML系统面临三重核心挑战: 动态数据依赖:训练/推理数据的分布漂移(如特征偏移、概念漂移) 模型不确定性:相同输入可能产生概率性输出(置信度波动&…

作者头像 李华
网站建设 2026/4/19 23:35:15

生成式AI的内容安全测试:过滤有害输出

随着生成式AI(如GPT系列、扩散模型)在2026年的广泛应用,其内容安全已成为软件测试领域的核心挑战。据统计,2025年全球AI生成内容量同比增长300%,但有害输出(如仇恨言论、虚假信息、偏见内容)的泄…

作者头像 李华
网站建设 2026/4/23 16:24:02

Claude Code 最佳实践的 8 条黄金法则

为什么同样是调用 Claude,有的人能写出工业级代码,而有的人只是在不断堆积“技术债”? 今天分享一位拥有 7 年 Amazon、Disney 大厂经验、现任创业公司 CTO 分享的实战指南。他把 Claude Code 当作每日主力工具,并总结出了一套高阶…

作者头像 李华
网站建设 2026/4/23 15:02:43

Python_uniapp-心理咨询服务平台微信小程序的设计与实现

文章目录摘要系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着社会节奏加快,心理健康问题日益受到关注。基于Python和Uniapp框架设计的心理咨询服务平台微信小程序&#xff0c…

作者头像 李华