news 2026/6/10 19:15:44

Bagging vs Boosting：谁才是最强“抱团”算法？

张小明

前端开发工程师

1.2k 24

文章封面图 — Bagging vs Boosting：谁才是最强“抱团”算法？

本文将带你深入了解机器学习中两个最著名的“抱团”流派：Bagging和Boosting。

1. 为什么要“抱团”？（集成学习）

在机器学习里，我们经常发现：单个模型（比如一棵决策树）往往不够聪明，要么容易钻牛角尖（过拟合），要么太粗心（欠拟合）。

为了解决这个问题，聪明的科学家们想到了一个办法：“三个臭皮匠，顶个诸葛亮”。

既然一个模型不行，那我就搞一堆模型，让它们一起投票做决定！这种方法就叫集成学习 (Ensemble Learning)。

而Bagging和Boosting，就是组织这帮“臭皮匠”的两种不同管理模式。

2. Bagging：民主投票的“议会模式”

全称：Bootstrap Aggregating（自助聚合）

(1) 核心思想：并行 + 投票

Bagging 就像是一个民主议会。

招募议员：它找来很多个模型（通常是决策树）。
分发资料：它从总题库里，随机抽样出一堆题目给第一个议员看；再随机抽一堆给第二个议员看……（注意：是有放回抽样，大家看到的题目可能部分重叠）。
独立学习：每个议员关起门来，互不干扰，自己学自己的。
最终表决：遇到新问题时，所有议员一起投票。
- 如果是分类问题（是猫还是狗？）：少数服从多数。
- 如果是回归问题（房价多少？）：大家取平均值。

(2) 生动例子：随机森林 (Random Forest)

随机森林就是 Bagging 的典型代表。
想象你要判断一个水果是不是苹果。

议员 A 看了看颜色，说是苹果。
议员 B 闻了闻味道，说是梨。
议员 C 摸了摸形状，说是苹果。
…
最后 100 个议员里，80 个说是苹果，20 个说是梨。
结论：这是苹果。

(3) 它的强项

稳定：因为它把大家的意见平均了，所以不容易受个别极端数据的影响。
防过拟合：主要作用是降低方差 (Variance)。

3. Boosting：知错能改的“接力模式”

含义：提升（Boost）

(1) 核心思想：串行 + 纠错

Boosting 就像是一个闯关接力游戏，或者是一个补习班。

第一个人先上：用所有题目训练第一个模型。它肯定会有做错的题。
划重点：把第一个人做错的那些题，加粗、标红（增加权重）。
第二个人接着上：第二个模型主要盯着这些“错题”学。它可能把旧错题做对了，但又犯了新错误。
继续接力：第三个模型再盯着前两个人做错的题学……
最终决策：把所有人的意见加起来。但是！成绩好的模型说话分量重，成绩差的说话分量轻（加权投票）。

(2) 生动例子：AdaBoost, XGBoost

想象你在背单词。

第一轮：你把整本书背了一遍，考试得了 60 分。错了 40 个词。
第二轮：你不再从头背了，专门死磕那 40 个错词。考试得了 70 分，但还有几个顽固的词记不住。
第三轮：你专门针对那几个顽固的词进行特训……

最后，把这几轮的“你”组合起来，就是一个超级学霸。

(3) 它的强项

精准：它专门死磕难题，所以准确率通常非常高。
提能力：主要作用是降低偏差 (Bias)。

4. 区别与联系：一张表看懂

特性	Bagging (议会模式)	Boosting (接力模式)
代表算法	随机森林 (Random Forest)	AdaBoost, GBDT, XGBoost, LightGBM
模型关系	独立并行（大家各干各的）	依赖串行（后人踩着前人肩膀）
训练数据	随机采样（大家看的题不一样）	调整权重（后者专攻前者做错的题）
最终决策	平权投票（一人一票）	加权投票（谁厉害谁说了算）
主要作用	减少方差（更稳，防过拟合）	减少偏差（更准，攻克难题）
对异常值	不敏感（抗噪能力强）	敏感（容易被异常值带偏，因为会死磕它）

5. 总结

如果你觉得模型太复杂、容易过拟合，或者数据比较少，用Bagging（如随机森林）来维稳。
如果你觉得模型太简单、准确率不够高，想追求极致的精度，用Boosting（如 XGBoost）来提分。

现在的算法比赛（如 Kaggle）中，Boosting系列（尤其是 XGBoost, LightGBM, Catboost）往往是拿冠军的神器，而Bagging则是工业界稳定可靠的老黄牛。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/9 20:53:24

别再踩RAG的坑了！小白程序员必备的优化方案，看完直接起飞

“ RAG的本质就是快速和准确的召回文档，但由于各种原因会导致其召回质量不尽人意，因此我们需要从多个方面来优化其召回结果。” 虽然说现在大模型的主流应用方向是智能体——Agent；但也不能否则RAG在其中扮演的重大作用，因此RAG也…

作者头像

李华

网站建设 2026/6/10 0:00:19

使用Miniconda-Python3.9镜像按需购买GPU算力和Token资源

使用 Miniconda-Python3.9 镜像实现高效、弹性的 AI 开发在当前 AI 模型快速迭代的背景下，研究者和工程师面临一个共同挑战：如何在不牺牲开发效率的前提下，兼顾环境稳定性、资源成本与团队协作？传统的本地开发模式常因“我这里能…

作者头像

李华

网站建设 2026/6/10 12:18:53

2026最新企业微信服务商哪家好？微盛·企微管家深度评测

选对企业微信服务商为何这么难？ 企业微信已连接14亿微信用户，成为企业私域运营的核心入口。但市场上服务商数量超千家，功能同质化、AI工具落地难、合规风险高、服务陪跑缺失等问题普遍存在——数据显示，跨渠道客户信息割裂导致转化…

作者头像

李华

网站建设 2026/6/10 13:24:44

小迪安全_第4天：基础入门-30余种加密编码进制Web数据库系统代码参数值|小迪安全笔记|网络安全|

小迪安全_第4天：基础入门-30余种加密编码进制&Web&数据库&系统&代码&参数值一、加减密应用01:36 1. 加密编码基础知识02:37 1）存储密码加密02:38MD5特征：32位或16位字符串由数字0-…

作者头像

李华

网站建设 2026/6/10 13:20:50

Python自动化软件测试怎么学？路线和方法都在这里了

Python自动化测试是指使用Python编程语言和相关工具，对软件系统进行自动化测试的过程。学习Python自动化测试需要掌握以下技术： Python编程语言：学习Python自动化测试需要先掌握Python编程语言的基础知识，包括语法、数据类型、函…

作者头像

李华

网站建设 2026/6/10 21:38:11

【干货】大模型不是万能药！数据分析实战：人机协同才是王道，小白秒变大神

最近在做数据分析时发现一个问题，那就是智能体的能力确实很有限，智能体也没有想象中的那么强大。以数据分析为例，之前在做数据分析时需要DBA根据业务需求对任务进行拆解；然后编写SQL或其它分析语句，最后统计出结果。而…

作者头像

李华