正则化背后原理是引入额外的信息来惩罚极端参数(权重)值 正是正则化的核心逻辑:通过引入额外信息惩罚极端权重,限制模型复杂度,防止过拟合。 为了更直观理解,我们可以从直观比喻、数学原理、两种常见正则化、几何意义四个方面拆解。一、直观比喻:模型的 “刹车系统”
想象在训练一个模型做预测任务(比如用仪器数据预测物质成分):
无正则化的模型:像一辆没刹车的赛车,为了完美跑完赛道(拟合训练数据),会疯狂调整参数,甚至走极端路线,看似表现好,换个路况(新数据)就失控(过拟合)。
加正则化的模型:给赛车装了刹车 + 限速(额外信息惩罚),虽然赛道表现可能略降,但过复杂弯路(复杂场景)更稳,泛化能力大幅提升。
这里的 “额外信息”,就是对参数大小的约束—— 不让参数无限膨胀,强迫模型走 “简单通用” 的路线。二、数学原理:损失函数的 “加法约束”
AI 模型训练的目标是最小化损失函数(衡量预测误差),公式为:
Ldata(θ):数据损失,衡量模型预测与真实标签的误差(比如均方误差、交叉熵)。
λR(θ):正则化项,λ 是正则化强度(超参数,需调优),R(θ) 是参数惩罚函数。
核心本质:在 “拟合数据” 和 “参数简单” 之间做平衡——λ 越大,越强调 “参数简单”,模型越保守;λ 越小,越侧重 “拟合数据”,模型越激进。
三、两种最常见的正则化:L1 与 L2
关注 AI 底层,这两种是必知的,对应不同的参数惩罚逻辑:
- L1 正则化(Lasso):稀疏化利器 <