5.1 随机变量与概率分布:高斯分布、伯努利分布及其混合
概率论为人工智能提供了处理不确定性和从数据中进行统计推断的数学语言。在这一框架下,随机变量及其概率分布构成了描述数据生成机制和模型不确定性的基石。在机器学习与人工智能领域,某些分布因其良好的数学性质和对现实世界现象的广泛适用性而占据核心地位。其中,高斯分布和伯努利分布是两类最基本且重要的分布,分别适用于连续型和离散型数据。此外,通过组合简单分布构建的混合模型,为建模复杂、多模态的数据结构提供了强大工具。本节将首先形式化随机变量的概念,随后深入探讨高斯分布与伯努利分布的定义、性质及其在AI中的角色,最后阐述混合分布的原理与意义。
5.1.1 随机变量:不确定性到数学对象的映射
随机变量是将随机试验的结果映射到实数(或更一般的数学对象)的函数。它为不确定性的量化提供了载体。
形式化定义:给定一个概率空间(Ω,F,P)(\Omega, \mathcal{F}, P)(Ω,F,P),其中Ω\OmegaΩ是样本空间,F\mathcal{F}F是事件σ\sigmaσ-代数,PPP是概率测度。一个随机变量XXX是一个从Ω\OmegaΩ到实数集R\mathbb{R}R的可测函数:X:Ω→RX: \Omega \to \mathbb{R}X:Ω→R。这使得我们可以谈论XXX落入某个实数区间BBB的概率,即P(X∈B)=P({ ω∈Ω:X(ω)∈B})P(X \in B) = P(\{\omega \in \Omega: X(\omega) \in B\})P(X∈B)=P({ω∈Ω:X(ω)∈B})[1]。
分布函数与概率密度/质量函数:
- 累积分布函数(CDF):定义为FX(x)=P(X≤x)F_X(x) = P(X \le x)FX(x)=P(X≤x),完全刻画了随机变量XXX的统计特性。
- 概率密度函数(PDF):对于连续随机变量,若存在非负可积函数p(x)p(x)p(x),使得对任意实数区间(a,b](a, b](a,b]有P(a<X≤b)=∫abp(x)dxP(a < X \le b) = \int_a^b p(x) dxP(a<X≤b)=∫abp(x)dx,则称p(x)p(x)p(x)为XXX的PDF。此时,FX(x)=∫−∞xp(t)dtF_X(x) = \int_{-\infty}^x p(t) dtFX(x)=∫−∞xp(t)dt。
- 概率质量函数(PMF):对于离散随机变量,其PMFp(x)p(x)p(x)直接给出了XXX取每个可能值xix_ixi的概率:p(xi)=P(X=xi)p(x_i) = P(X = x_i)p(xi)=P(X=x