1. 数字信号处理中的统计与概率基础
在数字信号处理(DSP)领域,统计和概率理论构成了分析和处理信号的核心数学工具。信号在采集、传输和处理过程中不可避免地会受到各种干扰和噪声的影响,这些干扰可能来自测量系统本身,也可能是信号源固有的特性。统计方法为我们提供了一套系统化的工具,用于量化这些干扰的特征,进而设计有效的处理策略。
1.1 信号的基本分类与表征
信号本质上是描述一个参数如何随另一个参数变化的数学关系。在模拟电子学中,最常见的信号类型是随时间变化的电压信号。根据参数的连续性,信号可分为:
- 连续信号:两个参数(如电压和时间)都可以在连续范围内取值。这类信号常见于自然界,如声音波形、温度变化等。
- 离散信号:通过模数转换器(ADC)量化后,参数被限制在离散值上。例如,12位ADC以1kHz采样率工作时,电压被量化为4096个离散电平,时间也被限定在1ms的整数倍上。
实际工程中,我们还会遇到混合信号(一个参数连续,另一个离散),但这类情况相对少见,通常需要明确说明各参数的性质。图2-1展示了两个离散信号的典型示例,纵轴表示幅度(可能是电压、光强、声压等),横轴表示样本编号——这是DSP中最通用的表示方法,尤其当采样时间间隔相等时。
1.2 关键统计量:均值与标准差
均值(μ)和标准差(σ)是描述信号特征的两个最基本统计量:
均值计算:
μ = (Σx_i)/N (i从0到N-1)在电子学中,均值常被称为直流分量(DC value),反映信号的基准水平。
标准差计算:
σ² = [Σ(x_i - μ)²]/(N-1)标准差量化信号围绕均值的波动程度,对应交流分量(AC value)。方差(σ²)则代表这种波动的功率。
注意:在计算标准差时除以N-1而非N,这是为了补偿有限样本对总体参数估计的偏差。当N较大时,两者差异可忽略;但对于小样本,这种校正能显著提高估计准确性。
表2-1展示了计算均值和标准差的基础算法。然而,这种方法在实时处理或大数据集时效率较低。更高效的"运行统计"算法(式2-3)通过维护三个累积变量(样本数N、样本和SUM、样本平方和SUMSQUARES)来实现:
σ² = [SUMSQUARES - (SUM²/N)] / (N-1)这种方法计算复杂度低,适合嵌入式系统或实时处理场景。
1.3 信号与生成过程的区别
理解信号与其生成过程的区别至关重要:
- 信号统计量:基于实际采集的有限数据计算得出,受统计噪声影响
- 过程概率:描述理想情况下信号的内在特性
例如,抛硬币生成二进制信号的理论均值是0.5,但实际1000次实验的样本均值可能为0.503,这种差异正是统计波动的体现。根据大数定律,随着样本量增加,样本统计量将收敛于过程参数。
2. 噪声分析与概率分布
2.1 直方图与概率质量函数
直方图是分析离散信号统计特性的直观工具。对于8位ADC采集的256,000点信号:
- 横轴:0-255的256个可能取值
- 纵轴:各取值出现的次数
当样本量足够大时,直方图形状趋近于概率质量函数(pmf),后者描述理论上每个值出现的概率。例如,若pmf在120处的值为0.03,则任意样本取120的概率约为3%。
对于浮点信号,传统的256-bin直方图不再适用。此时可采用分箱(binning)技术,将值域划分为固定区间(如1000个bin),统计落在每个区间的样本数。表2-4展示了分箱直方图的实现算法。选择bin数量需要在x轴分辨率与统计稳定性间权衡——过多bin导致每个bin样本稀少,噪声大;过少bin则丢失细节信息。
2.2 高斯分布及其特性
高斯分布(正态分布)是描述随机噪声最重要的概率模型,其概率密度函数:
p(x) = (1/√(2πσ)) * exp[-(x-μ)²/(2σ²)]关键特性包括:
- 曲线关于均值μ对称
- 标准差σ控制分布宽度
- 3σ以外概率极小(约0.3%)
在DSP中,高斯噪声的峰峰值通常估计为6-8σ,因为更大偏差的概率可忽略。高斯分布的累积分布函数(CDF)无法用初等函数表示,需通过数值积分获得(图2-9)。例如:
- Φ(1) - Φ(-1) ≈ 68% (落在μ±σ内)
- Φ(2) - Φ(-2) ≈ 95%
- Φ(3) - Φ(-3) ≈ 99.7%
2.3 高斯随机数的生成
实际工程中常需生成高斯分布噪声来测试算法性能。两种常用方法:
中心极限定理法:
- 生成12个[0,1]均匀随机数R1...R12
- 计算 X = (ΣR_i) - 6 (μ=0, σ=1)
- 线性变换到目标μ和σ
Box-Muller变换法:
X = √(-2lnR1) * cos(2πR2)其中R1,R2为独立均匀随机数。这种方法计算量稍大但精度更高。
表2-5比较了不同波形峰峰值与标准差之比:
- 方波:Vpp = 2σ
- 三角波:Vpp = √12 σ ≈ 3.46σ
- 正弦波:Vpp = 2√2 σ ≈ 2.83σ
- 随机噪声:Vpp ≈ 6-8σ
3. 实际应用与误差分析
3.1 测量精度与准确度
在工程测量中必须区分:
- 精度(Precision):重复测量的离散程度,由随机误差决定,可通过平均改善
- 准确度(Accuracy):与真值的系统偏差,由校准误差导致,平均无法改善
例如,声呐测深系统中:
- 波浪扰动引入随机误差,影响精度
- 声速校准错误导致系统偏差,影响准确度
量化指标:
- 精度:标准差σ、信噪比(SNR=μ/σ)、变异系数(CV=σ/μ×100%)
- 准确度:测量均值与真值的差异
3.2 非平稳信号处理
当信号统计特性随时间变化时(图2-3),常规全局统计将失效。此时应采用分段分析:
- 将信号划分为准平稳的短时段
- 对各段独立计算统计量
- 必要时对结果进行平滑或平均
例如,图2-3b中信号均值从0渐变到2,但各局部标准差保持1。全局计算会高估σ(得1.16),而分段分析能准确捕捉这一特性。
3.3 统计计算中的数值考虑
实际编程时需注意:
- 大数减小数问题:当μ>>σ时,直接计算(x_i - μ)²会导致有效数字丢失。应采用运行统计算法避免。
- 数据类型选择:对于高动态范围信号,需使用双精度浮点。
- 随机数生成:伪随机数生成器(PRNG)应定期用高熵源(如系统时钟)重新播种。
表2-3展示了基于直方图的高效统计算法,相比直接计算(复杂度O(N)),其计算量可降低一个数量级,特别适合图像等大数据处理。
4. 工程实践建议
信号分段策略:对于疑似非平稳信号,建议初始分析采用5-10个分段,观察统计量变化趋势后再调整。
高斯性检验:可通过计算高阶矩(偏度、峰度)或Q-Q图验证噪声分布。实际工程中,当σ>3时,可安全假设为高斯分布。
实时处理优化:在嵌入式系统中,可预先计算Φ(x)表并插值,避免实时计算超越函数。
校准实践:定期用已知信号(如方波、正弦波)测试系统,分离随机误差与系统误差。
噪声注入测试:算法开发阶段应测试不同SNR(如20dB、10dB、5dB)下的性能,确保鲁棒性。
最后需要强调的是,虽然现代DSP工具能自动完成多数统计分析,但深入理解这些概念的本质,才能正确解释结果并做出合理工程决策。特别是在处理低SNR信号或设计高精度系统时,对统计特性的准确把握往往成为成败关键。