音视频学习（七十三）：视频压缩：帧间与时间冗余消除-编程阁

视频压缩是数字视频技术的核心组成部分，其主要目标是在保持可接受的视觉质量的前提下，大幅减少视频数据量。未压缩的视频数据量巨大，难以存储和传输。视频压缩算法通过识别并消除视频数据中的冗余信息来实现这一目标。这些冗余主要分为三类：空间冗余（帧内冗余）、时间冗余（帧间冗余）和视觉冗余（心理视觉冗余）。

时间冗余与帧间压缩

1. 时间冗余 (Temporal Redundancy)

时间冗余指的是视频序列中连续帧之间内容的高度相似性。在一个典型的视频序列中，背景通常保持静止或变化缓慢，运动的物体在连续的两帧之间也只发生了很小的位移。例如，在一个人物访谈视频中，除了人物的嘴部和面部有微小变化外，大部分画面（如背景、人物躯干）在很长一段时间内都是相同的。

这种相似性意味着如果完整地存储每一帧，就会存储大量的重复信息。消除这种跨帧的重复信息，就是消除时间冗余。

2. 帧间压缩 (Inter-frame Compression)

帧间压缩是一种利用时间冗余来压缩视频数据的方法。其核心思想是：不对视频序列中的所有帧都进行独立编码，而是只编码当前帧与参考帧之间的“差异”或“变化”。

这种方法比独立编码每一帧（帧内压缩/空间压缩）的效率高得多，尤其适用于运动量较小或静止场景较多的视频。帧间压缩的技术基础是运动估计和运动补偿。

帧间压缩的关键技术：运动估计与运动补偿

帧间压缩的核心在于找到当前帧（待编码帧）中的内容在已编码的参考帧（可以是前面的帧，也可以是后面的帧）中的对应位置，然后只编码两者的差异。

1. 运动估计 (Motion Estimation, ME)

目标：确定当前帧中的图像块是如何从参考帧中的对应块“移动”过来的。

基本过程：

分块 (Macroblocking)：当前帧被划分为一系列小的、固定大小的块（如16 * 16像素或8 * 8像素的宏块/编码单元）。
块匹配 (Block Matching)：对于当前帧的每一个块（目标块），编码器会在参考帧中的一个搜索窗口内寻找最相似的块。
相似性判据：寻找“最相似”通常是通过计算两个块之间的差异来实现，常用的度量标准包括：
- 平均绝对差 (Sum of Absolute Differences, SAD)：计算对应像素点绝对差值的和。
- 均方差 (Mean Squared Error, MSE)：计算对应像素点差值的平方的平均值。
运动矢量 (Motion Vector, MV)：一旦找到最匹配的块，当前块与参考块之间的相对位移就被记录下来，这个位移量就是运动矢量。运动矢量是一个二维向量
，它指示了参考帧中匹配块的位置。

意义：运动估计是计算密集型操作，但它找到了块在时间上的相关性，是时间冗余消除的第一步。

2. 运动补偿 (Motion Compensation, MC)

目标：利用运动矢量从参考帧中重建（预测）出当前帧的块，并计算残差。

基本过程：

预测块生成：编码器使用运动矢量将参考帧中的匹配块“移动”到当前块的位置，从而生成一个预测块。
残差计算：将当前帧的实际块与生成的预测块进行逐像素相减，得到残差块（或称为预测误差）。
编码残差：只需要对这个残差块进行编码和传输。如果预测准确，残差块的大部分数值将接近于零，经过变换（如DCT）和量化后，可以极大地压缩数据量。

意义：运动补偿通过从参考帧中“借用”信息，将编码原始块的问题转化为了编码运动矢量和残差的问题，从而实现了对时间冗余的消除。

帧的类型与GOP结构

为了实现高效的帧间压缩，视频编码标准定义了不同类型的帧，它们以特定的序列组织起来，形成一个图像组 (Group of Pictures, GOP)。

1. 帧的类型 (Frame Types)

I 帧 (Intra-coded Frame / Key Frame)：
- 特点：独立编码，不参考任何其他帧。它仅利用空间冗余消除技术进行压缩，类似于一张JPEG图像。
- 作用：作为GOP的起点，为后续的P帧和B帧提供解码的参考基础。如果解码器从视频流中间开始解码，它必须从最近的I帧开始。I帧的压缩率最低，数据量最大。
P 帧 (Predicted Frame)：
- 特点：单向预测编码。它通过运动补偿，仅参考前面的一个I帧或P帧进行预测和编码。
- 作用：消除时间冗余，压缩率比I帧高。它也可以作为后续P帧或B帧的参考。
B 帧 (Bi-predictive Frame)：
- 特点：双向预测编码。它可以通过运动补偿，同时参考前面的一个/多个已编码帧和后面的一个/多个已编码帧进行预测和编码。
- 作用：提供最高的压缩效率。由于它利用了过去和未来的信息，可以更好地处理遮挡、物体进入/离开画面等情况。B帧不能作为其他帧的参考帧（在H.264/H.265中，它可以作为参考，但通常不被用作GOP中的主要参考）。

2. 图像组 (Group of Pictures, GOP) 结构

GOP是视频流中的一个基本独立单元，通常以一个I帧开始，后面跟着一系列P帧和B帧，直到下一个I帧开始。

GOP 长度 (GOP Size)：两个连续I帧之间的帧数。GOP长度越长，I帧出现的频率越低，压缩率通常越高，但解码错误传播的风险也越大（如果一个I帧丢失，直到下一个I帧出现的所有P/B帧都无法正确解码）。
GOP 结构举例：一个常见的GOP结构可能是 N=12, M=3：
其中 N 是I帧到I帧的距离（GOP长度），M 是P帧到P帧的距离（或者说B帧的数量）。

运动估计/补偿的进阶优化

为了进一步提高压缩效率和鲁棒性，现代编码器在运动估计和补偿方面引入了诸多优化：

1. 亚像素运动估计 (Sub-pixel Motion Estimation)

传统的运动矢量只能指向整数像素位置。但物体的实际运动往往不是整数像素级的。

优化：编码器允许运动矢量指向半像素、四分之一像素，甚至八分之一像素位置（例如H.264/H.265使用四分之一像素精度）。
实现：通过对参考帧的像素值进行插值来创建亚像素的参考点。
优势：可以获得更精确的预测块，从而使残差更小，压缩率更高。

2. 变换编码与量化 (Transform Coding and Quantization)

在运动补偿之后，得到的残差块需要进行进一步的压缩：

变换编码：对残差块应用离散余弦变换 (DCT)或其整数近似版本（如H.264/H.265中）。这会将时域（或空间域）的信号转换为频域系数，将能量集中在少数低频系数上。
量化：对变换后的系数进行有损量化，即将系数值除以量化步长并取整。这一步骤是视频压缩中有损压缩的主要来源，它通过丢弃人眼不敏感的高频信息，大幅减少了所需的数据量。

3. 各种预测模式 (Various Prediction Modes)

现代编码器提供了更灵活的预测模式，不再局限于单一大小的宏块：

可变块大小 (Variable Block Size, VBS)：允许编码器根据画面内容，将宏块分割成更小的块（如16 * 8, 8 * 16, 8 * 8, 4 * 4等）进行运动估计。这使得运动复杂的区域可以采用更小的块进行精确预测。
加权预测 (Weighted Prediction)：用于处理光照变化或渐隐/渐现的场景。预测块不是简单地从参考块复制，而是进行加权平均或亮度/对比度调整。
跳过模式 (Skip Mode)：如果一个宏块的残差非常小，编码器可以直接跳过残差的编码，只传输一个简单的“跳过”标志。这在静止或匀速运动的区域非常高效。

帧间冗余消除的优势与挑战

优势：

极高的压缩率：相比于只使用帧内压缩（如MJPEG），帧间压缩能够将视频文件大小再压缩一个数量级以上，是实现高清/超高清视频高效传输和存储的基石。
适应性强：运动估计和补偿机制能够动态适应视频中不同程度的运动和变化。

挑战：

编码/解码复杂度高：运动估计是计算密集型任务，需要大量的处理能力。B帧的引入需要对帧进行重新排序（乱序解码/显示），增加了编解码的复杂度、内存需求和延迟（或称为端到端时延）。
错误传播：帧间预测的依赖性导致一个帧的解码错误会沿着GOP向后传播，影响后续所有依赖于该错误帧的P帧和B帧。
随机访问性差：要从视频流的任意位置开始解码，必须找到最近的I帧。如果GOP很长，随机访问的响应时间就会变慢。