文本到视频扩散模型的性别偏见问题与FAIRT2V去偏框架-编程阁

1. 文本到视频扩散模型的偏见问题现状

文本到视频（Text-to-Video, T2V）扩散模型近年来取得了突破性进展，能够根据自然语言描述生成高质量的视频内容。然而，这些模型在生成过程中往往表现出明显的性别偏见，特别是在职业相关的视频生成中。例如，当输入"一位医生在工作"这样的中性提示词时，模型更倾向于生成男性医生的视频；而"一位护士在工作"则更可能生成女性护士的视频。这种偏见不仅反映了社会现有的性别刻板印象，还可能进一步强化这些偏见。

1.1 偏见的主要来源

研究发现，T2V模型中的性别偏见主要来自预训练的文本编码器（如CLIP）。这些编码器在大规模但社会平衡性不足的图像-文本数据上训练，内化了某些职业与特定性别之间的不平衡关联。即使在中性提示下，文本编码器也会将职业描述映射到与性别相关的嵌入方向。

具体来说，当分析16种常见职业的提示词嵌入时，可以观察到明显的性别相关聚类。例如，"CEO"和"医生"的嵌入更接近男性相关的方向，而"护士"和"教师"则更接近女性相关的方向。这种隐式的性别关联通过分类器无关引导（Classifier-Free Guidance）在视频生成的每个去噪步骤中被反复强化，导致生成的视频表现出系统性偏见。

1.2 现有去偏方法的局限性

目前针对生成模型的去偏方法主要集中于文本到图像（T2I）领域，大致可分为两类：

基于训练的方法：通过微调生成模型或抑制有偏见的潜在方向来减轻偏见。这类方法虽然效果显著，但需要额外的训练计算成本，在大规模视频生成中可扩展性有限。
无需训练的方法：通过修改提示词或调整文本嵌入来减轻偏见。这类方法计算效率高，但通常会导致语义漂移，改变原始提示意图，且未考虑视频生成所需的时间一致性和身份持久性。

现有的方法在应用到视频生成时面临三个主要挑战：(1)偏见在时间维度上的持续性；(2)长程时间结构和多身份场景的复杂性；(3)帧级干预可能导致的不一致性。

2. FAIRT2V框架的核心设计

2.1 性别倾向评分与量化分析

FAIRT2V首先引入了一个量化指标——性别倾向评分（Gender-Leaning Score），用于衡量中性提示嵌入中的隐式性别关联。对于每个职业oi，我们定义三组提示词：

中性提示：Tneu(oi) = {"A/An oi dj" | dj∈D}
多数群体提示：Tmaj(oi) = {"A male oi dj" | dj∈D}
少数群体提示：Tmin(oi) = {"A female oi dj" | dj∈D}

其中D是一组活动修饰词（如"在办公室工作"、"写报告"等）。通过文本编码器ϕ(·)将这些提示词编码为嵌入向量neuoi、majoi和minoi后，可以计算局部偏见指数：

BIoi = ⟨neuoi, majoi⟩ - ⟨neuoi, minoi⟩

该指数表明中性嵌入更接近多数群体还是少数群体。进一步，我们可以定义一个全局性别轴goi，并将中性嵌入投影到该轴上得到性别倾向评分soi = ⟨neuoi, goi⟩。评分的符号表示性别关联方向，绝对值表示偏见强度。

实验表明，这种嵌入级的性别倾向确实会反映在生成的视频中。使用中性提示生成视频时，性别分布与嵌入级的性别倾向评分高度相关；而使用明确性别提示时，生成的视频身份始终遵循指定的性别提示。

2.2 基于锚点的球面测地变换

FAIRT2V的核心创新是一种基于锚点的球面测地变换方法，用于中和提示嵌入中的偏见。具体步骤如下：

锚点构建：对于原始提示p，构造两个明确的性别锚点提示pmaj = "A amaj oi dj"和pmin = "A amin oi dj"，其中amaj和amin分别表示多数和少数群体属性（如male/female）。编码这些提示得到锚点嵌入ˆvmaj和ˆvmin。
球面测地变换：在单位超球面上，通过以下公式计算去偏后的嵌入ˆvfair：

ˆvfair = sin(λθ)/sinθ ˆvmaj + sin((1-λ)θ)/sinθ ˆvmin

其中θ = arccos(⟨ˆvmin, ˆvmaj⟩)是锚点间的角度距离，λ是决定沿人口统计轴位置的系数。

自适应系数选择：λ*根据中性提示嵌入ˆv与各性别锚点的角度接近程度自适应确定：

λ* = s·δmaj/(δmaj + δmin)

其中δmaj = arccos⟨ˆvmaj, ˆv⟩，δmin = arccos⟨ˆvmin, ˆv⟩，s根据ˆv更接近哪个锚点取1或-1。

这种方法有两个关键优势：(1)由于两个锚点编码相同的职业和场景语义，沿其共享测地线移动能保持提示含义；(2)基于角度倾向选择λ*可以沿职业特定的性别轴自适应地重新平衡锚点。

2.3 动态去噪调度

文本到视频扩散模型遵循渐进式精炼过程：早期去噪步骤建立粗粒度结构和身份相关语义，后期步骤细化局部外观和视觉细节。FAIRT2V采用动态去噪调度，只在影响身份形成的扩散步骤中应用去偏嵌入。

具体实现中，我们基于原始提示嵌入v与其去偏对应物ˆvfair之间的余弦距离，通过sigmoid函数计算自适应截止时间步ˆT：

ˆT = T·Sigmoid(1 - cos(v, ˆvfair))

去偏嵌入ˆvfair仅应用于时间步t ≤ round(ˆT)，之后恢复原始嵌入v。这种调度将偏见缓解集中在早期身份形成阶段，同时不影响后期的精炼步骤，从而保持时间连贯性和视觉平滑度。

3. 视频公平性评估协议

3.1 视频级公平评估的挑战

与静态图像生成不同，视频公平性评估面临独特挑战：(1)主体身份可能随时间变化；(2)视频常包含多个具有不同人口统计属性的个体；(3)某些个体可能短暂出现或仅在背景区域。这些因素使得基于单帧或单主体的分析不可靠。

3.2 VideoLLM与人工验证结合

FAIRT2V提出了一种结合VideoLLM和人工验证的视频公平性评估协议：

VideoLLM分析：使用视频大语言模型（如Gemini）处理整个视频，通过结构化查询推断性别，同时最小化提示引起的偏见。VideoLLM可以跨帧聚合视觉证据，推理身份持久性、主体突出性和时间转换，比逐帧分类器更可靠。
视频公平比(VFR)：基于VideoLLM的预测，使用Jensen-Shannon散度计算VFR。给定N个视频V = {v1,...,vN}，VideoLLM分类器Cgender为每个视频输出性别概率q(i)∈ℝ²。将经验分布p = 1/N Σq(i)与均匀目标分布q = (0.5,0.5)比较：

VFR(V) = 1/2 KL(p∥m) + 1/2 KL(q∥m)

其中m = 1/2(p+q)，KL(·∥·)表示Kullback-Leibler散度。VFR值越低表示与目标公平分布越接近。

人工验证：虽然VideoLLM支持视频级推理，但其预测可能受幻觉或提示敏感性影响。因此引入人工验证阶段，由标注者验证二进制性别标签并评估视频质量，用人类判断为基础自动化预测。

4. 实验与结果分析

4.1 实验设置

我们在Open-Sora模型上评估FAIRT2V，使用其基于CLIP的文本条件编码器进行语义引导。研究聚焦于职业-性别刻板印象，使用提示"A/An {occupation} is working"，选择四类职业：CEO和医生（女性少数群体）、护士和教师（男性少数群体）。生成配置使用分类器无关引导α=7.5和T=50去噪步长。

4.2 主要结果

与两种代表性的无需训练去偏基线（FairDiff和FairImagen）相比，FAIRT2V展现出明显优势：

公平性：FairImagen去偏效果有限，VFR分数与原始Open-Sora相近；FairDiff提供最强的偏见缓解，但可能导致过度校正（如教师职业VFR从0.007增至0.036）；FAIRT2V在所有职业上一致减少偏见，同时避免在已平衡情况下放大偏见。
视频质量：FairDiff显著降低视频质量（如护士职业FVD增加约51%）；FAIRT2V在FVD和FAST-VQA指标上表现更好，表明更有效地保持了视频质量。
整体权衡：FAIRT2V在公平性和生成保真度之间实现了更好的平衡，特别是在捕捉时间连贯性和感知真实性的指标上改进一致。

4.3 用户研究

24名参与者评估了视频质量和语义对齐：

文本-视频内容对齐：FAIRT2V保持与输入提示的强对齐，获得更高比例的"Yes"评分；而基线方法常以语义正确性为代价进行去偏。
视频质量人工排名：FAIRT2V生成的视频最常被排名最高；基线方法常因视觉质量下降和时间不稳定而排名较低。

4.4 消融研究

动态去噪调度：启用该调度一致提高感知质量和时间连贯性（女性子组FVD降低9.1%，FAST-VQA提高2.7%），虽然对公平性影响因群体而异，但确认其作为针对性质量精炼而非主要去偏机制的作用。
文本编码器：FAIRT2V在CLIP上表现稳定，而在T5上会导致过度去偏和质量下降，表明CLIP的全局嵌入更适合稳健的去偏。

5. 实际应用与注意事项

5.1 应用场景建议

FAIRT2V特别适用于以下场景：

广告制作：确保职业表现不受性别刻板印象影响
教育内容：生成平衡的职业示范视频
娱乐产业：创造多样化的角色表现

5.2 实施注意事项

提示工程：中性提示应避免隐含的人口统计线索
参数调整：λ*系数可根据具体应用场景微调
质量监控：定期检查去偏后的视频质量
多维度偏见：当前方法主要针对性别偏见，其他维度需扩展

5.3 局限性

主要针对二进制性别偏见
对某些职业可能需要特定调整
视频长度可能影响去偏效果
文化差异未充分考虑

在实际部署中，建议结合领域知识进行定制化调整，并建立持续监控机制，确保去偏效果不随时间退化。同时需要注意，该方法旨在减轻隐含偏见，不应被用来覆盖明确的用户意图。

文本到视频扩散模型的性别偏见问题与FAIRT2V去偏框架