news 2026/6/10 11:35:15

文本到视频扩散模型的性别偏见问题与FAIRT2V去偏框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
文本到视频扩散模型的性别偏见问题与FAIRT2V去偏框架

1. 文本到视频扩散模型的偏见问题现状

文本到视频(Text-to-Video, T2V)扩散模型近年来取得了突破性进展,能够根据自然语言描述生成高质量的视频内容。然而,这些模型在生成过程中往往表现出明显的性别偏见,特别是在职业相关的视频生成中。例如,当输入"一位医生在工作"这样的中性提示词时,模型更倾向于生成男性医生的视频;而"一位护士在工作"则更可能生成女性护士的视频。这种偏见不仅反映了社会现有的性别刻板印象,还可能进一步强化这些偏见。

1.1 偏见的主要来源

研究发现,T2V模型中的性别偏见主要来自预训练的文本编码器(如CLIP)。这些编码器在大规模但社会平衡性不足的图像-文本数据上训练,内化了某些职业与特定性别之间的不平衡关联。即使在中性提示下,文本编码器也会将职业描述映射到与性别相关的嵌入方向。

具体来说,当分析16种常见职业的提示词嵌入时,可以观察到明显的性别相关聚类。例如,"CEO"和"医生"的嵌入更接近男性相关的方向,而"护士"和"教师"则更接近女性相关的方向。这种隐式的性别关联通过分类器无关引导(Classifier-Free Guidance)在视频生成的每个去噪步骤中被反复强化,导致生成的视频表现出系统性偏见。

1.2 现有去偏方法的局限性

目前针对生成模型的去偏方法主要集中于文本到图像(T2I)领域,大致可分为两类:

  1. 基于训练的方法:通过微调生成模型或抑制有偏见的潜在方向来减轻偏见。这类方法虽然效果显著,但需要额外的训练计算成本,在大规模视频生成中可扩展性有限。

  2. 无需训练的方法:通过修改提示词或调整文本嵌入来减轻偏见。这类方法计算效率高,但通常会导致语义漂移,改变原始提示意图,且未考虑视频生成所需的时间一致性和身份持久性。

现有的方法在应用到视频生成时面临三个主要挑战:(1)偏见在时间维度上的持续性;(2)长程时间结构和多身份场景的复杂性;(3)帧级干预可能导致的不一致性。

2. FAIRT2V框架的核心设计

2.1 性别倾向评分与量化分析

FAIRT2V首先引入了一个量化指标——性别倾向评分(Gender-Leaning Score),用于衡量中性提示嵌入中的隐式性别关联。对于每个职业oi,我们定义三组提示词:

  • 中性提示:Tneu(oi) = {"A/An oi dj" | dj∈D}
  • 多数群体提示:Tmaj(oi) = {"A male oi dj" | dj∈D}
  • 少数群体提示:Tmin(oi) = {"A female oi dj" | dj∈D}

其中D是一组活动修饰词(如"在办公室工作"、"写报告"等)。通过文本编码器ϕ(·)将这些提示词编码为嵌入向量neuoi、majoi和minoi后,可以计算局部偏见指数:

BIoi = ⟨neuoi, majoi⟩ - ⟨neuoi, minoi⟩

该指数表明中性嵌入更接近多数群体还是少数群体。进一步,我们可以定义一个全局性别轴goi,并将中性嵌入投影到该轴上得到性别倾向评分soi = ⟨neuoi, goi⟩。评分的符号表示性别关联方向,绝对值表示偏见强度。

实验表明,这种嵌入级的性别倾向确实会反映在生成的视频中。使用中性提示生成视频时,性别分布与嵌入级的性别倾向评分高度相关;而使用明确性别提示时,生成的视频身份始终遵循指定的性别提示。

2.2 基于锚点的球面测地变换

FAIRT2V的核心创新是一种基于锚点的球面测地变换方法,用于中和提示嵌入中的偏见。具体步骤如下:

  1. 锚点构建:对于原始提示p,构造两个明确的性别锚点提示pmaj = "A amaj oi dj"和pmin = "A amin oi dj",其中amaj和amin分别表示多数和少数群体属性(如male/female)。编码这些提示得到锚点嵌入ˆvmaj和ˆvmin。

  2. 球面测地变换:在单位超球面上,通过以下公式计算去偏后的嵌入ˆvfair:

ˆvfair = sin(λθ)/sinθ ˆvmaj + sin((1-λ)θ)/sinθ ˆvmin

其中θ = arccos(⟨ˆvmin, ˆvmaj⟩)是锚点间的角度距离,λ是决定沿人口统计轴位置的系数。

  1. 自适应系数选择:λ*根据中性提示嵌入ˆv与各性别锚点的角度接近程度自适应确定:

λ* = s·δmaj/(δmaj + δmin)

其中δmaj = arccos⟨ˆvmaj, ˆv⟩,δmin = arccos⟨ˆvmin, ˆv⟩,s根据ˆv更接近哪个锚点取1或-1。

这种方法有两个关键优势:(1)由于两个锚点编码相同的职业和场景语义,沿其共享测地线移动能保持提示含义;(2)基于角度倾向选择λ*可以沿职业特定的性别轴自适应地重新平衡锚点。

2.3 动态去噪调度

文本到视频扩散模型遵循渐进式精炼过程:早期去噪步骤建立粗粒度结构和身份相关语义,后期步骤细化局部外观和视觉细节。FAIRT2V采用动态去噪调度,只在影响身份形成的扩散步骤中应用去偏嵌入。

具体实现中,我们基于原始提示嵌入v与其去偏对应物ˆvfair之间的余弦距离,通过sigmoid函数计算自适应截止时间步ˆT:

ˆT = T·Sigmoid(1 - cos(v, ˆvfair))

去偏嵌入ˆvfair仅应用于时间步t ≤ round(ˆT),之后恢复原始嵌入v。这种调度将偏见缓解集中在早期身份形成阶段,同时不影响后期的精炼步骤,从而保持时间连贯性和视觉平滑度。

3. 视频公平性评估协议

3.1 视频级公平评估的挑战

与静态图像生成不同,视频公平性评估面临独特挑战:(1)主体身份可能随时间变化;(2)视频常包含多个具有不同人口统计属性的个体;(3)某些个体可能短暂出现或仅在背景区域。这些因素使得基于单帧或单主体的分析不可靠。

3.2 VideoLLM与人工验证结合

FAIRT2V提出了一种结合VideoLLM和人工验证的视频公平性评估协议:

  1. VideoLLM分析:使用视频大语言模型(如Gemini)处理整个视频,通过结构化查询推断性别,同时最小化提示引起的偏见。VideoLLM可以跨帧聚合视觉证据,推理身份持久性、主体突出性和时间转换,比逐帧分类器更可靠。

  2. 视频公平比(VFR):基于VideoLLM的预测,使用Jensen-Shannon散度计算VFR。给定N个视频V = {v1,...,vN},VideoLLM分类器Cgender为每个视频输出性别概率q(i)∈ℝ²。将经验分布p = 1/N Σq(i)与均匀目标分布q = (0.5,0.5)比较:

VFR(V) = 1/2 KL(p∥m) + 1/2 KL(q∥m)

其中m = 1/2(p+q),KL(·∥·)表示Kullback-Leibler散度。VFR值越低表示与目标公平分布越接近。

  1. 人工验证:虽然VideoLLM支持视频级推理,但其预测可能受幻觉或提示敏感性影响。因此引入人工验证阶段,由标注者验证二进制性别标签并评估视频质量,用人类判断为基础自动化预测。

4. 实验与结果分析

4.1 实验设置

我们在Open-Sora模型上评估FAIRT2V,使用其基于CLIP的文本条件编码器进行语义引导。研究聚焦于职业-性别刻板印象,使用提示"A/An {occupation} is working",选择四类职业:CEO和医生(女性少数群体)、护士和教师(男性少数群体)。生成配置使用分类器无关引导α=7.5和T=50去噪步长。

4.2 主要结果

与两种代表性的无需训练去偏基线(FairDiff和FairImagen)相比,FAIRT2V展现出明显优势:

  1. 公平性:FairImagen去偏效果有限,VFR分数与原始Open-Sora相近;FairDiff提供最强的偏见缓解,但可能导致过度校正(如教师职业VFR从0.007增至0.036);FAIRT2V在所有职业上一致减少偏见,同时避免在已平衡情况下放大偏见。

  2. 视频质量:FairDiff显著降低视频质量(如护士职业FVD增加约51%);FAIRT2V在FVD和FAST-VQA指标上表现更好,表明更有效地保持了视频质量。

  3. 整体权衡:FAIRT2V在公平性和生成保真度之间实现了更好的平衡,特别是在捕捉时间连贯性和感知真实性的指标上改进一致。

4.3 用户研究

24名参与者评估了视频质量和语义对齐:

  1. 文本-视频内容对齐:FAIRT2V保持与输入提示的强对齐,获得更高比例的"Yes"评分;而基线方法常以语义正确性为代价进行去偏。

  2. 视频质量人工排名:FAIRT2V生成的视频最常被排名最高;基线方法常因视觉质量下降和时间不稳定而排名较低。

4.4 消融研究

  1. 动态去噪调度:启用该调度一致提高感知质量和时间连贯性(女性子组FVD降低9.1%,FAST-VQA提高2.7%),虽然对公平性影响因群体而异,但确认其作为针对性质量精炼而非主要去偏机制的作用。

  2. 文本编码器:FAIRT2V在CLIP上表现稳定,而在T5上会导致过度去偏和质量下降,表明CLIP的全局嵌入更适合稳健的去偏。

5. 实际应用与注意事项

5.1 应用场景建议

FAIRT2V特别适用于以下场景:

  • 广告制作:确保职业表现不受性别刻板印象影响
  • 教育内容:生成平衡的职业示范视频
  • 娱乐产业:创造多样化的角色表现

5.2 实施注意事项

  1. 提示工程:中性提示应避免隐含的人口统计线索
  2. 参数调整:λ*系数可根据具体应用场景微调
  3. 质量监控:定期检查去偏后的视频质量
  4. 多维度偏见:当前方法主要针对性别偏见,其他维度需扩展

5.3 局限性

  1. 主要针对二进制性别偏见
  2. 对某些职业可能需要特定调整
  3. 视频长度可能影响去偏效果
  4. 文化差异未充分考虑

在实际部署中,建议结合领域知识进行定制化调整,并建立持续监控机制,确保去偏效果不随时间退化。同时需要注意,该方法旨在减轻隐含偏见,不应被用来覆盖明确的用户意图。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:35:10

避开HDMI开发的那些‘坑’:手把手调试EDID读取与HPD热插拔检测

HDMI工程实战:EDID读取与HPD检测的深度调试指南 当你在开发板上第一次尝试输出HDMI信号时,可能会遇到这样的场景:所有硬件连接看似正确,但显示器却固执地保持黑屏。这不是简单的"线没插好"问题,而是HDMI协议…

作者头像 李华
网站建设 2026/6/10 11:30:18

Sqribble:面向专业文档的可执行模板操作系统

1. 项目概述:当模板不再是“套壳”,而是一套可执行的文档操作系统你有没有过这种体验:手头有一篇写得不错的行业分析,想快速变成一份体面的PDF报告发给客户;或者刚整理完一套培训材料,却卡在排版上——调字…

作者头像 李华
网站建设 2026/6/10 11:28:50

从卫星通信到5G:信道利用率公式在实际网络设计中的权衡与优化

从卫星通信到5G:信道利用率公式在实际网络设计中的权衡与优化在当今高速发展的通信领域,网络工程师们面临着一个永恒的挑战:如何在有限的信道资源下实现最优的数据传输效率。无论是跨越数千公里的卫星链路,还是毫秒级延迟的5G网络…

作者头像 李华
网站建设 2026/6/10 11:27:46

别再折腾官方驱动了!用NI-VISA+LabVIEW搞定普源/泰克示波器的USB程控(附避坑清单)

高效连接示波器的NI-VISA与LabVIEW实战指南在电子测试测量领域,时间就是金钱。每次搭建自动化测试平台时,最让人头疼的莫过于繁琐的驱动安装和配置过程。传统方法往往需要下载厂商专用驱动、学习复杂的SDK文档,甚至还要处理各种版本兼容性问题…

作者头像 李华