Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings-编程阁

Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings

Authors:Grégoire Dhimoïla, Thomas Fel, Victor Boutin, Agustin Picard

Deep-Dive Summary:
这篇论文探讨了视觉语言模型（VLM）中跨模态嵌入的几何结构，提出了“等能量假设”（Iso-Energy Assumption）来解释和优化这些模型的内部表征。

以下是该论文相关部分的详细摘要：

1. 引言 (Introduction)

视觉语言模型（如 CLIP、SigLIP）通过将图像和文本对齐到共享的嵌入空间取得了巨大成功，但我们对其内部如何组织和对齐语义内容的原理仍知之甚少。

从归因到概念：解释性研究已从早期的“热力图”归因转向基于概念的方法。稀疏自动编码器（SAE）通过线性表征假设（LRH），将模型激活分解为稀疏的潜概念方向（字典学习）。
多模态解释性的挑战：在 VLM 中使用 SAE 时会出现“模态分离”现象（即模态间隙），即提取的概念往往只对单一模态（仅图像或仅文本）激活。

2. 相关工作 (Related Work)

现有研究指出了“模态间隙”现象，即图像和文本嵌入分布在潜空间中不相交的锥体中。之前的消除间隙的方法（如平移均值）往往会损害模型性能。本文旨在通过概念视角识别出：

Γ \GammaΓ子空间：包含共享（双模态）信息。
Ω I / Ω T \Omega_I / \Omega_TΩI/ΩT子空间：包含模态特有（单模态）信息。

3. 利用跨模态冗余进行概念恢复 (Exploiting Cross-Modal Redundancy for Concept Recovery)

作者提出了等能量假设（Iso-Energy Assumption）：如果一个概念在不同模态间是真正共享的，那么它在不同域下的平均激活能量（激活值的平方均值）应该是恒定的。

定义 2（等能量假设）：
设ψ \psiψ为学习到的编码器，如果对于每个坐标k kk，其二阶矩在不同域间保持不变，则称其满足等能量性：
E x ∈ X ( d ) ( ψ ( X ) k 2 ) = E x ∈ X ( d ′ ) ( ψ ( X ) k 2 ) , 其中 k ∈ [ [ 1 , K ] ] , ( d , d ′ ) ∈ D 2 \underset {\mathbf{x}\in \mathcal{X}^{(d)}}{\mathbb{E}}\left(\psi (\mathbf{X})_{k}^{2}\right) = \underset {\mathbf{x}\in \mathcal{X}^{(d^{\prime})}}{\mathbb{E}}\left(\psi (\mathbf{X})_{k}^{2}\right), \text{ 其中 } k \in [[1,K]], (d,d^{\prime}) \in \mathfrak{D}^{2}x∈X(d)E(ψ(X)k2)=x∈X(d′)E(ψ(X)k2),其中k∈[[1,K]],(d,d′)∈D2

方法实现：
作者开发了对齐稀疏自动编码器（Aligned SAE），在标准 SAE 损失的基础上增加了一个对齐惩罚项L a l i g n \mathcal{L}_{\mathrm{align}}Lalign，鼓励相同原子在不同模态间保持能量一致性：
L S A E − A = L S A E + β ⋅ L a l i g n 其中 L a l i g n = − 1 b T r ( Z ( d ) Z ( d ′ ) T ) \mathcal{L}_{\mathrm{SAE - A}} = \mathcal{L}_{\mathrm{SAE}} + \beta \cdot \mathcal{L}_{\mathrm{align}} \quad \text{其中} \quad \mathcal{L}_{\mathrm{align}} = -\frac{1}{b}\mathrm{Tr}\Big(\mathbf{Z}^{(\mathrm{d})}\mathbf{Z}^{(\mathrm{d}^{\prime})^{\mathrm{T}}}\Big)LSAE−A=LSAE+β⋅Lalign其中Lalign=−b1Tr(Z(d)Z(d′)T)

4. 实验验证与结果 (Empirical Evaluation)

受控数据验证

在具有已知基准真相（Ground Truth）的合成数据上，Aligned SAE 在符合等能量假设的情况下显著优于标准 SAE，且在假设不成立时也不会产生错误的双模态原子。

视觉语言基础模型评估

作者在 CLIP、OpenCLIP、SigLIP 等六种模型上进行了测试，并定义了四项指标：

探测准确率 (p a c c p_{\mathrm{acc}}pacc)：衡量字典原子是否能区分模态。
功能对齐度 (ρ \rhoρ)：衡量双模态特征对跨模态对齐的贡献。
功能与分布一致性 (FDA)：在群体层面检查特征的功能与几何组织是否一致。
干预鲁棒性 (δ r \delta_{\mathrm{r}}δr)：移除单模态特征后对检索性能的影响。

表 1：无正则化 SAE 与 Aligned SAE 在六种 VLM 上的对比

指标	CLIP	CLIP-L	OpenCLIP	OpenCLIP-L	SigLIP	SigLIP2
MSE (↓)	0.141	0.163	0.207	0.213	0.246	0.257
R² (↑)	0.859	0.837	0.793	0.787	0.754	0.742
p a c c p_{\mathrm{acc}}pacc(↑)	0.847	0.915	0.843	0.868	0.849	0.880
ρ \rhoρ(↑)	0.327 / 4.232	1.566 / 4.086	4.072 / 16.02	…	…	…

注：表中ρ \rhoρ和 FDA 等指标在 Aligned SAE 下均有显著提升（通常提升一个数量级）。

关键发现

双模态原子 (Bimodal Atoms)：携带了几乎全部的跨模态对齐信号。
单模态原子 (Unimodal Atoms)：作为模态特定的偏置存在，完全解释了“模态间隙”。
几何组织：高能量的单模态原子在潜空间中形成了模态锥体，而双模态原子占据了一个与模态无关的子空间。

结论：
通过引入等能量假设作为归纳偏置，Aligned SAE 揭示了 VLM 嵌入空间的清晰几何结构。这种结构允许我们在不损害模型性能的情况下移除单模态原子以消除模态间隙，并使潜空间的几何操作（如向量算术）更具可解释性和有效性。

4.2 等能量下的概念几何

在确定了等能量（Iso-Energy）对真实视觉语言模型（VLM）的有效性后，我们现在对学习到的概念进行定性描述。该分析重点关注能量如何分布、原子在几何上如何组织，以及它们在实践中的可解释性。

能量分布。第一个观察结果涉及能量在不同模态间的分布。如图 2 所示，绝大多数特征是双模态的，并表现出适中的能量水平，而一小部分单模态特征则集中了不成比例的高能量。这些高能量的单模态原子主导了特定模态的方差并充当了偏差。

几何组织。p a c c p_{\mathrm{acc}}pacc的高值表明潜空间结构与概念组织之间近乎完美地对齐。通过将学习到的原子投影到低维空间，可以清晰地看到它们分为三类：纯图像、纯文本和双模态（图 2 右）。单模态原子与图像和文本嵌入所跨越的锥体紧密对齐，重现了模态间隙的几何形状。相比之下，双模态原子占据了一个与单模态方向正交的、与模态无关的子空间。这种几何结构解释了为什么双模态原子携带跨模态信息，而单模态原子携带特定模态的信息。

定性检查。最后，我们通过检查最能激活的示例来分析单个原子的语义含义。双模态原子在语义上是稳定的，在不同模态中始终捕获相同的概念（例如颜色、物体、动作）。另一方面，单模态原子通常反映特定的模态信号（例如图像中的裁剪瑕疵或文本中的“名称模式”），这些信号对跨模态语义几乎没有贡献。这三个视角共同得出了同一个结论：单模态原子充当特定模态的偏差，而双模态原子则编码了支持跨模态对齐的共享概念骨干。

图 3：模态间隙由多个单模态概念引起，而双模态概念足以维持跨模态对齐。左图：CLIP 嵌入通过学习到的字典重新表达。PCA 投影突显了模态之间的分离，UMAP 布局区分了两类原子：单模态和双模态。右图：使用二进制掩码δ ∈ { 0 , 1 } K \delta \in \{0,1\}^{K}δ∈{0,1}K移除单模态原子从而缩小了间隙。重构后的嵌入A ~ \tilde{A}A~仍然支持检索，表明仅凭双模态原子就能捕获对齐所需的结构。

图 4：过滤单模态原子在不损害性能的情况下缩小了模态间隙。（左）将我们的方法与嵌入偏移（embedding shift）基准进行比较的合成图示。只有我们的方法融合了图像和文本分布。（右）从每个图像（ID）和标题（OOD）嵌入到其第 10 个最近图像邻居的距离直方图。模态间隙通过 ID 和 OOD 直方图的分离程度来衡量。过滤单模态原子使两个分布对齐，而偏移法则降低了性能且间隙依然很大。

5 多模态嵌入的可操作干预

综上所述，这些分析表明我们的字典产生了结构化且可解释的多模态嵌入分解。基于这一基础，我们现在从分析转向干预：一旦等能量分离出跨模态骨干，它就能实现以前无法进行的嵌入直接操作。特别是，我们考虑移除模态信息的极简干预，并检查其对两个结构方面的影响。事实上，我们证明了即使在模态信息非平凡（例如，不是偏置）且在现实的正交性假设下，这种转换也不会改变与排序相关的能力。

命题 1（移除模态信息对排序的影响）。考虑分解为v = ω ( x ) + γ ( x ) \pmb {v} = \omega (\pmb {x}) + \gamma (\pmb {x})v=ω(x)+γ(x)的v ∈ R d \pmb {v}\in \mathbb{R}^{d}v∈Rd，其中ω ( x ) ∈ Ω \omega (\pmb {x})\in \Omegaω(x)∈Ω编码特定模态信息，γ ( x ) ∈ Γ \gamma (\pmb {x})\in \Gammaγ(x)∈Γ捕获跨模态内容，且R d = Ω ⊕ Γ \mathbb{R}^{d} = \Omega \oplus \GammaRd=Ω⊕Γ。如果视觉和文本信息是正交的，则保证排序保持不变。

证明见 K 节。

缩小模态间隙。首先，我们发现通过使用二进制掩码过滤掉单模态原子（图 3），我们几乎消除了模态间隙，同时保留了检索和零样本性能。

如图 4 所示，这种干预融合了图像和文本分布，不像嵌入偏移基准（Liang et al., 2022），后者虽然强制均值匹配，但分布仍然明显分离。至关重要的是，我们的方法保留了对比能力，表明我们的字典通过双模态和单模态原子分别忠实地捕获了对比信息和特定模态信息。测量模态间隙通常通过测量文本和图像分布均值之间的距离，或测量它们的线性可分性来进行。然而，这些方法无法解释干预后残留的分布失配。为此，我们转向分布外（OOD）文献来衡量模态间隙，并借鉴了 Sun et al. (2022) 描述的方法。该方法测量图 4 中蓝色和橙色直方图之间的分离。我们的方法包括对激活进行如下干预（用波浪号表示）：
A ~ ≔ ( Z ⊙ δ ) D \tilde{A} \coloneqq (Z \odot \delta) DA~:=(Z⊙δ)D
其中Z ∈ R N × K Z \in \mathbb{R}^{N \times K}Z∈RN×K包含稀疏代码，D DD是概念字典，δ \deltaδ是过滤掉单模态特征的二进制掩码。重构的激活表示为A ~ ≔ Z D \tilde{A} \coloneqq Z DA~:=ZD。嵌入偏移干预及其在附录中描述的变体包括添加一个模态常数，本质上是移动每个分布的均值μ I / T \mu_{I / T}μI/T。

语义向量算术。等能量也为语义操作奠定了基础。设I s r c I_{\mathrm{src}}Isrc为源图像，Δ \DeltaΔ为描述源图像与目标图像差异的文本描述（即相对标题）。将向量算术限制在双模态原子上Q S A E ≔ I s r c + Δ ~ Q_{\mathrm{SAE}} \coloneqq I_{\mathrm{src}} + \tilde{\Delta}QSAE:=Isrc+Δ~（图 5），产生的查询仍保持在分布内（图 6 和表 2），同时保留了检索能力。相比之下，经典的算术Q = I s r c + Δ Q = I_{\mathrm{src}} + \DeltaQ=Isrc+Δ在有趣的跨模态信息之上加入了来自文本嵌入的单模态噪声，导致查询退化并飘移到嵌入分布之外。我们的干预在不降低性能的情况下始终产生分布内的查询，证明了等能量揭示的双模态骨干在实践中非常有用。

图 6：语义查询的分布外（OOD）行为。每个查询与其在目标图像分布中第 10 个最近邻居之间的距离直方图。经典算术Q = I s r c + Δ Q = I_{\mathrm{src}} + \DeltaQ=Isrc+Δ飘移到分布外，而我们的双模态限制查询Q S A E Q_{\mathrm{SAE}}QSAE仍与目标空间对齐。

表 2：经典查询与基于概念的查询Q S A E Q_{\mathrm{SAE}}QSAE的 OOD 得分。分数越低越好。

OOD score (↓)	Q	QSAE
CLIP	0.97	0.77
CLIP-L	0.95	0.76
OpenCLIP	0.86	0.68
OpenCLIP-L	0.87	0.72
SigLIP	0.99	0.70
SigLIP2	0.99	0.61

考虑以下示例：设I s r c I_{\mathrm{src}}Isrc为红宝石的图像，Δ \DeltaΔ为提示词“不是红色的而是蓝色的”，目标是蓝宝石的图像。添加Δ \DeltaΔ到红宝石图像会产生一个包含纯文本和纯视觉概念的查询，因此不对应于任何现实的嵌入。然而，仅添加Δ \DeltaΔ的跨模态概念，会产生一个实际对应于蓝宝石图像的查询。

6 结论

等能量假设为分析多模态表示引入了一种简单而有效的归纳偏置。在合成设置中，它有助于恢复真实结构；在大型视觉语言模型中，它一致地揭示了支持跨模态对齐的紧凑双模态基。该基使得多模态概念可被访问，隔离了单模态概念，缩小了模态间隙，并能在基础规模的 VLM 中实现受控的语义编辑。相比之下，标准的稀疏自编码器尽管重构质量相似，但倾向于学习单模态和双模态原子的弥散混合物，这模糊了支撑对齐的结构。

尽管结果令人鼓舞，但我们的方法仍有一些局限性。首先，对齐惩罚对其权重系数β \betaβ的选择较为敏感：过小时无效，过大时可能导致特征表示退化。其次，我们的分析是基于稀疏自编码器产生的重构，而非原始嵌入。最后，我们的实验局限于双编码器视觉语言模型。在具有交叉注意力机制或生成训练目标的模型中，相同的结构不变量和对齐属性是否成立仍是一个开放性问题。

更广泛地说，我们的结果支持一种假设驱动的可解释性方法：归纳偏置的选择应反映与下游任务相关的结构属性。当与任务目标妥善对齐时，即使是简单的偏置也能阐明原本可能隐藏的底层机制，并提供可操作的控制而不损害核心性能。

Original Abstract:Vision-language models (VLMs) align images and text with remarkable success, yet the geometry of their shared embedding space remains poorly understood. To probe this geometry, we begin from the Iso-Energy Assumption, which exploits cross-modal redundancy: a concept that is truly shared should exhibit the same average energy across modalities. We operationalize this assumption with an Aligned Sparse Autoencoder (SAE) that encourages energy consistency during training while preserving reconstruction. We find that this inductive bias changes the SAE solution without harming reconstruction, giving us a representation that serves as a tool for geometric analysis. Sanity checks on controlled data with known ground truth confirm that alignment improves when Iso-Energy holds and remains neutral when it does not. Applied to foundational VLMs, our framework reveals a clear structure with practical consequences: (i) sparse bimodal atoms carry the entire cross-modal alignment signal; (ii) unimodal atoms act as modality-specific biases and fully explain the modality gap; (iii) removing unimodal atoms collapses the gap without harming performance; (iv) restricting vector arithmetic to the bimodal subspace yields in-distribution edits and improved retrieval. These findings suggest that the right inductive bias can both preserve model fidelity and render the latent geometry interpretable and actionable.

PDF Link:2602.06218v1