光子计算与矩阵向量乘法：LightPro架构的创新实践-编程阁

1. 光子计算与矩阵向量乘法的技术背景

在深度神经网络的计算过程中，矩阵向量乘法（Matrix-Vector Multiplication, MVM）占据了绝大部分的计算负载。传统电子计算架构在进行这类运算时面临着冯·诺依曼瓶颈——即数据在处理器和存储器之间的频繁搬运导致的能效低下问题。光子计算技术为解决这一挑战提供了全新的思路，利用光子的并行性和超快传播特性，可以在光域内直接实现MVM运算，理论上能够实现比电子计算高出几个数量级的能效比。

目前主流的光子MVM实现方案主要基于两种技术路径：马赫-曾德尔干涉仪（MZI）网状结构和微环谐振器阵列。MZI网络通过热光或电光效应调节相位差来实现可编程的酉矩阵变换，但其主要缺点在于：

需要大量相位调制器（N×N矩阵需要O(N²)个）
每个MZI占用较大芯片面积（典型尺寸约100×300μm²）
热调谐功耗较高（π相移通常需要数毫瓦）

我们团队提出的LightPro架构创新性地采用了相变材料（Phase Change Material, PCM）来实现可重构的光学分束器，这种方案具有非易失性、低功耗和小尺寸等优势。以Sb₂Se₃为例，其在非晶态和晶态之间的折射率差可达Δn≈1.5，通过精确控制材料的相变程度，可以实现耦合系数κ在0到1之间的连续调节。

2. LightPro处理器架构设计

2.1 核心器件：PCM可调分束器

LightPro的核心创新在于其可调分束器（Tunable Directional Coupler, TDC）的设计。与传统MZI中的固定分束比不同，我们的TDC采用非对称耦合结构，在其中一个波导上集成PCM材料（如图1所示）。当PCM处于非晶态时，光场主要局限在硅波导中；而当PCM结晶化时，光场会向PCM加载波导偏移，增强两个波导之间的耦合。

通过耦合模理论分析，分束器的耦合系数可以表示为：

κ² = A·sin²(β_c·L + φ)

其中β_c=(β_o-β_e)/2是奇偶模传播常数差的一半，L是耦合长度，φ是相位修正项。我们的实验表明，对于Sb₂Se₃材料，当耦合长度设计为7.1μm时，可以实现Δκ²>0.98的调节范围。

2.2 网络拓扑与NAS优化

LightPro采用了一种渐进式的神经网络架构搜索（NAS）方法来优化处理器拓扑。与传统的Clements网格固定结构不同，我们的方法从一个空网络开始，逐步添加相位调制器和TDC列，直到达到目标矩阵的保真度要求（通常>97%）。这种方法的优势在于：

可以根据具体任务需求定制网络复杂度
自动规避冗余的相位调制器
优化光路布局以减少串扰和插入损耗

具体实现上，每个网络层由若干列器件组成，包括：

相位调制器列：实现对角相位矩阵
奇数列TDC：连接1-2, 3-4,...端口
偶数列TDC：连接2-3, 4-5,...端口

通过交替排列这些器件列，可以构建出能够实现任意酉矩阵变换的光学网络。数学上，一个4×4网络的传输矩阵可以表示为：

U = T_even × T_odd × T_phase

其中各组件矩阵的具体形式见论文公式(5)-(7)。

3. 实验验证与性能分析

3.1 iPronics SmartLight实验平台

为了验证LightPro架构的实际性能，我们基于iPronics SmartLight可编程光子处理器搭建了4×4网络原型。该平台具有以下关键特性：

72个MZI组成的六边形可编程网格
集成TE模式激光源（-6dBm输出）
片上热光相位调制器（1.34-2mW/π）
35dB的消光比和0.5dB的插入损耗

实验设置如图2所示，使用偏振控制器优化光纤-芯片耦合（损耗<3.6dB），通过外置光电探测器测量输出光功率。由于设备限制，每次只能分析一个输入端口的光场分布。

3.2 测试案例与结果对比

我们设计了三种典型的测试场景：

单输入激活（I₁=1, I₂₋₄=0）
另一单输入激活（I₄=1, I₁₋₃=0）
双输入同时激活（I₁=I₂=1, I₃₋₄=0）

图3展示了实测结果与Ansys Lumerical仿真以及数学计算的对比。在所有测试案例中，LightPro原型机的输出光强分布与理论预测高度一致，平均误差小于3%。特别值得注意的是：

剪枝后的网络保持了与原网络相当的精度
双输入情况下仍能保持良好线性
相位调制器的功耗降低了67%

3.3 性能基准测试

与传统MZI网络相比，LightPro展现出显著优势：

指标	Clements网格	LightPro	改进幅度
芯片面积	1.0×	0.16×	84%↓
相位调制器数	N(N-1)/2	~N	>50%↓
编程能耗	1.0×	0.33×	67%↓
矩阵保真度	>99%	>97%	-2%

这种性能提升主要来源于：

PCM分束器的非易失性（无需持续功耗）
NAS优化的稀疏拓扑
剪枝算法去除冗余组件

4. 关键技术深度解析

4.1 相变材料调控技术

Sb₂Se₃作为PCM的代表材料，其性能直接影响TDC的调节精度。我们通过氮掺杂（N-doping）技术获得了84个稳定的中间相态，使耦合系数的调节分辨率达到0.011。材料特性通过洛伦兹模型精确建模：

ε_eff = X_f·(ε_c-1)/(ε_c+2) + (1-X_f)·(ε_a-1)/(ε_a+2)

其中X_f是结晶比例，ε_c和ε_a分别是晶态和非晶态的介电常数。

4.2 剪枝算法实现

针对静态权重矩阵，我们开发了专门的剪枝流程：

初始训练完整LightPro网络
识别对矩阵贡献<5%的相位调制器
将这些调制器替换为直波导或交叉结构
重新优化剩余TDC的耦合系数
迭代直到性能下降超过阈值

这种算法在保持精度的前提下，最高可减少67%的相位调制器，显著降低功耗。

4.3 抗工艺变异设计

光子集成电路的制造变异会严重影响MZI的消光比。LightPro通过以下设计增强鲁棒性：

采用非对称分束器结构降低对尺寸精度的依赖
保留关键路径上的相位调制器作为补偿手段
在NAS过程中加入工艺变异模型作为约束

实测表明，在±10nm的波导宽度变异下，LightPro的性能波动<3%，而传统MZI网络可能达到>15%。

5. 应用前景与挑战

5.1 在光子神经网络中的优势

LightPro特别适合实现光学神经网络的线性变换层，其优势包括：

支持复数权重运算
可并行处理波长复用信号
与光电非线性激活单元天然兼容
单步完成O(N²)量级的乘累加运算

我们的仿真显示，在ResNet-18等典型网络上，LightPro可实现>100TOPS/W的能效。

5.2 当前局限与改进方向

尽管表现出色，现有方案仍有提升空间：

规模限制：目前原型仅4×4，扩展到32×32需要解决光程匹配问题
速度瓶颈：PCM相变速度在微秒量级，适合静态权重
热串扰：密集集成的热调谐可能产生相互干扰

可能的解决方案包括：

采用多级分块架构
开发更快的电光PCM材料（如GST-226）
引入3D集成散热结构

6. 实操建议与经验分享

基于我们的实验经验，给希望复现或扩展此项工作的研究者以下建议：

6.1 器件制备要点

PCM沉积采用室温溅射后250℃退火
耦合区域设计为宽度渐变结构（400nm→200nm）
加热器与波导间距控制在2μm以内

6.2 系统校准技巧

先使用可见光显微镜粗略对准
通过最大输出功率法精细调节偏振
采用参考直波导归一化测量结果
对每个TDC建立κ-V曲线查找表

6.3 常见问题排查

问题：输出功率异常低可能原因：

光纤耦合未优化（检查偏振控制器）
PCM未完全相变（提高编程脉冲幅度）
波导断裂（用红外相机检查）

问题：矩阵保真度下降解决方法：

重新校准相位调制器响应曲线
检查激光波长稳定性（Δλ<5pm）
验证分束器温度一致性（ΔT<0.1℃）

这项工作的核心价值在于证明了基于PCM的光子处理器可以同时实现高性能和小型化，为下一代光学AI加速器提供了可行的技术路径。我们开源的NAS框架（见补充材料）可以帮助研究者快速适配不同的网络规模和应用场景。

光子计算与矩阵向量乘法：LightPro架构的创新实践