JFM | 北京航空航天大学张俊教授团队：从多维物理场数据中发现张量方程-编程阁

多维物理场中张量方程的符号识别

Symbolic identification of tensor equationsin multidimensional physical fields

陈天逸1，杨浩1，马文军1，张俊1,∗

北京航空航天大学航空科学与工程学院，北京100191

引用格式：
T. Chen, H. Yang, W. Ma, and J. Zhang, “Symbolic Identification of Tensor Equations in Multidimensional Physical Fields.” Journal of Fluid Mechanics, 1024, A34 (2025) . DOI: https://doi.org/10.1017/jfm.2025.10710.

摘要：

近年来，数据驱动方法在从模拟或实验数据中发现控制方程方面展现出巨大潜力。然而，现有方法多局限于标量方程，能够识别张量关系的研究屈指可数。本文提出一个通用的数据驱动框架用于识别张量方程，称为张量方程符号识别方法。该方法的核心理念——采用宿主-质粒结构表征张量方程——源于多维基因表达式编程思想的启发。为提升进化过程的鲁棒性，本方法采用了遗传信息保留策略。此外，相较于传统进化算法，本研究引入了两项关键创新：首先，通过维度齐次性检查来约束搜索空间，排除物理无效表达式；其次，以张量线性回归技术替代传统线性缩放方法，极大提升了数值系数优化的效率。我们通过两个基准案例验证了本方法的有效性：在合成数据中精确还原了目标方程，同时展现出良好的抗噪能力与灵活的表达性能。进一步地，本方法被应用于直接从分子模拟数据中识别本构关系——这些数据完全无需依赖宏观本构模型即可生成。该方法同时适用于可压缩与不可压缩流动工况，并成功识别出相应的宏观形式，彰显了其在数据驱动的张量方程发现领域的应用前景。

一、研究背景

近年来，从数据中自动发现控制方程已成为AI for Science领域的前沿方向。以符号回归为代表的一系列方法，能够基于观测数据自动归纳其内在规律，并以显式数学方程的形式加以表达，为揭示物理机制、加速工程计算提供了有力支持。然而，现有符号回归方法大多局限于标量方程的识别。在处理高维系统时，候选函数空间会随系统变量的增多呈指数级增长，导致在有限计算成本下，难以稳定可靠地提取出具有物理意义的控制方程。

将符号回归拓展至张量方程具有重要意义。高维物理系统的数学描述天然依赖张量结构，诸多领域的核心物理量本质上均为张量，如流体力学中的变形率张量、固体力学中的弹性张量等。张量不仅能刻画物理量的方向依赖性，还具备旋转不变性等重要性质，因而能够简洁而准确地描述高维系统的物理规律。

目前，已有的张量符号回归方法往往难以同时兼顾表达能力、物理一致性和搜索效率。为解决以上挑战，本研究提出了一种通用的张量方程符号识别（Symbolic Identification of Tensor Equations, SITE）框架。

二、研究方法

SITE是一个面向张量方程符号识别的通用框架，旨在高效挖掘具有量纲一致性的张量表达式。图1展示了该框架的整体流程，主要包括数据预处理、张量与标量表达式的构建以及完整的进化优化过程。

首先，系统对输入数据进行预处理，包括对部分物理量进行梯度计算，并构建候选终端库。接着，基于候选终端库和一组预定义的候选符号库，SITE通过组合不同符号结构生成候选表达式，并借助进化流程实现表达式的迭代优化。SITE的核心优化机制为进化算法，并通过树结构来实现灵活的表达能力。具体而言，框架采用多维基因表达式编程（M-GEP）中使用的宿主-质粒架构，以实现张量与标量的协同表达；同时提出基因保留策略，确保标量表达式信息在变异、重组等遗传操作中不被丢失。在该架构中，宿主个体表示二阶张量，质粒个体表示标量，二者通过宿主表达式中的特殊p算符进行关联。

在进化算法中，SITE引入了两个关键步骤以提升性能。首先，在所有表达式被评估前执行量纲齐次性校核（dimensional homogeneity check, DHC），不满足量纲一致性的表达式将被赋予一个足够大的损失，从而在演化过程中被淘汰掉。这一模块还包括一个种子注入策略（如图2所示），通过向种群中定期注入满足量纲齐次性约束的种子个体，以实现在进化前期辅助生成合法表达式、在后期帮助种群跳出局部最优。为提高数值系数的优化效率，本文引入了张量线性回归（tensor linear regression, TLR）技术。在张量符号回归中，使用单一全局缩放系数无法有效拟合预测张量表达式的各个分量，因此常见的线性放缩技术失效。TLR为同一个体中的多个子表达式分别确定独立的系数，并通过张量特征的线性组合来拟合预测张量表达式与目标之间的关系。这个系数向量通过理论分析直接给出，并在程序中用于快速求解。这种方法提高了系数最优化的效率，并通过为不同基因赋予不同重要性，实现了隐式的特征选择。

三、结果

3.1 基准算例验证

本文首先通过几个基准方程进行了SITE框架的验证测试。这里以电磁学领域的Maxwell应力张量为例，验证SITE识别张量方程的能力，并围绕该框架开展系列研究：包括对关键模块的消融实验，与SOTA方法的性能对比，以及针对数据噪声的鲁棒性测试。

我们按照特定的函数形式在空间中设置了电磁场，并生成了稀疏的电磁场数据。Maxwell应力张量的正确形式如下：

TLR的消融实验结果如表1所示，无论是否使用随机数值常数（random numerical constants, RNC），TLR都能提供足够快的系数优化效率，且识别出正确的方程。与M-GEP方法的对比实验结果如表2所示，可以看到，无论是识别出正确方程的成功率还是算法的搜索效率，SITE都优于M-GEP。最后，我们在原始数据基础上添加了不同程度的高斯噪声并进行测试，表3的结果表明，SITE对于数值噪声具有良好的鲁棒性。

3.2基于分子模拟数据的方程识别

我们进一步将SITE方法应用于通过分子模拟产生的数据，未预先嵌入任何宏观控制方程（如NS方程）或预定义本构关系。本文采用的分子模拟方法是直接模拟蒙特卡洛（direct simulation Monte Carlo, DSMC）方法，其基于分子动理论模拟分子的运动和碰撞过程，通过统计平均获得宏观物理量，是更底层的数据生成方式。本研究的目标正是验证SITE能够从不施加任何宏观本构假设的分子模拟数据中挖掘出宏观张量本构关系，同时评估该框架在不同流动条件下识别对应宏观方程的能力。

我们采用DSMC方法模拟了全局Knudsen数为0.005的方腔流动，顶盖速度分别为50m/s（不可压缩情况）和337m/s（可压缩情况），模拟气体为氩气。流场的宏观量通过对分子信息的统计平均得到，另外，我们训练了一个全连接神经网络，并利用自动微分技术计算宏观量的梯度。我们选择400×400个空间点中靠近中心的200组数据点作为训练数据，以排除边界效应的影响。我们知道，连续介质假设下给出的牛顿本构方程为：

SITE在两种流场条件下识别得到的方程如表4所示。在低速条件下，SITE发现的本构关系仅包含前述本构关系中的剪切应力项与静压项，这与低速流动时可压缩效应较弱的物理预期一致；而在高速条件下，SITE发现的本构关系中出现了额外的可压缩项，这一结果表明SITE框架能够成功分辨出与流动状态相关的物理贡献，展现了其根据不同流动特性自动识别相应本构关系的能力。

四、总结

本研究提出了张量方程的符号识别（SITE）框架。该框架通过宿主-质粒架构实现张量与标量的协同运算，结合量纲齐次性校核与种子注入策略，确保了所得方程的物理有效性。此外，通过引入张量线性回归技术，提升了系数的优化效率与精度。我们在基准算例中，验证了SITE框架在噪声场景下的高准确率与鲁棒性，且成功将其应用于DSMC方法模拟产生的数据，实现了不可压缩与可压缩工况下本构关系的自动识别。SITE框架有望为高维物理系统的可解释性建模提供一个有潜力的工具。

代码与数据

本研究相关代码与数据已公开于：https://github.com/BUAA-MARS-group/SITE

原文下载：

https://doi.org/10.1017/jfm.2025.10710

注：文章由原作者投稿分享，向本公众号授权发布。