告别‘黑盒’！用KAN模型的可解释性，手把手教你可视化神经网络决策过程-编程阁

告别“黑盒”！用KAN模型的可解释性，手把手教你可视化神经网络决策过程

在人工智能领域，神经网络的可解释性一直是困扰研究者和工程师的难题。传统多层感知机（MLP）就像一个“黑盒”，我们输入数据、得到结果，却难以理解模型内部的决策逻辑。这种不可解释性不仅限制了模型在医疗、金融等关键领域的应用，也阻碍了开发者对模型性能的深入优化。

而Kolmogorov-Arnold Networks（KAN）模型的提出，为解决这一难题带来了全新思路。与MLP不同，KAN将激活函数从节点转移到权重上，并通过样条曲线参数化这些激活函数。这一创新设计使得我们可以直观地“看见”输入特征如何被处理和组合，最终形成预测结果。本文将带你从零开始，通过一个具体的分类任务，一步步展示如何利用KAN模型的可解释性来可视化神经网络的决策过程。

1. KAN模型的核心原理与优势

KAN模型的核心创新在于其独特的网络结构设计。与传统MLP相比，KAN有以下几个关键区别：

权重即激活函数：在KAN中，每个权重不再是一个简单的标量值，而是一个可学习的一维激活函数（通常用样条曲线参数化）。这意味着权重本身具有了非线性变换的能力。
节点仅执行加法：KAN的节点不再应用激活函数，而是单纯执行加权求和操作。所有非线性变换都集中在权重上。
基于Kolmogorov-Arnold表示定理：这一数学定理表明，任何多元连续函数都可以表示为单变量连续函数的两层嵌套叠加，KAN的结构设计直接体现了这一思想。

这种设计带来了几个显著优势：

特性	MLP	KAN
可解释性	低，难以追踪特征变换过程	高，可直接可视化权重函数
参数效率	需要较多参数达到相同表达能力	参数效率更高
训练速度	快	慢（约慢10倍）
数学基础	启发式设计	基于严格的数学定理

为什么KAN更具可解释性？关键在于其权重函数的可视化潜力。由于每个权重都是一个可学习的函数，我们可以直接绘制这些函数来理解输入特征是如何被变换和组合的。例如，如果某个权重函数在特定输入范围内呈现明显的非线性，就说明模型在该范围内对相应特征进行了复杂处理。

2. 环境准备与KAN模型实现

要开始我们的可解释性探索之旅，首先需要搭建实验环境。我们将使用官方提供的PyKAN库，这是一个专为KAN模型设计的Python实现。

2.1 安装依赖

确保你的Python版本在3.8以上，然后安装必要的库：

pip install pykan numpy matplotlib scikit-learn

2.2 准备示例数据集

为了直观展示KAN的可解释性，我们选择一个简单的二分类任务：根据花瓣长度和宽度区分两种鸢尾花。使用scikit-learn内置的数据集：

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 加载数据，只取前两类（Setosa和Versicolor）和两个特征（花瓣长度和宽度） iris = load_iris() X = iris.data[iris.target < 2, 2:4] # 只取花瓣长度和宽度 y = iris.target[iris.target < 2] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

2.3 构建KAN模型

PyKAN提供了简洁的API来构建KAN模型。下面我们创建一个具有1个隐藏层（宽度为5）的KAN：

from pykan import KAN # 初始化KAN模型 model = KAN(width=[2, 5, 1]) # 输入层2个节点，隐藏层5个节点，输出层1个节点 # 打印模型结构 print(model)

这个简单的结构已经足够展示KAN的可解释性特性。注意，我们故意保持网络较小，以便更清晰地可视化决策过程。

3. 训练与可视化KAN模型

3.1 训练过程

KAN的训练与传统神经网络类似，但通常需要更多耐心：

# 训练模型 results = model.train(X_train, y_train, steps=1000, lr=0.01) # 评估测试集性能 accuracy = (model.predict(X_test).flatten() > 0.5) == y_test print(f"Test accuracy: {accuracy.mean():.2f}")

训练过程中，KAN会逐步调整每个权重函数的形状（样条曲线参数）。与MLP不同，这里的“学习”不仅包括调整权重大小，还包括调整权重函数的形状。

3.2 可视化权重函数

训练完成后，我们可以直接绘制输入层到隐藏层的权重函数：

import matplotlib.pyplot as plt # 可视化第一个输入特征（花瓣长度）到所有隐藏节点的权重函数 plt.figure(figsize=(12, 6)) for i in range(5): # 对每个隐藏节点 plt.subplot(2, 3, i+1) model.plot(beta=100, title=f'Weight function {i+1}') plt.tight_layout() plt.show()

这些曲线展示了花瓣长度特征如何被不同权重函数变换。例如：

如果某个权重函数在特定范围内斜率很大，说明模型对该范围内的特征变化非常敏感
如果函数呈现S形，说明模型对该特征进行了非线性归一化处理
平坦的区域表示模型对该范围内的特征变化不敏感

3.3 决策路径分析

更深入的可解释性分析可以追踪一个具体样本的决策路径：

# 选择一个测试样本 sample_idx = 0 x_sample = X_test[sample_idx] y_true = y_test[sample_idx] # 获取模型内部激活值 activations = model.activations(x_sample) print(f"Sample features: {x_sample}") print(f"True label: {y_true}, Predicted probability: {model.predict(x_sample.reshape(1, -1))[0,0]:.2f}") # 打印隐藏层激活值 print("\nHidden layer activations:") for i, act in enumerate(activations[1][0]): # 第一个隐藏层的激活值 print(f"Neuron {i+1}: {act:.2f}")

通过分析这些激活值，我们可以理解模型是如何组合不同特征的：

花瓣长度通过5个不同的权重函数被转换为5个中间值
这些中间值相加得到隐藏节点的激活值
隐藏节点的值再通过输出层的权重函数转换为最终预测概率

4. 高级可解释性技巧

4.1 特征重要性分析

我们可以通过“扰动”输入特征来量化它们对输出的影响：

def feature_importance(model, X, feature_idx, n_samples=100): """计算指定特征的重要性""" baseline = model.predict(X).mean() # 扰动指定特征 X_perturbed = X.copy() X_perturbed[:, feature_idx] = np.random.permutation(X_perturbed[:, feature_idx]) perturbed = model.predict(X_perturbed).mean() return abs(baseline - perturbed) # 计算两个特征的重要性 imp1 = feature_importance(model, X_test, 0) # 花瓣长度 imp2 = feature_importance(model, X_test, 1) # 花瓣宽度 print(f"Feature importance - Petal length: {imp1:.3f}, Petal width: {imp2:.3f}")

4.2 决策边界可视化

将KAN的决策过程与MLP对比可以更直观地理解其优势：

from sklearn.neural_network import MLPClassifier # 训练一个MLP作为对比 mlp = MLPClassifier(hidden_layer_sizes=(5,), max_iter=1000) mlp.fit(X_train, y_train) # 创建网格数据用于绘制决策边界 x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5 y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5 xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02)) # 预测整个网格 Z_kan = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape) Z_mlp = mlp.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1].reshape(xx.shape) # 绘制决策边界 plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) plt.contourf(xx, yy, Z_kan, alpha=0.8) plt.scatter(X[:, 0], X[:, 1], c=y, edgecolor='k') plt.title('KAN Decision Boundary') plt.subplot(1, 2, 2) plt.contourf(xx, yy, Z_mlp, alpha=0.8) plt.scatter(X[:, 0], X[:, 1], c=y, edgecolor='k') plt.title('MLP Decision Boundary') plt.show()

通过对比可以发现，虽然两种模型都能很好地分类数据，但KAN的决策边界通常更加平滑且易于解释，这与它的数学基础一致。