news 2026/4/16 12:30:00

Graph Unlearning---论文总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Graph Unlearning---论文总结

一、研究背景

1、隐私法规与被遗忘权

近年来,随着《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)等法律法规的颁布,数据隐私保护成为了全球关注的焦点。其中最重要且最具争议的条款之一是“被遗忘权”(Right to be Forgotten)。这意味着数据主体(用户)有权要求服务提供商删除其存储的个人数据。

2、机器遗忘

在机器学习(ML)背景下,仅仅从数据库中删除数据是不够的,因为模型在训练过程中已经“记住”了这些数据的信息。为了真正合规,模型提供者必须消除被撤销数据对模型参数的影响。这一过程被称为“机器遗忘”

  • 传统方法:最彻底的方法是删除数据后**从头重新训练(Retraining from scratch)**模型。但这在计算上非常昂贵,尤其是当数据集很大、模型很复杂时,频繁的重训是不现实的。

  • 近似方法(SISA):为了加速,学术界提出了近似算法。其中最先进的是SISA(Sharded, Isolated, Sliced, and Aggregated) 框架。它的核心思想是将训练数据随机划分成多个不重叠的碎片(Shards),每个碎片训练一个子模型。当需要删除某条数据时,只需要重新训练该数据所在的那个碎片对应的子模型即可,从而大大节省时间。

3、图神经网络的兴起

现实世界中有大量数据是以图(Graph)的形式存在的,如社交网络、金融网络、生物网络等。图神经网络(GNN)在处理这些非欧几里得数据方面表现出色。因此,如何在GNN中实现高效的“机器遗忘”成为了一个紧迫的问题。

二、研究动机

作者发现,直接将现有的 SISA 框架(主要针对图像和文本设计)应用到图数据上存在严重的问题。

1. 核心冲突:数据独立性 vs. 图结构依赖性
  • SISA的假设:图像或文本数据通常被视为独立同分布(I.I.D.)的。随机划分数据不会破坏数据的内在属性。

  • 图数据的特性:图中的节点不是独立的,它们通过边(Edges)相互连接,共享特征和标签信息。图的结构信息(Structure Information)对 GNN 的性能至关重要。

2. 现有方法的缺陷

如果直接对图数据使用 SISA(即随机划分节点到不同的碎片中):

  • 破坏结构:会切断大量的边,破坏图的拓扑结构。

  • 性能下降:导致子模型的预测准确率(Utility)大幅下降。

3. 潜在解决方案的挑战(社区发现的不平衡性)

为了保留图结构,一个直观的方法是使用社区发现(Community Detection)算法来划分图(将联系紧密的节点分在同一个碎片)。但是,真实世界的图通常具有幂律分布特性,导致社区大小极其不均匀(有的社区巨大,有的极小)。

  • 不平衡的后果:如果按照社区划分,会导致碎片大小极度不平衡。根据木桶效应,遗忘效率取决于最大的那个碎片的重训时间。如果被删除的节点恰好在最大的碎片中,重训时间依然很长,导致遗忘效率低下。

总结动机:

我们需要一种专门针对 GNN 的遗忘框架,它既能像社区发现那样保留图结构(保证模型准确性),又能像随机划分那样保证碎片大小均衡(保证遗忘效率)。

三、核心方法

作者提出的GraphEraser框架主要包含三个阶段:均衡图划分分片模型训练基于学习的聚合

阶段 1: 均衡图划分 (Balanced Graph Partition) ——这是论文最核心的创新点

作者提出了一个通用原则:将节点分配问题转化为排序与容量限制问题。设定每个碎片的容量上限 δ,并定义每个节点对于特定碎片的“偏好(Preference)”,优先满足高偏好的分配。

为了实现这一原则,作者提出了两种具体的算法:

  • 基础:基于标签传播算法(Label Propagation Algorithm, LPA)。

  • 改进逻辑:

    1. 初始化:随机将节点分配给 k个碎片。

    2. 偏好计算:计算每个节点 u 的邻居中有多少属于目标碎片 Cdst。邻居数越多,说明该节点越应该属于这个碎片(偏好越高)。

    3. 排序与分配:将所有 (节点, 目标碎片) 对按照邻居数量从高到低排序。

    4. 容量限制:按照排序顺序重新分配节点。关键点:如果目标碎片的当前节点数已经达到了上限 δ,则不允许该节点加入,必须寻找其他碎片或留在原处。

    5. 迭代:重复上述过程直到收敛或达到最大次数。

  • 适用性:适用于高度依赖图拓扑结构的模型(如 GCN)。

  • 基础:基于 K-Means 聚类算法。

  • 改进逻辑:

    1. 预处理:先用一个预训练的 GNN 提取所有节点的 Embedding(这样 Embedding 既包含特征信息也包含结构信息)。

    2. 初始化:随机选择 k 个质心。

    3. 偏好计算:计算节点 Embedding 到各质心的欧几里得距离。距离越近,偏好越高。

    4. 排序与分配:将 (节点, 质心) 对按距离从小到大排序。

    5. 容量限制:同样强制执行容量上限 δ。如果一个簇满了,距离再近的节点也进不去。

    6. 更新质心:根据新分配的节点更新质心位置。

  • 适用性:适用于对节点特征敏感的模型(如 GAT, GraphSAGE, GIN)。

阶段 2: 分片模型训练 (Shard Model Training)

在图被划分为 k个大小均衡的子图(碎片)后,作者在每个碎片上独立训练一个 GNN 子模型。

  • 遗忘操作:当收到针对节点u的遗忘请求时,GraphEraser 只需要定位到 u 所在的那个碎片,从该碎片中删除 u,然后重新训练该碎片的子模型。其他 k-1 个子模型保持不变。

  • 效率:由于碎片大小被强制均衡,任何一个碎片的重训时间都是可控且较短的。

阶段 3: 基于学习的聚合 (Learning-based Aggregation, LBAggr)

在推理阶段(预测未知节点的标签时),所有子模型都会给出一个预测结果。如何汇总这些结果?

  • 现有问题:传统的 SISA 使用“多数投票”(Majority Voting)。但这假设所有子模型同等重要。实际上,某些子模型可能因为包含了与目标节点更相关的结构信息,预测更准确。

  • LBAggr 方案:

    • 作者提出为每个子模型 i学习一个重要性权重αi

    • 优化目标:最小化加权聚合后的预测误差。公式如下:

      min⁡αEw∈G0[L(∑i=0mαi⋅Fi(Xw,Nw),y)]
    • 实现细节:从训练图中采样一小部分节点(例如 10%),用它们的真实标签来训练这个权重向量 a。

    • 最终预测:最终输出是各子模型输出后验概率的加权和。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 16:17:11

孤能子视角:人工智能的硅基文明,路遥且长

(稍为梳理小结一下前期的观点。信兄和千问分别分析) 我的问题: 现在或可见的将来,人工智能是伪人类意识智能体(准意能体)。距离碳基、硅基文明的路还蛮远。 人工智能与物理世界规律能够“通约”,其基础建立在人工智能的数据来源…

作者头像 李华
网站建设 2026/4/15 0:30:54

WebLogic漏洞复现(附带修复方法)_weblogic漏洞修复

WebLogic是美国Oracle公司出品的一个application server,确切的说是一个基于JAVAEE架构的中间件,默认端口:7001WebLogic是用于开发、集成、部署和管理大型分布式Web应用、网络应用和数据库应用的Java应用服务器。将Java的动态功能和Java Enterprise标准的…

作者头像 李华
网站建设 2026/4/14 18:20:07

vue基于Spring Boot货物代运物流系统的应用和研究_3r20sqz8

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/4/3 3:14:18

一文搞懂RAG:阿里70K算法岗为什么都在用它?

今天学点啥?每天10分钟,拆解一个真实岗位JD,搞懂一个大模型技术点。今天拆解的是阿里巴巴智能信息事业部的LLM算法岗,薪资给到了40-70K16薪(年薪最高112万),JD中的技术要求如下: ✅ …

作者头像 李华
网站建设 2026/4/16 11:06:08

全网最全:AI产品经理(AI PM)面试题及答案

首先不管你是面试官还是求职者,本套面试题是2025最新全网高频面试题及答案,建议点赞收藏,以免遗失。如果对你有所帮助,记得点个小红心告诉身边有需要的朋友。 📚 一、 基础认知与通用产品能力 1、请定义你认为的“AI大…

作者头像 李华