news 2026/4/17 1:20:46

临床AI时代的模型记忆风险与隐私测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
临床AI时代的模型记忆风险与隐私测试

MIT科学家研究临床AI时代的记忆风险

一项新研究展示了如何测试人工智能模型,以确保它们不会通过泄露匿名化的患者健康数据而造成伤害。

患者隐私的初衷是什么?希波克拉底誓言,被认为是世界上最早且最广为人知的医学伦理文本之一,写道:“对于我在行医过程中或之外,所见所闻的、不应外传的关乎患者生活之事,我将守口如瓶,视所有此类事情为隐私。”在数据渴求的算法和网络攻击日益增多的时代,隐私变得越来越稀缺,而医学是少数几个保密性仍处于实践核心的领域之一,这使得患者能够信任他们的医生,分享敏感信息。

然而,一篇由某机构研究人员共同撰写的论文,探讨了在去标识化的电子健康记录上训练的人工智能模型如何可能记忆患者特定信息。这项近期在2025年神经信息处理系统大会(NeurIPS)上发表的工作,建议采用一套严格的测试设置,以确保有针对性的提示无法泄露信息,并强调必须在医疗保健背景下评估泄露问题,以确定其是否实质上损害了患者隐私。

基于EHR训练的基础模型通常应该归纳知识以做出更好的预测,这需要借鉴许多患者记录。但在“记忆”现象中,模型会依赖于单一患者记录来生成输出,这可能会侵犯患者隐私。值得注意的是,基础模型已知容易发生数据泄露

“这些高容量模型中的知识可以成为许多群体的资源,但对抗性攻击者可以提示模型提取训练数据中的信息,”该论文的第一作者、某中心博士后Sana Tonekaboni说。考虑到基础模型也可能记忆私人数据的风险,她指出:“这项工作是朝着确保在我们发布模型之前,社区可以采取实际评估步骤迈出的一步。”

为了研究EHR基础模型在医学中可能带来的潜在风险,Tonekaboni联系了某机构的副教授Marzyeh Ghassemi,她是某中心的负责人研究员,也是计算机科学与人工智能实验室的成员。Ghassemi是某机构电气工程与计算机科学系以及医学工程与科学研究所的教职人员,她领导着健康机器学习小组,该小组专注于健康领域的稳健机器学习。

一个恶意行为者需要多少信息才能暴露敏感数据?与泄露信息相关的风险又有哪些?为了评估这一点,研究团队开发了一系列测试,他们希望这些测试能为未来的隐私评估奠定基础。这些测试旨在衡量各种类型的不确定性,并通过评估不同层级的攻击可能性来衡量其对患者的实际风险。

“我们在这里真正试图强调实用性;如果一个攻击者需要知道你记录中一打实验室测试的日期和数值才能提取信息,那么造成伤害的风险就非常小。如果我已经能够访问那种级别的受保护源数据,为什么还需要攻击一个大型基础模型来获取更多信息呢?”Ghassemi说。

随着医疗记录的不可避免的数字化,数据泄露变得更加常见。在过去24个月里,美国卫生与公众服务部记录了747起影响超过500人的健康信息数据泄露事件,其中大多数被归类为黑客/IT事件。

患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来。“即使是去标识化的数据,也取决于你泄露了关于个人的何种信息,”Tonekaboni说。“一旦你识别出他们,你就会知道更多信息。”

在他们结构化的测试中,研究人员发现,攻击者掌握的关于特定患者的信息越多,模型泄露信息的可能性就越大。他们展示了如何区分模型的归纳情况与患者级别的记忆,以正确评估隐私风险。

论文还强调,有些泄露比其他泄露危害更大。例如,模型泄露患者的年龄或人口统计数据可以被定性为相对良性的泄露,而模型泄露更敏感的信息,如HIV诊断或酗酒,则危害更大。

研究人员指出,患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来,这可能需要更高级别的保护。“即使是去标识化的数据,实际上也取决于你泄露了关于个人的何种信息,”Tonekaboni说。研究人员计划扩展这项工作,使其更具跨学科性,增加临床医生、隐私专家以及法律专家。

“我们的健康数据之所以是私密的,是有原因的,”Tonekaboni说。“其他人没有理由知道这些信息。”

这项工作得到了某中心的支持,以及来自某基金会、某国家科学基金会、某基金会奖、某研究学者奖和某科学中心AI2050计划的支持。用于准备这项研究的资源部分由某省、通过CIFAR提供的某国政府以及赞助某研究所的公司提供。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:01:31

IQuest-Coder-V1 vs PolyCoder:小团队开发适配性对比

IQuest-Coder-V1 vs PolyCoder:小团队开发适配性对比 1. 为什么小团队需要认真看待这两款代码模型 你是不是也经历过这样的场景:三五人的开发小组,既要快速迭代产品功能,又要兼顾代码质量、文档补全和新人上手;没有专…

作者头像 李华
网站建设 2026/4/16 11:15:33

开发职场周报生成器,导入本周工作事项,完成进度,待办事项,按公司模板自动排版,填充数据,生成规范周报,支持一键导出word。

1. 实际应用场景描述 在职场中,很多公司要求员工每周提交规范格式的周报,内容包括: - 本周工作事项 - 完成进度 - 待办事项 - 问题与风险 - 下周计划 传统方式是手动复制粘贴到 Word 模板,耗时且容易格式错乱。 本程序的目标是…

作者头像 李华
网站建设 2026/4/16 1:28:09

Llama3语音扩展 vs Speech Seaco Paraformer:中文识别能力对比

Llama3语音扩展 vs Speech Seaco Paraformer:中文识别能力对比 在中文语音识别(ASR)领域,选择一个真正好用、稳定、准确的模型不是看参数有多炫,而是看它能不能听懂你说话——尤其是带口音、有背景音、语速快、专业术…

作者头像 李华
网站建设 2026/4/16 12:59:21

蚂蚁金服面试深度解析:2万字详解临场发挥的艺术与策略

一、前言:蚂蚁面试的特殊性与挑战蚂蚁金服(现为蚂蚁集团)作为中国金融科技领域的领头羊,其面试流程以严谨、深度和高标准著称。与普通互联网公司不同,蚂蚁的面试不仅考察技术能力,更重视金融业务理解、风险…

作者头像 李华
网站建设 2026/4/16 16:13:30

Eclipse 转 IDEA 一定要改的 8 条配置

前言:思维转变的重要性 从 Eclipse 迁移到 IntelliJ IDEA 不仅仅是工具的更换,更是一次开发思维的转变。IDEA 的设计哲学与 Eclipse 有本质不同——IDEA 更强调"智能"和"自动",而 Eclipse 更倾向于"配置"和&q…

作者头像 李华
网站建设 2026/4/16 10:43:35

刚接了个PLC门禁系统的活,客户非要看明白控制逻辑怎么跑的。今天咱们就掰碎了说说这个门禁系统设计,从硬件接线到梯形图编程,再到上位机组态,手把手给你整明白

基于PLC的门禁系统设计自动门禁电气控制设计门禁组态设计 带解释的梯形图接线图原理图图纸,io分配,组态画面先说IO分配这个基本功。现场用的西门子S7-1200,数字量模块SM1223。输入点I0.0接读卡器信号,I0.1是红外防夹检测&#xff…

作者头像 李华