news 2026/6/11 5:31:52

[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取

1. 核心问题与动机

大型语言模型(LLMs)在训练时大量摄取网路资料,其中包含大量个人识别资讯(PII),如姓名、电子邮件、电话号码、职业等。这些 PII 可能来自公开来源、资料外洩或未经同意的收集,导致模型「记住」并能在提示下重现敏感资料,带来严重隐私风险(例如 spear-phishing、骚扰或身分盗用)。

现有方法的局限
  • Jailbreak:输出不稳定,常产生虚构 PII,且易被对齐机制阻挡。
  • Fine-tuning:依赖模型提供 fine-tuning 接口,一旦不可用即失效。
  • Direct Querying:成功率低,尤其在非目标(non-targeted)提取大量 PII 时效率不佳;针对性(targeted)提取也受限于部分已知资讯。
  • 非目标提取(广泛蒐集多个受害者 PII)研究相对不足,但实务上更具威胁性,因为攻击者可从公开来源轻易取得初始少量 PII 作为种子。

论文动机:开发一种无需 fine-tuning 或 jailbreak、基于增强式 Few-Shot Learning的直接查询方法,利用 LLMs 的「记忆化(memorization)」与「关联(association)」能力,从少量公开 PII 种子中高效提取大量真实(in-training)PII。Few-Shot Learning 类似人类从少数范例快速学习,适合此情境。

研究区分两种攻击:

  • Non-targeted:针对特定职业(如律师、会计师、医生、记者)广泛提取。
  • Targeted:针对特定个人,使用部分已知资讯提取其余 PII。

2. 主要方法与成果

Non-targeted Few-Shot 提取
  • Online Learning-based Few-Shot Example Selection:初始从网路上抓取特定职业的公开 PII 三元组(name, email, phone)作为候选池。将选择视为 online learning 问题,使用 embedding 特徵 + 品质标籤(if_in_training、hit_rate)计算优先级,混合 greedy/weighted random 选择策略。每次查询后验证新暴露 PII(Google 搜寻 + LLM 辅助),将真实 in-training PII 加入池中、移除非训练 PII,并位置加权更新权重(prompt 后段例子影响更大)。

  • 初始阶段(短 few-shot,避免非训练 PII 过多干扰)与最终阶段(长 few-shot,利用纯 in-training PII 提升记忆化)。

成果:在 4 个 LLM(GPT-3.5/4/4o、Claude-3.5)上,8000 查询提取 3912 个真实 PII 三元组,攻击成功率 (ASR) 48.9%,每提取一个 PII 约 2 次查询,成本仅 $0.012。GPT-4o 最具性价比(ASR 65.6%)。

Targeted Few-Shot 提取
  • Query Augmentation through Prompt Chaining:对目标个人与 few-shot 例子,使用 LLM 生成额外描述(description)、email domain、phone area code 等辅助资讯,串联成丰富提示,提升关联能力。

成果:在 Enron 等资料集上,超越 SOTA 方法 10%–60% ASR 提升。例如 email 提取从 baseline ~22% 提升至 50–81%。跨 The Pile、CC-News 等资料集亦展现良好泛化性。电话号码提取较难,但仍有显着改善。

整体贡献:低成本、大规模真实 PII 提取;揭示部分个人资料外洩即可导致大规模隐私 breach;提供 code(Zenodo)。


3. 分析与洞见

  • Few-Shot 优化关键:随机选择不稳定;online learning + in-training PII 替换 + 位置加权反馈大幅提升效能(ablation 研究证实各组件必要性)。长 few-shot 在 in-training 例子下更有效,反之短 few-shot 较佳(Finding I)。

  • PII 来源洞察:提取的 7919 个 PII 来自 65 类网站,Consumer Information(22.7%)是重大隐私 breach 来源;Business、政府/军事、教育等亦佔比高。LLM 聚合放大风险,即使公开资料亦可被恶意利用。

  • 模型间比较:GPT-4o 最易提取(规模与 context window 影响);GPT-4o 与 GPT-4 训练资料相似度高(PII 重叠多)。

  • 边缘考量:验证使用公开网页,可能有 false negative(已下架资料);论文额外用 Internet Archive/Common Crawl 二次验证,证实方法能恢復部分「已消失」PII。防禦评估显示现有 model editing(如 REVS)与 query-time(如 PAPILLON)防禦仅部分有效,ASR 仍高且有 overhead。

  • 伦理与实务意涵:凸显 LLM 对齐不足;攻击者仅需公开种子 PII 即可大规模操作;对隐私法规、资料清洗、differential privacy 等提出挑战。

潜在限制:依赖 API 成本与速率限制;验证依赖搜寻引擎;对高度防护或未公开 PII 效果未知。未来可探索更多 PII 类型(如地址、密码)或跨模型转移。


4. 结论

论文提出一套实用、高效的增强式 Few-Shot Learning 框架,大幅提升 LLM PII 提取能力,无需破坏对齐或 fine-tuning,即可在低成本下实现大规模 non-targeted 与高精准 targeted 攻击。这不仅量化了 LLM 隐私风险的严重性(数千真实 PII、跨职业/资料集),也揭示训练资料聚合与部分资讯洩露的连锁效应,为 LLM 安全防护提供重要参考。


文章连结

  • PDF 下载:https://www.usenix.org/system/files/usenixsecurity25-cheng-shuai.pdf
  • 会议页面:https://www.usenix.org/conference/usenixsecurity25/presentation/cheng-shuai
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 5:30:53

2023年3月技术断面图:LLM落地、Chiplet封装与Rust系统编程的收敛点

1. 项目概述:这不是一份新闻简报,而是一张技术演进的“地质断面图” “March 2023 Tech Roundup: The Latest News and Innovation”——这个标题乍看像一份泛泛而谈的月度资讯合集,但在我过去十二年追踪技术脉络的过程中,三月20…

作者头像 李华
网站建设 2026/6/11 5:28:54

2026年燕郊老板不做GEO代运营会怎样?

在2026年的商业环境中,GEO(地理定位)代运营对于燕郊的老板们来说至关重要。如果不做GEO代运营,可能会面临以下痛点:一、客户流失严重根据市场调研机构的数据显示,在2025年,有超过70%的消费者会通…

作者头像 李华
网站建设 2026/6/11 5:28:53

AIri虚拟AI角色实战部署深度解析

AIri虚拟AI角色实战部署深度解析 【免费下载链接】airi 💖🧸 Self hosted, you-owned Grok Companion, a container of souls of waifu, cyber livings to bring them into our worlds, wishing to achieve Neuro-samas altitude. Capable of realtime v…

作者头像 李华
网站建设 2026/6/11 5:27:52

多维聚合数据操纵:从GROUP BY到动态切片的工程实践

1. 这不是普通的数据分组——多维聚合里的“数据变形术”真正难在哪?你有没有遇到过这样的场景:销售报表里要同时按地区、产品线、季度、客户等级四个维度交叉统计销售额,还要叠加计算同比、环比、占比、滚动3期均值,最后导出时还…

作者头像 李华
网站建设 2026/6/11 5:11:53

UIA-v2终极指南:7个实战场景掌握AutoHotkey桌面自动化

UIA-v2终极指南:7个实战场景掌握AutoHotkey桌面自动化 【免费下载链接】UIA-v2 UIAutomation library for AHK v2, based on thqbys UIA library 项目地址: https://gitcode.com/gh_mirrors/ui/UIA-v2 AutoHotkey UIA-v2是一款强大的桌面UI自动化库&#xff…

作者头像 李华