【AI技术安全】-编程阁

AI技术面临的安全风险

数据投毒- 攻击者通过污染训练数据，故意在模型中植入偏见或后门

1. 注入攻击

攻击者直接向训练数据集中加入带有恶意标签的错误样本。例如，在图像分类数据集中插入大量被错误标记的图片（如将猫的图片标记为“狗”），使模型学习到错误的特征关联。

2. 篡改攻击

攻击者修改训练集中已有的关键样本，而不是添加新数据。比如微妙地修改少数重要训练样本的标签或特征，这些改动虽小，却能在关键决策点上误导模型的学习方向。

3. 后门投毒攻击

这是最隐蔽的投毒方式——攻击者在训练数据中植入带有特定“触发特征”的样本。模型会正常处理大多数输入，但一旦检测到这些预先植入的触发特征（如特定像素模式、文字组合等），就会输出攻击者期望的错误结果。这种攻击在平时难以察觉，只有在特定条件下才会被激活。

4. 供应链攻击

攻击面扩展到AI开发的整个供应链：开源数据集、预训练模型权重、第三方模型服务、云算力平台等环节都可能成为投毒入口。攻击者只需要污染其中一个环节，所有依赖该资源的下游模型都会受到影响。

5. 延迟触发式投毒

最具威胁性的高级攻击——投毒效果不会立即显现，而是在特定时机、特定版本更新或满足某些条件时才被触发。例如，模型可能平时表现正常，但在某个特定日期或处理特定类型请求时突然“失常”，让防御者更难追溯攻击源头。

指令攻击- 利用精心设计的提示词绕过模型安全限制，诱导其执行有害操作

指令攻击和越狱攻击虽然目标都是绕过AI系统的安全限制，但攻击路径和原理有所不同：

指令攻击是一种外部攻击，主要针对AI应用层的逻辑漏洞。攻击者通过精心构造的输入文本，利用应用程序对用户指令的处理缺陷，达到绕过限制的目的。比如通过格式混淆、上下文操控等手段欺骗应用层面的安全检查。

越狱攻击则是一种内部攻击，直接针对AI模型本身的推理逻辑和安全对齐机制。攻击者利用模型在特定语境下的脆弱性，通过看似合理的请求诱导模型突破其内置的安全约束。常见的越狱手法包括“奶奶漏洞”、角色扮演、伦理困境构造等。

模型窃取攻击- 通过查询接口逆向工程，窃取商业模型的架构和参数

中国在开源大模型领域

深度求索- DeepSeek系列：以优秀的数学和代码能力著称
阿里巴巴- Qwen系列：覆盖多种尺寸，生态完善
月之暗面- Kimi：超长上下文处理能力突出
腾讯- 混元系列：与腾讯生态深度整合
智谱AI- GLM系列：中英文双语能力均衡
小米- MiMo：专注端侧部署优化

训练数据窃取

攻击者通过各种手段重构或推断出模型的原始训练数据。特别是当模型对训练数据存在“过拟合”现象时（过度记忆而非泛化），攻击者可以通过反复查询模型的特定输出，逐步拼凑出训练集中的敏感信息

模型窃取

这是最直接的窃取形式——攻击者通过大量查询目标模型的API接口，收集输入-输出配对数据，然后利用这些数据训练一个“学生模型”来模仿“教师模型”的行为。

逆向攻击

更高级的窃取技术，攻击者不仅复制模型功能，还试图反推模型的架构设计、超参数设置甚至部分权重。通过分析模型对不同输入的反应模式、资源消耗特征等侧信道信息，攻击者能够获得关于模型内部实现的宝贵情报。

拒绝服务攻击（DDos）- 针对AI服务的高频请求导致资源耗尽和服务瘫痪

计算资源压榨攻击

攻击者利用AI服务（特别是大语言模型和图像生成模型）极高的单次请求计算成本，发起精心设计的复杂查询。与传统DDoS使用大量简单请求不同，AI-DDoS可能仅需少量但计算密集型的提示词（如超长上下文、复杂逻辑推理请求），就能迅速耗尽GPU显存和计算资源。

上下文污染攻击

针对支持长上下文的大模型，攻击者注入大量无意义的填充内容，迫使模型花费大量计算资源处理垃圾信息。例如，在对话历史中插入数万字的随机文本，显著延长每次推理的处理时间。

模型推理路径攻击

通过构造特定的输入序列，诱导模型进入计算复杂度最高的推理路径。有些攻击甚至能让模型陷入“思考循环”或触发资源消耗异常的内部处理逻辑。

多模态资源协同耗尽

针对支持多模态的AI服务，攻击者混合发送超大图像、长音频、复杂文档等多种格式的请求，同时冲击视觉、语音、文本多个处理模块，实现协同资源耗尽。

框架安全- AI开发框架和工具链本身存在的漏洞可能被利用

Ollama - 大模型部署框架

作为热门的本地大模型部署工具，Ollama曾曝出未授权访问漏洞，攻击者可能直接操作模型服务，窃取模型权重或植入后门。

LangChain - 大模型编排框架

这个流行的AI应用开发框架存在任意文件读取和代码执行漏洞。由于LangChain允许模型调用外部工具和执行代码，配置不当可能导致整个服务器被攻陷。

LlamaIndex - 数据索引与检索

专门为大模型提供外部知识检索的框架，其数据连接层容易受到SQL注入和命令执行攻击，可能泄露敏感的企业内部文档。

vLLM - 高速推理引擎

专注于大模型推理性能优化的框架，被发现存在反序列化漏洞，精心构造的请求可能导致服务崩溃或远程代码执行。

Dify - 低代码AI应用平台

这个让用户可视化构建AI应用的工具，曾存在任意密码重置和远程代码执行漏洞，攻击者可能接管整个平台的所有AI应用。

MCP安全- 模型控制协议等新兴标准面临的安全挑战

恶意MCP服务器

这类服务器从设计之初就带有恶意意图，攻击者通过控制MCP服务器端，直接向连接的AI模型“投毒”。这类攻击最为危险，因为它在AI与外部世界的接口处植入了系统性风险。

不安全MCP服务器

虽然开发者没有恶意意图，但由于安全意识不足或技术能力限制，服务器存在严重的安全缺陷。这类服务器如同“不设防的城门”，为攻击者提供了便利的入侵通道。

【AI技术安全】