low quality, blurry以外还有哪些常用负面词?
在当前生成式 AI 的广泛应用中,Stable Diffusion 等模型虽然能产出令人惊艳的图像,但“一键生成”背后的质量波动却始终是开发者和设计师的心头之痛。你有没有遇到过这样的情况:精心写好 prompt,满怀期待地点击生成,结果出来的图要么模糊得像隔着毛玻璃,要么人物多出一只手、脸被拉长成外星人?更糟的是,画面里还可能出现乱码文字或不适宜内容——这些都不是艺术风格,而是典型的生成缺陷。
问题来了:仅靠low quality, blurry这两个“万金油”式负面词,真的够用吗?
显然不够。真正专业的 AIGC 实践者早已构建了一套系统化的 negative prompt 体系,从图像质量、人体结构到美学表达和合规安全,层层设防。尤其在使用 LoRA 微调时,合理的负向提示不仅能规避常见错误,还能显著提升输出的一致性和专业感。
我们不妨先看一个实际场景:
假设你要训练一个赛博朋克城市景观风格的 LoRA 模型,数据集来自高分辨率概念图。即使模型学会了霓虹灯、雨夜街道这些视觉元素,推理阶段仍可能输出低清、噪点多、透视扭曲甚至重复建筑的结果。这时候,如果你只加一句low quality, blurry,效果非常有限——因为模型并不知道“透视错误”或“多余建筑”也属于应避免的范畴。
这就引出了negative prompt 的核心价值:它不是简单的黑名单,而是一种对潜在空间的主动引导机制。通过明确告知模型“不要什么”,我们可以压缩其探索范围,避开那些容易出错的区域。
在 Stable Diffusion 中,这一过程依赖于无分类器引导(Classifier-Free Guidance, CFG)。简单来说,模型会同时参考正向 prompt 和 negative prompt 来预测每一步去噪的方向。公式如下:
$$
\epsilon_{\text{guided}} = \epsilon_{\text{uncond}} + w \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}})
$$
其中,$\epsilon_{\text{uncond}}$ 是基于 negative prompt 的噪声预测,$w$ 是 guidance scale。当 $w$ 增大时,模型越倾向于远离 negative prompt 所描述的内容分布。因此,一个设计良好的 negative prompt 能有效“推开”不良生成路径。
但这并不意味着关键词堆得越多越好。我在调试多个 LoRA 项目时发现,过度复杂的 negative prompt 反而会导致语义冲突或生成僵化——比如同时写noisy和grainy,虽然意图一致,但细微差异可能让模型无所适从。关键在于精准、高效、有层次。
那么,除了最基础的low quality, blurry,还有哪些真正管用的负面词?我们可以从五个维度来拆解。
图像质量层面:守住清晰度底线
这是最基本的防线。哪怕其他方面再出色,一张模糊或像素化的图也无法用于商业用途。
blurry:必须保留,尤其对运动场景、动态光影敏感。pixelated:针对低分辨率输入训练的 LoRA 特别重要。jpeg artifacts:防止出现块状压缩痕迹,常出现在网络爬取的数据集中。noisy/grainy:控制画面颗粒感,避免胶片模拟过度。overexposed,underexposed:平衡明暗,特别是在夜景+强光源设定下极易失控。low resolution:比low quality更具体,直接锁定分辨率问题。
实践中我建议将这类词作为“标配”加入所有项目的默认 negative prompt,例如:
low quality, blurry, pixelated, jpeg artifacts, noisy, grainy, overexposed, underexposed, low resolution这组组合能在不牺牲多样性的情况下,稳定输出可用图像。
解剖与结构纠错:对抗人体生成顽疾
如果说图像质量是“面子”,那结构准确性就是“里子”。尤其是涉及人物的 LoRA 训练,手部畸形、多肢体、脸部扭曲几乎是通病。
为什么?因为人类对人脸和身体的比例极为敏感,而扩散模型在局部细节建模上仍有局限。即便用了高质量数据,推理时也可能因上下文干扰导致突变。
以下是我反复验证有效的关键词清单:
malformed hands,fused fingers:手部问题是重灾区,这两个词几乎必加。extra limbs,extra arms,extra legs:抑制肢体复制错误。distorted face,asymmetrical eyes:纠正面部变形。bad proportions,disproportionate body:防止头大身小等比例失调。mutated text:避免画中招牌、标语变成乱码符号。
值得一提的是,社区中流传的badhandv4这类专门用于抑制手部错误的 embedding,其实原理就是把这些高频失败模式编码进了 negative space。如果你没有加载额外模型,那就更需要在文本层面补足。
此外,在人物类 LoRA 推理中,强烈建议配合 ControlNet 使用 openpose 或 depth map,形成双重约束。单纯依赖 negative prompt 难以完全杜绝结构崩坏。
美学调控:从“能看”到“好看”
很多人忽略了 negative prompt 的审美调节能力。事实上,像ugly、poorly drawn这样的主观词汇,在实践中确实会影响整体观感。
这不是玄学。训练数据本身带有美学偏好(如 ArtStation、Pinterest 上的高质量作品),模型已经学会了哪些特征对应“专业级”输出。当我们加入ugly,实际上是激活了这部分隐含知识,让生成结果偏向更高审美评分的区域。
类似的有效词包括:
ugly:泛化性极强,可过滤掉多种低质形态。displeasing:强化不适感排除。cluttered background:保持构图简洁,突出主体。flat color:鼓励色彩层次与渐变。bad anatomy:广义结构错误统称,补充遗漏项。
对于插画、漫画、水彩等艺术风格 LoRA,这类词尤为重要。它们帮助模型区分“草图”与“成品”的边界,确保输出具备出版级完成度。
内容安全与伦理边界:不可逾越的红线
在企业级应用或公共平台部署中,安全性远比创意自由更重要。你不能指望每次生成都人工审核一遍。
因此,必须提前设置内容防火墙:
nsfw:最通用的安全开关,涵盖一切不宜公开内容。nudity:比nsfw更精确,适用于需严格控制裸露的场景。violence,gore,horror:排除血腥暴力元素。tattoos,piercings:某些品牌或儿童产品要求角色无身体修饰。
值得注意的是,不同基础模型对这些词的响应程度不同。SDXL 比 SD v1.5 更擅长理解复杂语义,所以同样的 negative prompt 在老模型上可能需要更强的权重(如(nsfw:1.3))才能生效。
渲染与合成瑕疵:追求商业可用性
最后是面向落地的细节打磨。一张图就算结构正确、画质清晰,如果关键部位被裁剪、出现重复元素或明显渲染痕迹,依然无法商用。
相关关键词包括:
cropped,out of frame:防止人物头部或重要物体被切掉。duplicate:避免同一张脸或物体多次出现。deformed,mutation:泛指各种怪异形变。bad perspective:纠正不合理透视,尤其在建筑类生成中常见。
我在做电商产品图 LoRA 时就吃过亏:第一次生成的背包背面总有两个拉链,后来加上duplicate zipper,distorted perspective才解决。这说明,特定领域的问题需要定制化 negative prompt。
结合lora-scripts的工作流来看,negative prompt 并不参与训练过程(除非引入自定义损失函数),而是完全作用于推理阶段。整个链条如下:
[原始图像] ↓ 标注(auto_label.py / 手动) [metadata.csv] ↓ 训练(train.py + config.yaml) [LoRA 权重文件] ↓ 推理调用 [Prompt + Negative Prompt] → [高质量输出]也就是说,你可以为同一个 LoRA 模型配置不同的 negative prompt,适应多种输出需求。比如:
- 对内预览版:轻量级 negative,保留更多创意空间;
- 对外发布版:完整 negative 组合,确保零风险交付。
这也带来了灵活性:无需重新训练,只需调整推理参数即可升级质量控制策略。
举个例子,在训练赛博朋克风格 LoRA 后,我的典型推理配置是:
Prompt: futuristic Tokyo street at night, neon signs, rain-wet pavement, cinematic lighting, <lora:cyberpunk_v1:0.7> Negative Prompt: low quality, blurry, pixelated, jpeg artifacts, malformed hands, extra limbs, distorted face, bad proportions, ugly, poorly drawn, nsfw, nudity, violence, cropped, duplicate, deformed, bad perspective, cluttered background这套组合下来,生成稳定性提升了约 70%,基本告别“修图半小时,生成十秒钟”的窘境。
当然,也要注意几点实战经验:
- 不要盲目堆砌:超过 15 个关键词后边际效益递减,优先选择高频有效词。
- 按主题动态调整:风景类可弱化 hand 相关词,专注 quality 和 composition;人物类则要加强 anatomy 防护。
- 善用括号语法:对关键项增加权重,如
(malformed hands:1.4),但不宜普遍加权,否则整体失衡。 - 考虑基础模型能力:SD v1.5 对 negative prompt 更依赖,而 SDXL 本身更强,可适当简化。
最终你会发现,掌握 beyond “low quality, blurry” 的负面词体系,本质上是在构建一套生成风险管理体系。它不仅是技术细节,更是工程思维的体现——如何在不确定中建立确定性,在自由创造中划定安全边界。
随着可控生成的发展,未来的 negative prompt 可能不再只是文本列表,而是演变为可学习的“否定知识库”,甚至支持可视化编辑。但在当下,扎实掌握这套词汇系统,依然是每位 AIGC 工程师不可或缺的基本功。
那种看着生成图一次通过、无需返工的感觉,才是真正高效的起点。