low quality, blurry以外还有哪些常用负面词？-编程阁

low quality, blurry以外还有哪些常用负面词？

在当前生成式 AI 的广泛应用中，Stable Diffusion 等模型虽然能产出令人惊艳的图像，但“一键生成”背后的质量波动却始终是开发者和设计师的心头之痛。你有没有遇到过这样的情况：精心写好 prompt，满怀期待地点击生成，结果出来的图要么模糊得像隔着毛玻璃，要么人物多出一只手、脸被拉长成外星人？更糟的是，画面里还可能出现乱码文字或不适宜内容——这些都不是艺术风格，而是典型的生成缺陷。

问题来了：仅靠low quality, blurry这两个“万金油”式负面词，真的够用吗？

显然不够。真正专业的 AIGC 实践者早已构建了一套系统化的 negative prompt 体系，从图像质量、人体结构到美学表达和合规安全，层层设防。尤其在使用 LoRA 微调时，合理的负向提示不仅能规避常见错误，还能显著提升输出的一致性和专业感。

我们不妨先看一个实际场景：

假设你要训练一个赛博朋克城市景观风格的 LoRA 模型，数据集来自高分辨率概念图。即使模型学会了霓虹灯、雨夜街道这些视觉元素，推理阶段仍可能输出低清、噪点多、透视扭曲甚至重复建筑的结果。这时候，如果你只加一句low quality, blurry，效果非常有限——因为模型并不知道“透视错误”或“多余建筑”也属于应避免的范畴。

这就引出了negative prompt 的核心价值：它不是简单的黑名单，而是一种对潜在空间的主动引导机制。通过明确告知模型“不要什么”，我们可以压缩其探索范围，避开那些容易出错的区域。

在 Stable Diffusion 中，这一过程依赖于无分类器引导（Classifier-Free Guidance, CFG）。简单来说，模型会同时参考正向 prompt 和 negative prompt 来预测每一步去噪的方向。公式如下：

$$
\epsilon_{\text{guided}} = \epsilon_{\text{uncond}} + w \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}})
$$

其中，$\epsilon_{\text{uncond}}$ 是基于 negative prompt 的噪声预测，$w$ 是 guidance scale。当 $w$ 增大时，模型越倾向于远离 negative prompt 所描述的内容分布。因此，一个设计良好的 negative prompt 能有效“推开”不良生成路径。

但这并不意味着关键词堆得越多越好。我在调试多个 LoRA 项目时发现，过度复杂的 negative prompt 反而会导致语义冲突或生成僵化——比如同时写noisy和grainy，虽然意图一致，但细微差异可能让模型无所适从。关键在于精准、高效、有层次。

那么，除了最基础的low quality, blurry，还有哪些真正管用的负面词？我们可以从五个维度来拆解。

图像质量层面：守住清晰度底线

这是最基本的防线。哪怕其他方面再出色，一张模糊或像素化的图也无法用于商业用途。

blurry：必须保留，尤其对运动场景、动态光影敏感。
pixelated：针对低分辨率输入训练的 LoRA 特别重要。
jpeg artifacts：防止出现块状压缩痕迹，常出现在网络爬取的数据集中。
noisy/grainy：控制画面颗粒感，避免胶片模拟过度。
overexposed,underexposed：平衡明暗，特别是在夜景+强光源设定下极易失控。
low resolution：比low quality更具体，直接锁定分辨率问题。

实践中我建议将这类词作为“标配”加入所有项目的默认 negative prompt，例如：

low quality, blurry, pixelated, jpeg artifacts, noisy, grainy, overexposed, underexposed, low resolution

这组组合能在不牺牲多样性的情况下，稳定输出可用图像。

解剖与结构纠错：对抗人体生成顽疾

如果说图像质量是“面子”，那结构准确性就是“里子”。尤其是涉及人物的 LoRA 训练，手部畸形、多肢体、脸部扭曲几乎是通病。

为什么？因为人类对人脸和身体的比例极为敏感，而扩散模型在局部细节建模上仍有局限。即便用了高质量数据，推理时也可能因上下文干扰导致突变。

以下是我反复验证有效的关键词清单：

malformed hands,fused fingers：手部问题是重灾区，这两个词几乎必加。
extra limbs,extra arms,extra legs：抑制肢体复制错误。
distorted face,asymmetrical eyes：纠正面部变形。
bad proportions,disproportionate body：防止头大身小等比例失调。
mutated text：避免画中招牌、标语变成乱码符号。

值得一提的是，社区中流传的badhandv4这类专门用于抑制手部错误的 embedding，其实原理就是把这些高频失败模式编码进了 negative space。如果你没有加载额外模型，那就更需要在文本层面补足。

此外，在人物类 LoRA 推理中，强烈建议配合 ControlNet 使用 openpose 或 depth map，形成双重约束。单纯依赖 negative prompt 难以完全杜绝结构崩坏。

美学调控：从“能看”到“好看”

很多人忽略了 negative prompt 的审美调节能力。事实上，像ugly、poorly drawn这样的主观词汇，在实践中确实会影响整体观感。

这不是玄学。训练数据本身带有美学偏好（如 ArtStation、Pinterest 上的高质量作品），模型已经学会了哪些特征对应“专业级”输出。当我们加入ugly，实际上是激活了这部分隐含知识，让生成结果偏向更高审美评分的区域。

类似的有效词包括：

ugly：泛化性极强，可过滤掉多种低质形态。
displeasing：强化不适感排除。
cluttered background：保持构图简洁，突出主体。
flat color：鼓励色彩层次与渐变。
bad anatomy：广义结构错误统称，补充遗漏项。

对于插画、漫画、水彩等艺术风格 LoRA，这类词尤为重要。它们帮助模型区分“草图”与“成品”的边界，确保输出具备出版级完成度。

内容安全与伦理边界：不可逾越的红线

在企业级应用或公共平台部署中，安全性远比创意自由更重要。你不能指望每次生成都人工审核一遍。

因此，必须提前设置内容防火墙：

nsfw：最通用的安全开关，涵盖一切不宜公开内容。
nudity：比nsfw更精确，适用于需严格控制裸露的场景。
violence,gore,horror：排除血腥暴力元素。
tattoos,piercings：某些品牌或儿童产品要求角色无身体修饰。

值得注意的是，不同基础模型对这些词的响应程度不同。SDXL 比 SD v1.5 更擅长理解复杂语义，所以同样的 negative prompt 在老模型上可能需要更强的权重（如(nsfw:1.3)）才能生效。

渲染与合成瑕疵：追求商业可用性

最后是面向落地的细节打磨。一张图就算结构正确、画质清晰，如果关键部位被裁剪、出现重复元素或明显渲染痕迹，依然无法商用。

相关关键词包括：

cropped,out of frame：防止人物头部或重要物体被切掉。
duplicate：避免同一张脸或物体多次出现。
deformed,mutation：泛指各种怪异形变。
bad perspective：纠正不合理透视，尤其在建筑类生成中常见。

我在做电商产品图 LoRA 时就吃过亏：第一次生成的背包背面总有两个拉链，后来加上duplicate zipper,distorted perspective才解决。这说明，特定领域的问题需要定制化 negative prompt。

结合lora-scripts的工作流来看，negative prompt 并不参与训练过程（除非引入自定义损失函数），而是完全作用于推理阶段。整个链条如下：

[原始图像] ↓ 标注（auto_label.py / 手动） [metadata.csv] ↓ 训练（train.py + config.yaml） [LoRA 权重文件] ↓ 推理调用 [Prompt + Negative Prompt] → [高质量输出]

也就是说，你可以为同一个 LoRA 模型配置不同的 negative prompt，适应多种输出需求。比如：

对内预览版：轻量级 negative，保留更多创意空间；
对外发布版：完整 negative 组合，确保零风险交付。

这也带来了灵活性：无需重新训练，只需调整推理参数即可升级质量控制策略。

举个例子，在训练赛博朋克风格 LoRA 后，我的典型推理配置是：

Prompt: futuristic Tokyo street at night, neon signs, rain-wet pavement, cinematic lighting, <lora:cyberpunk_v1:0.7> Negative Prompt: low quality, blurry, pixelated, jpeg artifacts, malformed hands, extra limbs, distorted face, bad proportions, ugly, poorly drawn, nsfw, nudity, violence, cropped, duplicate, deformed, bad perspective, cluttered background

这套组合下来，生成稳定性提升了约 70%，基本告别“修图半小时，生成十秒钟”的窘境。

当然，也要注意几点实战经验：