思维链(Chain-of-Thought):让 AI “一步步想”
直接问 AI 一道复杂的数学题,它可能秒回一个错误答案。但在提问后面加上"请一步步思考"——准确率可能从 20% 跳到 80%。这就是思维链的魔力。
一句话定义
思维链(Chain-of-Thought,简称 CoT)是一种提示技术,通过引导大模型在给出最终答案前先展示推理的中间步骤,从而显著提升复杂推理任务的准确率。
为什么需要思维链?
人类的思维方式和早期 AI 的"思维方式"有本质区别:
人类做复杂题目: 15 × 23 = ? → 10 × 23 = 230 → 5 × 23 = 115 → 230 + 115 = 345 → 答案:345 (分步计算,每步简单,逐步累积得到正确答案) 早期 AI 的方式: 15 × 23 = ? → 345(直接跳到答案) (如果问题更复杂,就更容易算错)思维链的核心洞察:让模型"把思考过程写出来",和人类"打草稿"是同一个道理。
不使用思维链: 模型直接输出答案 → 中间推理过程"黑盒" → 容易出错 使用思维链: 模型先写推理过程 → 每一步都相对简单 → 最终答案更准确 → 而且:你可以检查它的推理过程,发现错误在哪通俗类比:考试时的"过程分"
数学考试: 只写最终答案(无思维链): "345" → 老师无法判断你是算对的还是蒙对的 写完整解题过程(有思维链): "15 × 23 = 15 × 20 + 15 × 3 = 300 + 45 = 345" → 即使最终答案算错,过程分也拿到了 → 更重要的是,你自己能在过程中发现错误 AI也一样:展示推理过程 = 更可靠 + 可检查思维链的几种使用方式
1. 零样本思维链(Zero-Shot CoT)
最简单的用法——在问题后面加一句话:
提示词: "一个游泳池,长50米,宽20米,深2米。如果每小时注入100立方米水, 多久能注满?请一步步思考。" 关键就三个字:"一步步思考" → 模型会自动展开推理过程这个方法由 Google 在 2022 年的论文中首次提出,简单到不可思议,却极为有效。
2. 少样本思维链(Few-Shot CoT)
给几个带有推理过程的示例:
提示词: Q: Roger有5个网球。他又买了2罐网球,每罐3个球。他现在有多少个网球? A: Roger开始有5个球。2罐 × 3个/罐 = 6个新球。5 + 6 = 11。答案是11。 Q: 餐厅有23张桌子。如果每张桌子坐4人,但3张桌子被预约了,还能坐多少人? A: 总共有23张桌子。23 × 4 = 92人。3张被预约 = 3 × 4 = 12人。92 - 12 = 80。答案是80。 Q: 小明有15块糖,给了弟弟1/3,又买了5块,给了朋友7块,最后给了妈妈一半。妈妈得到几块? A:模型会模仿前面示例的推理格式,一步步给出正确答案。
3. 自动思维链(Auto-CoT)
让模型自动生成推理过程:
1. 用大模型自动生成大量的"问题 + 推理过程 + 答案" 2. 过滤掉推理有误的 3. 聚类选择有代表性的 4. 用这些自动生成的示例做 Few-Shot CoT → 不需要人工编写推理示例,完全自动化思维链为什么有效?
从技术角度看,有几个原因:
1. 分解问题: 复杂问题 = 多个简单问题 每个简单问题模型都能处理 分步处理 > 一步到位 2. 更多"计算空间": 直接给答案:只输出几个字(计算量少) 展示推理:输出几百字(给模型更多"思考时间") → 更多的 token = 更多的计算 = 更好的结果 3. 错误可定位: 如果最终答案错了,看推理过程就能找到哪一步出错 → 方便调试和改进思维链的进阶变体
| 变体 | 核心思想 | 说明 |
|---|---|---|
| CoT | 一步步线性思考 | 基础版 |
| ToT(思维树) | 多分支探索 | 像下棋一样,考虑多种可能的推理路径 |
| GoT(思维图) | 推理路径之间可以合并 | 不同的推理思路可以互相补充 |
| ReAct | 推理 + 行动交替 | 想一步 → 做一步 → 再想下一步 |
| Self-Consistency | 多次推理取投票 | 同一个问题让模型想多次,取最常见的答案 |
ToT 思维树的通俗理解
思维链(CoT): 问题 → 想法A → 想法B → 答案 (只有一条推理路径,走错了就是错了) 思维树(ToT): 问题 → 想法A → 分支A1 → 答案1 → 分支A2 → 答案2 → 想法B → 分支B1 → 答案3 → 分支B2 → 答案4 (多条推理路径,选择最优的)思维链的局限
| 局限 | 说明 |
|---|---|
| 简单问题不需要 | "1+1等于几?"加"一步步思考"反而啰嗦 |
| 模型能力不足时效果差 | 小模型可能"假装思考"但推理过程错误 |
| 增加响应时间和成本 | 推理过程多了几倍 token,更贵更慢 |
| 不是所有任务都适用 | 翻译、摘要等任务不需要推理,用 CoT 没帮助 |
| 推理可能不准确 | 2026年研究表明,模型的思维链有时只是"事后合理化",并非真正的推理过程 |
从提示技巧到内置能力
思维链最初只是提示工程的一种技巧,但现在已经演变成大模型的内置能力:
2022年:需要在提示词中加"请一步步思考"(提示技巧) 2024年:OpenAI o1 模型内置"思考"环节(模型自动思考) 2025年:DeepSeek-R1 通过强化学习学会"慢慢想"(本专栏 P07) 从"外部提示"到"内在能力",思维链已经成为推理模型的标准配置一句话总结
思维链的核心启示是:让 AI "慢慢想"比让它"快快答"更可靠。这个看似简单的道理——先展示推理过程,再给出最终答案——不仅大幅提升了复杂任务的准确率,还催生了 o1、DeepSeek-R1 等新一代"推理模型",让 AI 从"秒回答案的答题机器"进化为"会思考的问题解决者"。
延伸阅读
- 论文解读 P07:DeepSeek-R1 —— 通过强化学习让 AI 自发学会"慢慢想"
- 词汇专栏 W05:RLHF —— ChatGPT 是如何学会"听话"的
- 词汇专栏 W15:Prompt —— 思维链是提示工程的重要技巧之一
标签:#AI术语#思维链#Chain-of-Thought#CoT#推理#提示工程#大模型