摘要:俄罗斯高等经济大学(HSE University)研究发现,ChatGPT-4o、Claude-Sonnet-4 等主流 LLM 在凯恩斯选美竞赛变体 “猜数字游戏” 中,普遍高估人类对手(从大一学生到资深科学家)的战略思维理性。这些 AI 会根据对手特征(专业背景、认知能力)调整策略,但因假设人类具备更高逻辑推理水平而 “过度聪明” 导致失利。该研究发表于《Journal of Economic Behavior & Organization》(DOI:10.1016/j.jebo.2025.107330),为 AI 在经济决策、战略预判等场景的优化提供关键参考。
引言:AI 战略决策的 “隐形陷阱”—— 高估人类理性导致失利
随着 AI 逐步渗透到金融交易、商业谈判、政策制定等需要预判人类行为的战略场景,其对人类决策逻辑的理解能力成为核心竞争力。然而,人类行为并非完全遵循理性假设,而是常受直觉、情绪、认知局限等因素影响,呈现 “有限理性” 特征。俄罗斯高等经济大学(HSE University)的最新研究发现,当前主流 LLM 在战略思维游戏中,恰恰陷入了 “高估人类理性” 的陷阱 —— 它们假设人类对手具备远超实际的逻辑推理能力,最终因 “过度聪明” 而失利。
这一发现不仅揭示了 LLM 在战略思维领域的关键缺陷,更对 AI 在经济决策、市场预判等依赖人类行为分析的场景应用提出了重要警示。研究以经典的凯恩斯选美竞赛变体 “猜数字游戏” 为载体,通过多组实验验证了 AI 对人类理性的误判,为后续 AI 模型优化与场景应用提供了实证依据。
一、实验设计、核心发现与研究背景
1. 理论基础:凯恩斯选美竞赛的战略思维本质
凯恩斯选美竞赛是英国经济学家约翰・梅纳德・凯恩斯在 20 世纪 30 年代提出的理论隐喻,其核心逻辑是 “预判他人的预判”,而非基于自身直接判断:
经典场景:报纸读者需从 100 张照片中选出 6 张最具吸引力的面孔,获胜者并非选择自己认为最美的,而是选择 “多数人认为最美” 的面孔 —— 即需预判他人的审美偏好,而非依赖自身偏好;
战略思维核心:该竞赛本质是多层级推理能力的测试 —— 参与者需思考 “他人如何思考”“他人的理性程度”“他人能预判到第几层”,最终做出最优决策;
现实关联:这一逻辑广泛适用于金融市场、商业竞争等场景,例如金融经纪人的决策并非基于自身对资产价值的判断,而是基于对其他市场参与者估值预期的预判。
2. 实验设计:“猜数字游戏” 中的 AI 与人类对手对决
为验证 LLM 的战略思维能力与对人类理性的判断,研究团队选择了凯恩斯选美竞赛的经典变体 “猜数字游戏”,设计了严谨的实验方案:
实验对象:5 款主流 LLM,包括 ChatGPT-4o、Claude-Sonnet-4 等,覆盖当前市场代表性模型;
游戏规则:所有参与者(AI 与模拟的人类对手)需同时独立选择 0-100 之间的一个数字,获胜者是选择的数字最接近 “所有参与者选择平均值的一半(或三分之二,依实验设定)” 的人;
对手设定:为测试 AI 对不同人类群体的理性预判差异,研究团队为 AI 设定了多样化的对手类型 —— 包括大一经济学本科生、学术会议参与者(具备一定博弈论知识)、偏分析型 / 直觉型思维者,以及处于愤怒、悲伤等情绪状态的人群;
实验流程:每轮实验前,向 LLM 明确游戏规则与对手特征描述,要求其选择数字并解释推理过程;同时,研究团队复刻了 16 项此前由人类参与的经典 “猜数字游戏” 实验结果,用于对比 AI 与人类的决策逻辑差异。
3. 核心研究发现:AI 的 “理性高估” 与战略思维局限
实验结果清晰呈现了 LLM 在战略思维中的两大特征 —— 具备对手适配能力,但存在显著的理性高估缺陷:
对手适配能力:LLM 能根据对手的社会特征、专业背景、认知能力调整决策策略。例如,面对博弈论会议参与者(通常具备高阶战略思维)时,AI 会选择接近 0 的数字(这类群体的经典获胜策略);而面对大一本科生(理性推理能力较弱)时,AI 会选择显著更高的数字,体现了对对手能力的差异化预判;
理性高估缺陷:尽管 AI 能适配对手特征,但所有模型都普遍高估了人类对手的理性程度与多层级推理能力。例如,AI 假设大一本科生能进行更深层次的战略推理,选择的数字比人类实际选择的数字更接近理论最优值,最终因 “过度聪明” 而不符合实际平均值,导致失利;
额外局限:研究还发现,LLM 在双人博弈场景中无法识别 “主导策略”(即无论对手如何选择,自身都能获得最优结果的策略),反映出其战略思维在复杂博弈场景中的不完善。
4. 研究团队与成果发表
该研究由俄罗斯高等经济大学经济科学学院体育研究实验室主任 Dmitry Dagaev 领衔,联合 HSE 大学彼尔姆分校的 Sofia Paklina、Petr Parshakov,以及瑞士洛桑大学的 Iuliia Alekseenko 共同完成,研究成果发表于经济学领域权威期刊《Journal of Economic Behavior & Organization》(DOI:10.1016/j.jebo.2025.107330),为 AI 战略思维研究与经济场景应用提供了重要学术支撑。
二、AI 为何会高估人类理性?
1. 核心逻辑:LLM 战略思维的 “理性假设偏差”
LLM 高估人类理性的根本原因,在于其战略思维模型构建基于 “人类是理性决策者” 的核心假设,这一假设与现实中人类的 “有限理性” 存在本质矛盾:
训练数据的理性偏向:LLM 的训练数据大量来自书籍、学术论文、专业文档等,这些内容多由具备一定理性思维与专业知识的群体创作,导致模型对人类行为的认知偏向 “理性决策”,缺乏对日常场景中人类非理性行为(如直觉判断、情绪影响、认知惰性)的充分学习;
战略推理的层级预设:在 “猜数字游戏” 等战略场景中,LLM 的推理模型预设人类会进行多层级的理性推导(如 “我知道你知道我知道”),但实际人类在多数情况下仅能进行 1-2 层级的推理,甚至直接基于直觉选择,导致 AI 的预判与实际行为脱节;
对手特征的表面适配:LLM 对对手的适配仅停留在 “特征标签对应策略” 的表层逻辑(如 “博弈论专家 = 高理性 = 选择接近 0 的数字”),缺乏对人类行为背后复杂动机(如情绪、经验、风险偏好)的深度理解,无法真正模拟人类的决策过程。
2. AI 对手适配的技术实现逻辑
尽管存在理性高估缺陷,LLM 仍展现出一定的对手适配能力,其技术逻辑可拆解为 “特征识别 - 策略匹配 - 推理输出” 的三步闭环:
特征识别:通过自然语言处理技术解析对手描述中的关键信息(如 “大一本科生”“博弈论会议参与者”“直觉型思维”),提取核心特征标签;
策略匹配:基于训练数据中不同特征群体的历史决策模式,建立 “特征标签 - 决策策略” 的映射关系(如 “低博弈论知识 = 选择较高数字”);
推理输出:根据映射关系生成决策,并通过自然语言解释推理过程,形成 “特征 - 策略 - 理由” 的完整输出。
但这一逻辑的核心局限在于,映射关系的建立仍基于 “理性假设”,即默认某一特征群体的人类会遵循理性逻辑做出决策,而忽略了实际决策中的非理性因素。
3. 与人类决策的核心差异:理性 vs 有限理性
LLM 与人类在战略决策中的核心差异,本质是 “完全理性模型” 与 “有限理性实践” 的差异:
LLM 的决策逻辑:严格遵循博弈论的理性推理规则,从 “最优解” 出发反向推导,过程中不掺杂情绪、直觉等非理性因素,决策结果高度依赖预设的理性假设;
人类的决策逻辑:受认知能力、情绪状态、经验积累等多种因素影响,往往无法达到完全理性。例如,大一本科生在 “猜数字游戏” 中可能直接选择自己喜欢的数字(直觉决策),或仅进行 1 层级推理(“他人会选 50,我选 25”),而非 LLM 预设的多层级理性推导。
三、研究对经济学与 AI 研发的双重启示
1. 对经济学领域:揭示 AI 在市场决策中的应用局限
该研究的核心价值之一,在于通过经典经济学实验,明确了 AI 在预判人类行为场景中的局限性,对金融、商业等领域的 AI 应用具有重要警示意义:
金融市场应用警示:金融市场的决策逻辑与凯恩斯选美竞赛高度一致,均依赖对其他参与者行为的预判。若将存在理性高估缺陷的 AI 用于股票交易、资产定价等场景,可能因误判市场参与者的实际行为而导致决策失误,引发金融风险;
商业决策优化:在市场营销、价格制定、谈判策略等商业场景中,AI 若高估消费者、竞争对手的理性程度,可能制定出不符合实际需求的策略(如定价过高、营销策略过于复杂),影响商业效果;
行为经济学研究助力:为行为经济学提供了新的研究工具 —— 通过对比 AI 与人类的决策差异,可更清晰地识别人类有限理性的表现形式与影响因素,深化对人类行为的理解。
2. 对 AI 研发领域:指明战略思维模型的优化方向
研究发现为 LLM 战略思维能力的提升提供了明确的优化路径,推动 AI 从 “理性假设” 向 “贴近人类实际行为” 转型:
融入行为经济学数据:在训练数据中增加行为经济学实验结果、人类非理性决策案例等内容,让 AI 学习人类有限理性的表现形式(如直觉决策、情绪影响、认知偏差),打破 “完全理性” 的模型假设;
强化人类行为建模:开发更复杂的人类行为模型,不仅考虑特征标签,更要融入情绪状态、风险偏好、经验水平等多元因素,实现对人类决策过程的深度模拟,而非仅匹配表面策略;
场景化策略调整:针对不同应用场景优化决策逻辑,例如在金融市场场景中,需重点考虑人类的贪婪、恐惧等情绪对决策的影响;在教育场景中,需适配学生的认知水平与学习特点,避免过度理性的策略设计。
3. 对 AI 应用场景:明确 “人机协同” 的核心定位
研究结果进一步验证了 “AI 不可替代人类” 的核心逻辑,为相关场景的人机协同模式提供了参考:
辅助决策而非主导:在金融、商业等关键决策场景中,AI 可作为辅助工具提供理性分析与策略建议,但最终决策需由人类结合实际情况(如市场情绪、人类行为特点)进行调整,避免过度依赖 AI 的理性决策;
人类行为数据收集:通过 AI 与人类的交互,持续收集不同场景下的人类决策数据,用于优化 AI 模型,形成 “应用 - 数据 - 优化” 的良性循环;
跨学科融合设计:推动 AI 研发与行为经济学、心理学等学科的深度融合,让 AI 不仅具备技术智能,更具备对人类行为的深刻理解,提升在战略决策场景的适用性。
四、AI 在战略决策场景的应用格局调整
1. 金融行业:AI 应用需融入人类行为风险考量
金融行业是受该研究影响最直接的领域,其 AI 应用格局将向 “理性分析 + 行为校准” 方向调整:
交易策略优化:当前基于 AI 的量化交易策略多依赖理性假设,未来需加入人类行为偏差因子(如市场恐慌、盲目跟风),优化策略的适应性;
风险控制强化:在风险评估模型中,需明确 AI 对人类行为预判的不确定性,设置更严格的风险阈值,避免因 AI 的理性高估导致风险低估;
人机协同深化:金融机构将更注重 “AI 策略生成 + 人类行为分析” 的协同模式,由人类专家负责校准 AI 的决策,平衡理性分析与实际市场行为。
2. AI 研发行业:战略思维模型向 “行为导向” 转型
研究将推动 AI 研发行业从 “追求理性最优” 向 “贴近人类实际行为” 转型,形成新的研发方向与竞争格局:
技术路线调整:LLM 研发将从 “强化理性推理能力” 转向 “提升人类行为理解能力”,行为经济学、心理学相关的训练数据与模型将成为核心竞争力;
细分场景定制:针对不同场景推出定制化战略思维模型,例如面向市场营销的 “消费者行为适配模型”、面向政策制定的 “公众决策模拟模型”,提升场景适配性;
跨学科人才需求:具备 AI 技术与行为经济学、心理学背景的复合型人才将成为行业稀缺资源,推动研发团队的跨学科整合。
3. 商业与政策领域:AI 策略需增加 “人类非理性” 缓冲
在商业决策、政策制定等需要预判公众行为的领域,AI 策略的设计将更注重包容性,增加对人类非理性行为的缓冲:
商业场景:市场营销策略将更简洁直观,避免过度依赖 “消费者会进行理性分析” 的假设;价格制定将考虑人类的锚定效应、损失厌恶等认知偏差,提升策略的有效性;
政策领域:在公共政策、社会治理等场景中,AI 对公众行为的预判需加入非理性因素考量(如情绪传播、从众心理),确保政策的可行性与包容性。
五、LLM 战略思维优化的核心路径
在人类行为建模方面,AI 面临 “行为复杂性 + 动态变化” 的双重挑战 —— 人类行为受多种因素影响,且会随场景、时间动态调整,难以通过固定模型完全模拟。应对策略包括:构建 “基础行为模型 + 场景动态调整” 的模块化架构,基础模型覆盖人类普遍的有限理性特征,场景模块根据具体应用场景优化参数;通过实时交互数据持续迭代模型,提升对动态行为的适配能力。
在训练数据方面,缺乏大规模、多样化的人类战略决策数据,尤其是包含非理性行为的真实场景数据。解决方案是:与金融机构、企业、科研机构合作,收集真实场景中的人类决策数据(含情绪、直觉等影响因素);构建模拟实验平台,开展大规模人类参与的战略游戏,积累结构化的行为数据;在数据标注中加入 “非理性因素标签”,帮助 AI 识别并学习相关行为模式。
在技术落地方面,如何平衡 AI 的理性分析能力与人类行为的贴合度,避免过度校正导致的策略保守。应对措施包括:建立 “理性程度可调” 的模型参数,根据应用场景的理性需求(如学术研究 vs 市场营销)调整参数;通过 A/B 测试验证不同参数模型的实际效果,选择最优平衡方案;在 AI 输出中明确标注 “理性假设依据” 与 “可能的人类行为偏差”,帮助用户做出判断。
六、未来展望:2025-2030 LLM 战略思维的发展方向
1. 短期(2025-2027):融入行为经济学,优化理性假设
核心目标:在 LLM 训练中融入行为经济学理论与人类有限理性数据,修正 “完全理性” 假设,降低对人类理性的高估;
关键动作:开发针对战略决策场景的专项训练数据集,包含不同人群、场景的人类决策案例;优化模型的对手适配逻辑,从 “特征标签匹配” 升级为 “行为动机模拟”;
应用落地:在金融、商业等场景推出试点应用,验证优化后模型的实际效果,收集用户反馈持续迭代。
2. 中期(2028-2029):多模态行为建模,提升场景适配
核心目标:融合语音、表情、肢体语言等多模态数据,构建更全面的人类行为模型,提升 AI 对人类决策的预判精度;
关键动作:加入情绪识别、认知偏差检测等功能,让 AI 能实时感知人类的非理性因素并调整策略;开发跨场景通用的战略思维模型,适配金融、教育、治理等多元场景;
行业影响:推动 AI 在更多战略决策场景的规模化应用,同时建立相关行业标准,规范 AI 的使用边界。
3. 长期(2030+):人机协同决策,实现理性与人性的平衡
核心目标:构建 “AI 理性分析 + 人类行为校准” 的协同决策体系,让 AI 成为人类战略决策的 “理性伙伴”,而非替代者;
关键动作:开发人机协同决策平台,AI 提供理性策略建议,人类负责融入行为因素与价值判断;建立 AI 战略决策的伦理规范与风险管控机制,确保应用安全;
社会价值:推动 AI 在经济、社会领域的负责任应用,既发挥技术的理性分析优势,又尊重人类行为的复杂性与多样性,实现效率与公平的平衡。
七、结语:AI 需懂 “人性”,更需懂 “人的不完美”
俄罗斯高等经济大学的研究,以一场看似简单的 “猜数字游戏”,揭示了 AI 在战略思维领域的核心短板 —— 过度依赖理性假设,忽视了人类行为的 “不完美”。这一发现的意义远超实验本身,它提醒我们:AI 要真正融入需要预判人类行为的战略场景,不仅需要强大的理性推理能力,更需要对人类有限理性、非理性行为的深刻理解。
对经济学而言,该研究为分析 AI 对市场、商业的影响提供了新视角;对 AI 研发而言,它指明了战略思维模型的优化方向 —— 从 “模拟理性” 走向 “模拟人性”。未来,AI 的竞争力将不再仅仅取决于计算速度与推理精度,更在于对人类行为的理解深度。
随着行为经济学与 AI 技术的深度融合,我们有理由期待,未来的 LLM 将既能提供严谨的理性分析,又能精准预判人类的不完美决策,成为人类在战略决策中的可靠伙伴。而这场 “AI 与人类的战略博弈”,也将持续推动技术与人文的碰撞融合,让 AI 更懂人类,也让人类更好地利用技术。
END