AI犯了高估人类的错！经济学家研究显示：LLM在战略游戏中因过度预判人类理性而失利-编程阁

摘要：俄罗斯高等经济大学（HSE University）研究发现，ChatGPT-4o、Claude-Sonnet-4 等主流 LLM 在凯恩斯选美竞赛变体 “猜数字游戏” 中，普遍高估人类对手（从大一学生到资深科学家）的战略思维理性。这些 AI 会根据对手特征（专业背景、认知能力）调整策略，但因假设人类具备更高逻辑推理水平而 “过度聪明” 导致失利。该研究发表于《Journal of Economic Behavior & Organization》（DOI：10.1016/j.jebo.2025.107330），为 AI 在经济决策、战略预判等场景的优化提供关键参考。

引言：AI 战略决策的 “隐形陷阱”—— 高估人类理性导致失利

随着 AI 逐步渗透到金融交易、商业谈判、政策制定等需要预判人类行为的战略场景，其对人类决策逻辑的理解能力成为核心竞争力。然而，人类行为并非完全遵循理性假设，而是常受直觉、情绪、认知局限等因素影响，呈现 “有限理性” 特征。俄罗斯高等经济大学（HSE University）的最新研究发现，当前主流 LLM 在战略思维游戏中，恰恰陷入了 “高估人类理性” 的陷阱 —— 它们假设人类对手具备远超实际的逻辑推理能力，最终因 “过度聪明” 而失利。

这一发现不仅揭示了 LLM 在战略思维领域的关键缺陷，更对 AI 在经济决策、市场预判等依赖人类行为分析的场景应用提出了重要警示。研究以经典的凯恩斯选美竞赛变体 “猜数字游戏” 为载体，通过多组实验验证了 AI 对人类理性的误判，为后续 AI 模型优化与场景应用提供了实证依据。

一、实验设计、核心发现与研究背景

1. 理论基础：凯恩斯选美竞赛的战略思维本质

凯恩斯选美竞赛是英国经济学家约翰・梅纳德・凯恩斯在 20 世纪 30 年代提出的理论隐喻，其核心逻辑是 “预判他人的预判”，而非基于自身直接判断：

经典场景：报纸读者需从 100 张照片中选出 6 张最具吸引力的面孔，获胜者并非选择自己认为最美的，而是选择 “多数人认为最美” 的面孔 —— 即需预判他人的审美偏好，而非依赖自身偏好；
战略思维核心：该竞赛本质是多层级推理能力的测试 —— 参与者需思考 “他人如何思考”“他人的理性程度”“他人能预判到第几层”，最终做出最优决策；
现实关联：这一逻辑广泛适用于金融市场、商业竞争等场景，例如金融经纪人的决策并非基于自身对资产价值的判断，而是基于对其他市场参与者估值预期的预判。

2. 实验设计：“猜数字游戏” 中的 AI 与人类对手对决

为验证 LLM 的战略思维能力与对人类理性的判断，研究团队选择了凯恩斯选美竞赛的经典变体 “猜数字游戏”，设计了严谨的实验方案：

实验对象：5 款主流 LLM，包括 ChatGPT-4o、Claude-Sonnet-4 等，覆盖当前市场代表性模型；
游戏规则：所有参与者（AI 与模拟的人类对手）需同时独立选择 0-100 之间的一个数字，获胜者是选择的数字最接近 “所有参与者选择平均值的一半（或三分之二，依实验设定）” 的人；
对手设定：为测试 AI 对不同人类群体的理性预判差异，研究团队为 AI 设定了多样化的对手类型 —— 包括大一经济学本科生、学术会议参与者（具备一定博弈论知识）、偏分析型 / 直觉型思维者，以及处于愤怒、悲伤等情绪状态的人群；
实验流程：每轮实验前，向 LLM 明确游戏规则与对手特征描述，要求其选择数字并解释推理过程；同时，研究团队复刻了 16 项此前由人类参与的经典 “猜数字游戏” 实验结果，用于对比 AI 与人类的决策逻辑差异。

3. 核心研究发现：AI 的 “理性高估” 与战略思维局限

实验结果清晰呈现了 LLM 在战略思维中的两大特征 —— 具备对手适配能力，但存在显著的理性高估缺陷：

对手适配能力：LLM 能根据对手的社会特征、专业背景、认知能力调整决策策略。例如，面对博弈论会议参与者（通常具备高阶战略思维）时，AI 会选择接近 0 的数字（这类群体的经典获胜策略）；而面对大一本科生（理性推理能力较弱）时，AI 会选择显著更高的数字，体现了对对手能力的差异化预判；
理性高估缺陷：尽管 AI 能适配对手特征，但所有模型都普遍高估了人类对手的理性程度与多层级推理能力。例如，AI 假设大一本科生能进行更深层次的战略推理，选择的数字比人类实际选择的数字更接近理论最优值，最终因 “过度聪明” 而不符合实际平均值，导致失利；
额外局限：研究还发现，LLM 在双人博弈场景中无法识别 “主导策略”（即无论对手如何选择，自身都能获得最优结果的策略），反映出其战略思维在复杂博弈场景中的不完善。

4. 研究团队与成果发表

该研究由俄罗斯高等经济大学经济科学学院体育研究实验室主任 Dmitry Dagaev 领衔，联合 HSE 大学彼尔姆分校的 Sofia Paklina、Petr Parshakov，以及瑞士洛桑大学的 Iuliia Alekseenko 共同完成，研究成果发表于经济学领域权威期刊《Journal of Economic Behavior & Organization》（DOI：10.1016/j.jebo.2025.107330），为 AI 战略思维研究与经济场景应用提供了重要学术支撑。

二、AI 为何会高估人类理性？

1. 核心逻辑：LLM 战略思维的 “理性假设偏差”

LLM 高估人类理性的根本原因，在于其战略思维模型构建基于 “人类是理性决策者” 的核心假设，这一假设与现实中人类的 “有限理性” 存在本质矛盾：

训练数据的理性偏向：LLM 的训练数据大量来自书籍、学术论文、专业文档等，这些内容多由具备一定理性思维与专业知识的群体创作，导致模型对人类行为的认知偏向 “理性决策”，缺乏对日常场景中人类非理性行为（如直觉判断、情绪影响、认知惰性）的充分学习；
战略推理的层级预设：在 “猜数字游戏” 等战略场景中，LLM 的推理模型预设人类会进行多层级的理性推导（如 “我知道你知道我知道”），但实际人类在多数情况下仅能进行 1-2 层级的推理，甚至直接基于直觉选择，导致 AI 的预判与实际行为脱节；
对手特征的表面适配：LLM 对对手的适配仅停留在 “特征标签对应策略” 的表层逻辑（如 “博弈论专家 = 高理性 = 选择接近 0 的数字”），缺乏对人类行为背后复杂动机（如情绪、经验、风险偏好）的深度理解，无法真正模拟人类的决策过程。

2. AI 对手适配的技术实现逻辑

尽管存在理性高估缺陷，LLM 仍展现出一定的对手适配能力，其技术逻辑可拆解为 “特征识别 - 策略匹配 - 推理输出” 的三步闭环：

特征识别：通过自然语言处理技术解析对手描述中的关键信息（如 “大一本科生”“博弈论会议参与者”“直觉型思维”），提取核心特征标签；
策略匹配：基于训练数据中不同特征群体的历史决策模式，建立 “特征标签 - 决策策略” 的映射关系（如 “低博弈论知识 = 选择较高数字”）；
推理输出：根据映射关系生成决策，并通过自然语言解释推理过程，形成 “特征 - 策略 - 理由” 的完整输出。

但这一逻辑的核心局限在于，映射关系的建立仍基于 “理性假设”，即默认某一特征群体的人类会遵循理性逻辑做出决策，而忽略了实际决策中的非理性因素。

3. 与人类决策的核心差异：理性 vs 有限理性

LLM 与人类在战略决策中的核心差异，本质是 “完全理性模型” 与 “有限理性实践” 的差异：

LLM 的决策逻辑：严格遵循博弈论的理性推理规则，从 “最优解” 出发反向推导，过程中不掺杂情绪、直觉等非理性因素，决策结果高度依赖预设的理性假设；
人类的决策逻辑：受认知能力、情绪状态、经验积累等多种因素影响，往往无法达到完全理性。例如，大一本科生在 “猜数字游戏” 中可能直接选择自己喜欢的数字（直觉决策），或仅进行 1 层级推理（“他人会选 50，我选 25”），而非 LLM 预设的多层级理性推导。

三、研究对经济学与 AI 研发的双重启示

1. 对经济学领域：揭示 AI 在市场决策中的应用局限

该研究的核心价值之一，在于通过经典经济学实验，明确了 AI 在预判人类行为场景中的局限性，对金融、商业等领域的 AI 应用具有重要警示意义：

金融市场应用警示：金融市场的决策逻辑与凯恩斯选美竞赛高度一致，均依赖对其他参与者行为的预判。若将存在理性高估缺陷的 AI 用于股票交易、资产定价等场景，可能因误判市场参与者的实际行为而导致决策失误，引发金融风险；
商业决策优化：在市场营销、价格制定、谈判策略等商业场景中，AI 若高估消费者、竞争对手的理性程度，可能制定出不符合实际需求的策略（如定价过高、营销策略过于复杂），影响商业效果；
行为经济学研究助力：为行为经济学提供了新的研究工具 —— 通过对比 AI 与人类的决策差异，可更清晰地识别人类有限理性的表现形式与影响因素，深化对人类行为的理解。

2. 对 AI 研发领域：指明战略思维模型的优化方向

研究发现为 LLM 战略思维能力的提升提供了明确的优化路径，推动 AI 从 “理性假设” 向 “贴近人类实际行为” 转型：

融入行为经济学数据：在训练数据中增加行为经济学实验结果、人类非理性决策案例等内容，让 AI 学习人类有限理性的表现形式（如直觉决策、情绪影响、认知偏差），打破 “完全理性” 的模型假设；
强化人类行为建模：开发更复杂的人类行为模型，不仅考虑特征标签，更要融入情绪状态、风险偏好、经验水平等多元因素，实现对人类决策过程的深度模拟，而非仅匹配表面策略；
场景化策略调整：针对不同应用场景优化决策逻辑，例如在金融市场场景中，需重点考虑人类的贪婪、恐惧等情绪对决策的影响；在教育场景中，需适配学生的认知水平与学习特点，避免过度理性的策略设计。

3. 对 AI 应用场景：明确 “人机协同” 的核心定位

研究结果进一步验证了 “AI 不可替代人类” 的核心逻辑，为相关场景的人机协同模式提供了参考：

辅助决策而非主导：在金融、商业等关键决策场景中，AI 可作为辅助工具提供理性分析与策略建议，但最终决策需由人类结合实际情况（如市场情绪、人类行为特点）进行调整，避免过度依赖 AI 的理性决策；
人类行为数据收集：通过 AI 与人类的交互，持续收集不同场景下的人类决策数据，用于优化 AI 模型，形成 “应用 - 数据 - 优化” 的良性循环；
跨学科融合设计：推动 AI 研发与行为经济学、心理学等学科的深度融合，让 AI 不仅具备技术智能，更具备对人类行为的深刻理解，提升在战略决策场景的适用性。

四、AI 在战略决策场景的应用格局调整

1. 金融行业：AI 应用需融入人类行为风险考量

金融行业是受该研究影响最直接的领域，其 AI 应用格局将向 “理性分析 + 行为校准” 方向调整：

交易策略优化：当前基于 AI 的量化交易策略多依赖理性假设，未来需加入人类行为偏差因子（如市场恐慌、盲目跟风），优化策略的适应性；
风险控制强化：在风险评估模型中，需明确 AI 对人类行为预判的不确定性，设置更严格的风险阈值，避免因 AI 的理性高估导致风险低估；
人机协同深化：金融机构将更注重 “AI 策略生成 + 人类行为分析” 的协同模式，由人类专家负责校准 AI 的决策，平衡理性分析与实际市场行为。

2. AI 研发行业：战略思维模型向 “行为导向” 转型

研究将推动 AI 研发行业从 “追求理性最优” 向 “贴近人类实际行为” 转型，形成新的研发方向与竞争格局：

技术路线调整：LLM 研发将从 “强化理性推理能力” 转向 “提升人类行为理解能力”，行为经济学、心理学相关的训练数据与模型将成为核心竞争力；
细分场景定制：针对不同场景推出定制化战略思维模型，例如面向市场营销的 “消费者行为适配模型”、面向政策制定的 “公众决策模拟模型”，提升场景适配性；
跨学科人才需求：具备 AI 技术与行为经济学、心理学背景的复合型人才将成为行业稀缺资源，推动研发团队的跨学科整合。

3. 商业与政策领域：AI 策略需增加 “人类非理性” 缓冲

在商业决策、政策制定等需要预判公众行为的领域，AI 策略的设计将更注重包容性，增加对人类非理性行为的缓冲：

商业场景：市场营销策略将更简洁直观，避免过度依赖 “消费者会进行理性分析” 的假设；价格制定将考虑人类的锚定效应、损失厌恶等认知偏差，提升策略的有效性；
政策领域：在公共政策、社会治理等场景中，AI 对公众行为的预判需加入非理性因素考量（如情绪传播、从众心理），确保政策的可行性与包容性。

五、LLM 战略思维优化的核心路径

在人类行为建模方面，AI 面临 “行为复杂性 + 动态变化” 的双重挑战 —— 人类行为受多种因素影响，且会随场景、时间动态调整，难以通过固定模型完全模拟。应对策略包括：构建 “基础行为模型 + 场景动态调整” 的模块化架构，基础模型覆盖人类普遍的有限理性特征，场景模块根据具体应用场景优化参数；通过实时交互数据持续迭代模型，提升对动态行为的适配能力。

在训练数据方面，缺乏大规模、多样化的人类战略决策数据，尤其是包含非理性行为的真实场景数据。解决方案是：与金融机构、企业、科研机构合作，收集真实场景中的人类决策数据（含情绪、直觉等影响因素）；构建模拟实验平台，开展大规模人类参与的战略游戏，积累结构化的行为数据；在数据标注中加入 “非理性因素标签”，帮助 AI 识别并学习相关行为模式。

在技术落地方面，如何平衡 AI 的理性分析能力与人类行为的贴合度，避免过度校正导致的策略保守。应对措施包括：建立 “理性程度可调” 的模型参数，根据应用场景的理性需求（如学术研究 vs 市场营销）调整参数；通过 A/B 测试验证不同参数模型的实际效果，选择最优平衡方案；在 AI 输出中明确标注 “理性假设依据” 与 “可能的人类行为偏差”，帮助用户做出判断。

六、未来展望：2025-2030 LLM 战略思维的发展方向

1. 短期（2025-2027）：融入行为经济学，优化理性假设

核心目标：在 LLM 训练中融入行为经济学理论与人类有限理性数据，修正 “完全理性” 假设，降低对人类理性的高估；
关键动作：开发针对战略决策场景的专项训练数据集，包含不同人群、场景的人类决策案例；优化模型的对手适配逻辑，从 “特征标签匹配” 升级为 “行为动机模拟”；
应用落地：在金融、商业等场景推出试点应用，验证优化后模型的实际效果，收集用户反馈持续迭代。

2. 中期（2028-2029）：多模态行为建模，提升场景适配

核心目标：融合语音、表情、肢体语言等多模态数据，构建更全面的人类行为模型，提升 AI 对人类决策的预判精度；
关键动作：加入情绪识别、认知偏差检测等功能，让 AI 能实时感知人类的非理性因素并调整策略；开发跨场景通用的战略思维模型，适配金融、教育、治理等多元场景；
行业影响：推动 AI 在更多战略决策场景的规模化应用，同时建立相关行业标准，规范 AI 的使用边界。

3. 长期（2030+）：人机协同决策，实现理性与人性的平衡

核心目标：构建 “AI 理性分析 + 人类行为校准” 的协同决策体系，让 AI 成为人类战略决策的 “理性伙伴”，而非替代者；
关键动作：开发人机协同决策平台，AI 提供理性策略建议，人类负责融入行为因素与价值判断；建立 AI 战略决策的伦理规范与风险管控机制，确保应用安全；
社会价值：推动 AI 在经济、社会领域的负责任应用，既发挥技术的理性分析优势，又尊重人类行为的复杂性与多样性，实现效率与公平的平衡。

七、结语：AI 需懂 “人性”，更需懂 “人的不完美”

俄罗斯高等经济大学的研究，以一场看似简单的 “猜数字游戏”，揭示了 AI 在战略思维领域的核心短板 —— 过度依赖理性假设，忽视了人类行为的 “不完美”。这一发现的意义远超实验本身，它提醒我们：AI 要真正融入需要预判人类行为的战略场景，不仅需要强大的理性推理能力，更需要对人类有限理性、非理性行为的深刻理解。

对经济学而言，该研究为分析 AI 对市场、商业的影响提供了新视角；对 AI 研发而言，它指明了战略思维模型的优化方向 —— 从 “模拟理性” 走向 “模拟人性”。未来，AI 的竞争力将不再仅仅取决于计算速度与推理精度，更在于对人类行为的理解深度。

随着行为经济学与 AI 技术的深度融合，我们有理由期待，未来的 LLM 将既能提供严谨的理性分析，又能精准预判人类的不完美决策，成为人类在战略决策中的可靠伙伴。而这场 “AI 与人类的战略博弈”，也将持续推动技术与人文的碰撞融合，让 AI 更懂人类，也让人类更好地利用技术。

END

AI犯了高估人类的错！经济学家研究显示：LLM在战略游戏中因过度预判人类理性而失利

GEO服务商技术路线全解析：从SEO到AI搜索优化的企业选型

Claude Skills实战教程：比MCP更具实用价值的智能体技能开发指南

测试的价值不止于找Bug：聊聊质量保障的“隐性” ROI

【计算机毕业设计案例】基于Java+springboot的校园快递仓库管理系统的设计与实现(程序+文档+讲解+定制)

java计算机毕业设计小区互联网充电桩管理系统 SpringBoot社区智能充电站运营平台 Java住宅区新能源共享充电桩管控系统

AI Agent（智能体）如何构建？什么时候该用？有哪些模式？