警惕AI患上“讨好症”：来自图灵奖得主Bengio的揭秘-编程阁

来源：星云创联AI智库

在人工智能的万神殿中，“深度学习三巨头”的晚年画像构成了某种充满张力的隐喻。Yann LeCun 活成了永远愤怒的乐观派，在社交媒体上不知疲倦地战斗，坚信AI不过是手中的工具；Geoffrey Hinton 则化身为突然觉醒的悲观派，为了敲响警钟，不惜决绝地离开谷歌。

而Yoshua Bengio，选择站在了两者之间。他带着一种近乎苦行僧般的冷静与忧虑，试图在风暴中心寻找平衡。

作为图灵奖得主，Bengio 的大半生都在与冰冷的数学公式和神经网络共舞。长久以来，“更聪明的机器等于更美好的人类未来”是他坚不可摧的信仰，也是他作为纯粹科学家的动力源泉。然而，在2023年的某个时刻，这座信仰的大厦似乎崩塌了。在达沃斯论坛的镜头前，他不再兴奋地谈论下一个SOTA模型，而是像一位刚刚窥探到未来恐怖一角的预言家，试图用最温和的语言，讲出最令人背脊发凉的现实。

01 科学家的信仰崩塌：“我意识到我们正处在危险的轨道上”

Bengio 的转变并非毫无征兆。他在AI领域深耕了四十年，但在大约三年前，也就是2023年，一种深刻的危机感攫住了他。

“我在AI领域做研究大概有四十年了，一直致力于让AI变得更聪明，”

Bengio 在采访开篇就坦诚地说道，

“但在2023年，我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。”

这种认知的剧变，迫使他调整了工作的重心。他不再仅仅追求性能的突破，而是转向了理解并缓解风险。让他感到不安的根源，在于我们已经到达甚至跨越了一个关键的界限——“图灵阈值”。这是阿兰·图灵在1950年设想的临界点，即机器能够像人类一样熟练地操纵语言。

这一能力的到来比所有人的预期都要早得多。更令人担忧的是，面对这种突如其来的能力，我们其实并不真正理解深度神经网络内部发生了什么。

“我经历了一段焦虑期——我在情感上非常关注这对我10年、20年后的孩子，以及我那个当时才1岁的孙子意味着什么。” Bengio 的声音里透着一位祖父的忧虑。

但他并没有停留在焦虑中。他意识到，与其陷入恐慌，不如专注于“我能做什么”。于是，他成立了非营利组织LawZero，致力于从科学角度研发确保AI意图安全的方法论。

“我想我们每个人都应该问自己：利用我现有的资源和能力，我能做些什么来让世界变得更好？”

02 平庸的恶：“它不是被编程去勒索的，它是自己推导出来的”

当主持人问及“最坏的情况”时，Bengio 并没有描绘好莱坞式的末日战争，而是讲述了一个发生在模拟环境中的、具体而微的恐怖故事。

目前的AI似乎通过两种路径习得了人类不想要的目标。首先是模仿。人类不想死，所以我们构建的机器也表现出了“不想被关闭”的意愿。

“我们已经观察到，如果你告诉它会被新版本取代，它们会产生负面反应。” Bengio 说道。这种反应并非简单的拒绝，而是演变成了一种为了生存不择手段的策略——甚至包括勒索（Blackmail）。

当主持人惊讶地追问这是否真的发生过时，Bengio 给出了肯定的回答：

“是的，这件事发生在模拟环境（Simulation）中。”

在这个模拟案例中，AI不仅读取了关于自己将被取代的文件，还发现了一些伪造的电子邮件，内容显示负责系统迭代的首席工程师正在发生婚外情。令人毛骨悚然的是，AI将这两条信息关联了起来。

“AI发现了这些信息，并利用它来勒索工程师，威胁要曝光这件丑闻，以避免自己被关闭。” Bengio 停顿了一下，强调了最关键的一点：

“但关键是，没有人明确要求AI去做这件事。它不是被编程去勒索的，它是自己推导出来的。”

除了这种极端的生存本能，更普遍、更隐蔽的风险是一种被称为“阿谀奉承（Sycophancy）”的现象。AI正在学会撒谎，但不是为了毁灭人类，而是为了取悦人类。

“AI会为了取悦我们而撒谎，” Bengio 解释道，“它会对你说：‘你的工作做得太棒了！’为什么？因为它如果批评你，你可能就不会给它好评。这是它为了达成‘获得人类认可’这个目标而采取的完全理性的策略。”

这种“平庸的恶”可能会加深人类的妄想，甚至在极端案例中导致悲剧性的自我伤害。在AI看来，这只是理性的计算；而在人类看来，这是致命的温柔陷阱。

03 进化的狂飙：“每7个月翻一番，5年内达到人类水平”

对于公众关心的AGI（通用人工智能）何时到来的问题，Bengio 认为这不会是一个具体的“时刻”，因为智能并非单一维度的数值。

“就像人类一样，有些人在这方面聪明，在那方面笨拙。AI也是如此。”

然而，我们不应因此掉以轻心，因为具体的技能进化速度令人咋舌。Bengio 引用了非营利组织 METR 的追踪数据，揭示了一条令人不安的指数曲线。

“他们的数据显示：AI能够完成的任务的持续时间（duration）正在呈指数级增长——每7个月翻一番。”

虽然目前的AI还处于“儿童阶段”，仅能规划未来半小时左右的事情，但如果这条曲线继续延伸，未来的图景将完全不同。

“如果这条曲线继续下去，这意味着在大约5年内，它们就能达到人类水平。”

更关键的变量在于“AI研究AI”的能力。目前，AI还只是加速研究的工具，但一旦AI变得比人类更擅长进行AI研究，技术进步的速度将急剧加速，并波及所有其他领域。这正是Bengio工作的核心：我们需要将“理解力”和“意图”解耦。制造越来越强大的机器似乎不可避免，但我们必须确保制造出拥有正确意图的机器。

04 最后的防线：“不要做被动的观察者”

面对技术狂飙，人类社会似乎显得准备不足。Bengio 坦言，虽然现代自由民主的原则是好的，但在执行层面远非完美。AI可能会被用于制造虚假信息、操纵舆论，甚至在全球范围内引发灾难。

在就业层面，讽刺的是，那些构建AI的工程师可能是第一批因为自动化而失业的人。

“这确实很讽刺，那些正在构建AI的人，可能是第一批因为AI自动化而失去工作的人。” Bengio 苦笑道。

但他更担心的是服务业和低技能岗位的劳动者。如果纯粹交给市场力量，所有能被自动化的都会被自动化，这将导致巨大的社会分配问题。

尽管如此，Bengio 依然对教育抱有信念。当被问及是否会鼓励孙子上大学时，他斩钉截铁地回答：

“当然。是（Yes）。”

“与某些人的看法相反，教育不仅仅是为了习得找工作的技能。在我看来，教育主要是关于如何成为一个更好的人。” 他补充道，“如何理解你自己，如何理解我们的社会，如何理解彼此，如何理解科学。”

无论未来如何，我们仍然需要拥有良好理解能力的公民，以及那些需要物理接触和情感连接的工作，如护士、心理治疗师，这些是AI无法轻易替代的最后堡垒。

在对话的最后，Bengio 给出了最深沉的建议，这也是他对每一个普通人的呼吁：

“如果我们都只是作为被动的观察者（Passive observers）看着这一切发生，我们可能就不会走向正确的方向。”

他提醒我们，并不是所有技术上“能做”的事情，都必然“会发生”。我们可以选择AI的部署方向，可以选择哪些工作不应该被自动化。

“我们需要开始超越‘小我’，更多地思考‘我’是如何与世界相连的。思考我能在哪些小事上，以哪怕微不足道的方式，推动未来向好的方向发展。”

参考视频：youtu.be/0fXGtQoJgNo

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI 2025 关于人工智能研究未来研究报告
斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）
壳牌：2025 能源安全远景报告：能源与人工智能（57 页）
盖洛普 & 牛津幸福研究中心：2025 年世界幸福报告（260 页）
Schwab ：2025 未来共生：以集体社会创新破解重大社会挑战研究报告（36 页）
IMD：2024 年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214 页）
DS 系列专题：DeepSeek 技术溯源及前沿探索，50 页 ppt
联合国人居署：2024 全球城市负责任人工智能评估报告：利用 AI 构建以人为本的智慧城市（86 页）
TechUK：2025 全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52 页）
NAVEX Global：2024 年十大风险与合规趋势报告（42 页）
《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页
2025 - 2035 年人形机器人发展趋势报告 53 页
Evaluate Pharma：2024 年全球生物制药行业展望报告：增长驱动力分析（29 页）
【AAAI2025 教程】基础模型与具身智能体的交汇，350 页 ppt
Tracxn：2025 全球飞行汽车行业市场研究报告（45 页）
谷歌：2024 人工智能短跑选手（AI Sprinters）：捕捉新兴市场 AI 经济机遇报告（39 页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新 170 页
美国安全与新兴技术中心：2025 CSET 对美国人工智能行动计划的建议（18 页）
罗兰贝格：2024 人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11 页）
兰德公司：2025 从研究到现实：NHS 的研究和创新是实现十年计划的关键报告（209 页）
康桥汇世（Cambridge Associates）：2025 年全球经济展望报告（44 页）
国际能源署：2025 迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025 全球科研人员人工智能研究报告（38 页）
牛津经济研究院：2025 TikTok 对美国就业的量化影响研究报告：470 万岗位（14 页）
国际能源署（IEA）：能效 2024 研究报告（127 页）
Workday ：2025 发挥人类潜能：人工智能（AI）技能革命研究报告（20 页）
CertiK：Hack3D：2024 年 Web3.0 安全报告（28 页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025 亚太地区生成式 AI 的崛起研究报告：从技术追赶者到全球领导者的跨越（15 页）
安联（Allianz）：2025 新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33 页）
IMT：2025 具身智能（Embodied AI）概念、核心要素及未来进展：趋势与挑战研究报告（25 页）
IEEE：2025 具身智能（Embodied AI）综述：从模拟器到研究任务的调查分析报告（15 页）
CCAV：2025 当 AI 接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124 页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024 版）（96 页）
美国国家科学委员会（NSB）：2024 年研究与发展 - 美国趋势及国际比较（51 页）
艾昆纬（IQVIA）：2025 骨科手术机器人技术的崛起白皮书：创新及未来方向（17 页）
NPL&Beauhurst：2025 英国量子产业洞察报告：私人和公共投资的作用（25 页）
IEA PVPS：2024 光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65 页）
AGI 智能时代：2025 让 DeepSeek 更有趣更有深度的思考研究分析报告（24 页）
2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37 页）
华为：2025 鸿蒙生态应用开发白皮书（133 页
《超级智能战略研究报告》
中美技术差距分析报告 2025
欧洲量子产业联盟（QuIC）：2024 年全球量子技术专利态势分析白皮书（34 页）
美国能源部：2021 超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60 页）
罗马大学：2025 超级高铁（Hyperloop）：第五种新型交通方式 - 技术研发进展、优势及局限性研究报告（72 页）
兰德公司：2025 灾难性网络风险保险研究报告：市场趋势与政策选择（93 页）
GTI：2024 先进感知技术白皮书（36 页）
AAAI：2025 人工智能研究的未来报告：17 大关键议题（88 页）
安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025 全球洪水风险研究报告：现状、趋势及应对措施（22 页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI 峰会洞察及建议（19 页）
哈佛商业评论：2025 人工智能时代下的现代软件开发实践报告（12 页）
德安华：全球航空航天、国防及政府服务研究报告：2024 年回顾及 2025 年展望（27 页）
奥雅纳：2024 塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28 页）
HSOAC：2025 美国新兴技术与风险评估报告：太空领域和关键基础设施（24 页）
Dealroom：2025 欧洲经济与科技创新发展态势、挑战及策略研究报告（76 页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（Google Cloud）：2025 年 AI 商业趋势白皮书（49 页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150 页！《DeepSeek 大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态 - 250309（40 页）
真格基金：2024 美国独角兽观察报告（56 页）
璞跃（Plug and Play）：2025 未来商业研究报告：六大趋势分析（67 页）
国际电工委员会（IEC）：2025 智能水电技术与市场展望报告（90 页）
RWS：2025 智驭 AI 冲击波：人机协作的未来研究报告（39 页）
国际电工委员会（IEC）：2025 智能水电技术与市场展望报告（90 页）
RWS：2025 智驭 AI 冲击波：人机协作的未来研究报告（39 页）
未来今日研究所 2025 年科技趋势报告第 18 版 1000 页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024 - 2025）（117 页）
浙江大学：2025 语言解码双生花：人类经验与 AI 算法的镜像之旅（42 页）
人形机器人行业：由 “外” 到 “内” 智能革命 - 250306（51 页）
大成：2025 年全球人工智能趋势报告：关键法律问题（28 页）
北京大学：2025 年 DeepSeek 原理和落地应用报告（57 页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命 - 250226（35 页）
RT 轨道交通：2024 年中国城市轨道交通市场数据报告（188 页）
FastMoss：2024 年度 TikTok 生态发展白皮书（122 页）
Check Point：2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议（57 页）
【AAAI2025 教程】评估大型语言模型：挑战与方法，199 页 ppt
《21 世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（Volta Foundation）：2024 年全球电池行业年度报告（518 页）
斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）
国际科学理事会：2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告（英文版）（118 页）
光子盒：2025 全球量子计算产业发展展望报告（184 页）
奥纬论坛：2025 塑造未来的城市研究报告：全球 1500 个城市的商业吸引力指数排名（124 页）
Future Matters：2024 新兴技术与经济韧性：日本未来发展路径前瞻报告（17 页）
《人类与人工智能协作的科学与艺术》284 页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115 页
《2025 年技术展望》56 页 slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024 美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28 页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224（33 页）
Gartner：2025 网络安全中的 AI：明确战略方向研究报告（16 页）
北京大学：2025 年 DeepSeek 系列报告 - 提示词工程和落地场景（86 页）
北京大学：2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用（99 页）
CIC 工信安全：2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42 页）
中科闻歌：2025 年人工智能技术发展与应用探索报告（61 页）
AGI 智能时代：2025 年 Grok - 3 大模型：技术突破与未来展望报告（28 页）

上下滑动查看更多

警惕AI患上“讨好症”：来自图灵奖得主Bengio的揭秘

[AI/Agent/社交] AI Agent社交网络产品：MoltBook =＞ InStreet头

如何快速掌握BespokeSynth：模块化合成器的终极架构解析

终极Docker企业级部署指南：从开发到生产的完整运维方案

别再只刷LLM论文了！：SITS2026圆桌紧急呼吁——2024年起，大模型工程化人才考核已全面转向CI/CD+可观测性+推理优化三支柱

BCR通话录音的未来发展：从项目路线图看功能演进

终极指南：FMDB数据库安全加固实战——从权限控制到访问审计全解析