1. 项目概述:我们离真正的“智能”还有多远?
最近和几个做AI的朋友聊天,大家都有一个共同的感受:大语言模型(LLM)确实火,ChatGPT、Claude这些工具用起来也足够惊艳,能写代码、能写诗、能回答问题,感觉无所不能。但聊深了,又总觉得哪里不对劲。比如,你让它写一篇关于“如何修理自行车”的说明文,它能写得头头是道,引经据典。但如果你真的把一辆链条脱落、轮胎漏气的自行车推到它面前(假设它有“手”的话),它大概率会束手无策。它“知道”所有关于修理的理论知识,却无法“执行”一次真正的修理。这背后,其实就是我们今天要深入探讨的核心问题:当前的大语言模型,与我们所设想的“通用人工智能”(AGI)之间,那道看似很近、实则深邃的鸿沟究竟在哪里?
这个差距,远不止是“多模态”或者“具身智能”那么简单。它根植于智能最本质的层面:从对抽象概念的真正理解,到将知识转化为在复杂、动态的真实世界中的有效行动,即“知行合一”。作为一个在AI领域摸爬滚打多年的从业者,我目睹了从规则系统到统计学习,再到如今大模型的几次浪潮。每一次进步都令人兴奋,但我们也必须清醒地认识到,当前基于概率预测下一个词的范式,与人类那种基于理解、推理和与物理世界交互的智能,存在着根本性的差异。这篇文章,我想从一个实践者和思考者的角度,拆解这其中的核心差距,并探讨我们可能的前进方向。这不仅是一个理论问题,更关乎我们如何设计下一代AI系统,以及如何客观地评估我们手中的工具。
2. 核心差距拆解:概念学习为何如此之难?
当我们说一个人类儿童“学会了‘猫’这个概念”时,意味着什么?他不仅能在听到“猫”这个词时指向正确的动物,还能从不同角度(正面、侧面)、不同状态(睡觉、奔跑)、甚至部分遮挡的情况下认出猫;他能理解猫是动物,会叫,吃鱼,和“狗”不同;他还能想象一只不存在的“彩虹色的猫”,并画出它。这种学习是多模态、可泛化、可组合且支持反事实推理的。反观大语言模型,它的“概念学习”完全是另一套机制。
2.1 统计关联 vs. 本质理解
大语言模型的核心能力,是通过在海量文本数据上学习词语、短语和句子之间的统计关联。当它“知道”猫时,它实际上知道的是在它的训练语料中,“猫”这个词与“喵喵叫”、“毛茸茸”、“宠物”、“抓老鼠”等一系列符号高频共现。它并没有一个关于猫的内部心理模型。它不知道猫有重量、有体温、受到重力影响。它对这些关联的把握是表面的、符号层面的。
一个经典的测试是“同义词替换悖论”。你可以问模型:“我把一个苹果放在桌子上,然后我离开了房间。我回来时,苹果还在吗?” 模型基于常识可能会回答“在”。但如果你把问题中的“苹果”替换成它的同义词“一种蔷薇科苹果属植物的果实”,再问同样的问题,模型的回答可能就开始变得不确定甚至错误。因为“苹果”和它的生物学定义在文本中的统计上下文差异巨大,模型无法将它们锚定到同一个物理实体及其属性上。这说明它的“理解”是脆弱的,严重依赖于表面形式的统计规律,而非对实体和情境的本质把握。
2.2 缺乏感知-运动 grounding
人类的概念根植于感知运动经验。我们知道“重”是因为我们肌肉用力提起过重物,知道“热”是因为皮肤被烫过,知道“圆”是因为我们的眼睛看过、手触摸过圆形物体。这种将抽象符号与具体感官体验、身体动作绑定在一起的过程,叫做“grounding”。它是概念具有意义的基础。
大语言模型从诞生起就缺乏这种 grounding。它的世界是纯文本的、离散的符号世界。它通过学习知道“杯子是易碎的”,但这个知识来源于文本中“杯子”、“摔碎”、“陶瓷”等词的共现,而非它亲手摔碎过一个杯子并听到那“啪”的一声脆响。因此,它无法真正理解“易碎”所蕴含的物理特性(材料强度、冲击能量)、可能的结果(碎片飞溅、液体洒出)以及随之而来的情感(懊恼、小心)。它的知识是“无根的”,这导致它在需要结合物理常识进行推理时常常出错。
实操心得:在评估一个模型是否真正“理解”某个领域时,一个非常有效的方法是设计需要跨模态推理或反事实场景构建的问题。例如,不要只问“如何做蛋糕”,而是问“如果我在做蛋糕时没有电动打蛋器,只有一把叉子和一个深碗,我该如何最大程度地打发蛋白?” 后者需要模型将文本知识(“打发蛋白需要引入空气”)与对工具物理特性(叉子的搅拌效率 vs. 打蛋器)和操作过程(手动搅拌的力度、时间)的模拟结合起来。当前模型在这类问题上的表现,能直观地反映出其“纸上谈兵”的局限性。
3. 从“知”到“行”的惊险一跃
即使拥有了相对扎实的知识,从“知道”到“做到”依然是巨大的挑战。这就是“知行合一”问题,在AI领域常被表述为“现实鸿沟”或“具身挑战”。
3.1 规划、执行与不确定性处理
人类执行一个任务,比如“泡一杯茶”,涉及一系列复杂的子能力:
- 目标分解与规划:将抽象目标(泡茶)分解为具体步骤(烧水、取茶杯、放茶包、倒水、等待)。
- 物理交互:执行每个步骤,涉及对物体的操作(拧开水龙头、提起水壶、抓取茶杯),这需要精细的运动控制和力觉反馈。
- 状态监控与反馈调整:在整个过程中持续感知环境(水开了吗?茶杯放稳了吗?),并根据意外情况(水洒了、茶包没了)动态调整计划。
大语言模型在纯文本环境中可以出色地完成第一步——生成一个看似合理的步骤列表。但它卡在了第二步和第三步。因为它没有身体,没有传感器,没有执行器。它无法感知真实世界的状态,也无法施加物理影响。更关键的是,真实世界充满不确定性和部分可观测性。文本计划是线性的、确定的,但现实执行是非线性的、充满意外的。
一个生动的例子是“收拾散落一地的积木”。模型可以生成一个计划:“1. 走过去。2. 蹲下。3. 把红色积木捡起来放进盒子。4. 把蓝色积木捡起来放进盒子……”。但在现实中,如何“走过去”而不踩到积木?如何“捡起来”当积木形状不规则、表面光滑时?如何“放进盒子”当盒子边缘较高时?这些都需要在线感知、实时运动规划和自适应控制,是当前大模型完全不具备的能力。
3.2 学习范式:离线静态 vs. 在线交互
当前大模型的训练范式是离线、静态、被动的。它们从固定的历史数据集中学习,学习过程是一次性的(预训练),之后可能通过微调或提示工程进行小幅调整。学习的目标是最大化对历史数据的拟合(预测下一个词)。
而人类和动物,乃至迈向AGI的智能体,其核心学习范式是在线、动态、主动的。我们通过与环境的持续交互来学习。我们采取行动,观察结果,根据结果带来的奖励或惩罚来更新我们对世界的模型和策略。这种强化学习范式是“行”的核心。它允许智能体为了达成目标而进行试错,处理前所未有的新情况,并优化长期收益。
大语言模型目前被尝试用作强化学习中的“大脑”或“规划器”,例如在“SayCan”等机器人项目中,模型将高层指令分解为机器人技能库中的子动作。这是一个有前景的方向,但它依然只是解决了高层规划问题,将低层控制(如何移动机械臂到精确位置)这个更难的“行”的问题抛给了传统控制器。并且,模型自身的知识无法通过机器人一次成功的抓取或一次失败的行走而直接更新,它缺乏这种“从行动后果中学习”的闭环。
4. 核心能力缺失:推理、因果与心智理论
除了概念和行动,人类智能还有一些更深层、更抽象的支柱,这些是目前大模型明显欠缺的。
4.1 系统性推理与因果发现
大模型在模式匹配和局部推理上表现卓越,但在需要多步、系统性逻辑推理的任务上容易崩溃。例如数学问题或复杂的逻辑谜题。更本质的差距在于因果推理。人类能轻易理解“因为A,所以B”,并能区分因果和相关。我们知道闹钟响不会导致日出,尽管它们每天一起发生。
大模型从数据中学到的是相关性。它可能学到“闹钟响”和“天亮了”高度相关,因此在文本中它们常接连出现。但它无法内在地建立“地球自转导致日照变化”这个因果模型。这意味着它难以进行反事实思考(“如果当时我没那么做,结果会怎样?”),也难以在干预后预测结果(“如果我按下这个开关,灯会亮吗?”)。因果理解是进行有效规划、承担责任和科学发现的基础,而当前模型在这方面是盲目的。
4.2 心智理论与社会智能
人类智能是社会性的。我们拥有“心智理论”,即推断他人信念、欲望、意图和知识状态的能力。我们知道别人知道什么、不知道什么,从而可以进行有效的沟通、合作、欺骗和教学。
大语言模型在表面上模拟了这种能力,因为它学习了大量关于人类对话和心理描述的数据。它可以生成“小明以为盒子里有巧克力,但实际上已经被小红拿走了”这样的故事。但这仍然是模式模仿。在一个动态的、多轮的真实社交互动中,模型无法持续跟踪对话者不断变化的心理状态,也无法真正理解“欺骗”(故意让对方形成错误信念)或“教学”(评估对方的知识缺口并针对性填补)这些复杂社会行为的本质。它的回应是基于对话历史统计模式的最优续写,而非基于对对话者心智的建模和互动目标的追求。
5. 当前的技术路径与探索方向
认识到差距不是目的,寻找跨越差距的路径才是。业界和学术界正在从多个角度进行探索,虽然前路漫漫,但已可见一些曙光。
5.1 多模态与具身化
这是最直接的思路:给模型“眼睛”、“耳朵”和“手”。通过视觉-语言模型(VLM),让模型能直接处理图像、视频,将文本符号与视觉感知关联起来,这是迈向概念 grounding 的关键一步。更进一步,将模型嵌入机器人身体(具身智能),使其能通过行动影响世界并接收物理反馈,从而学习行动与结果之间的因果联系。
关键技术挑战在于如何有效地融合多模态信息。简单的将图像特征与文本特征拼接在一起是不够的。需要设计新的架构,让模型能建立跨模态的、统一的表征。例如,让模型理解“红色”这个词,不仅与文本中的“颜色”、“热情”关联,更与视觉中特定波长的光信号、触觉中“苹果”的表面属性关联起来。
5.2 混合架构与神经符号结合
纯神经网络的连接主义方法(即当前的大模型)擅长模式识别和模糊匹配,但在符号处理、逻辑推理和可解释性上存在短板。一个重要的方向是神经符号人工智能,试图将神经网络的感知学习能力与符号系统的逻辑推理能力结合起来。
例如,可以用大模型作为前端,将自然语言指令或感知信息解析成一种中间的、结构化的符号表示(如逻辑谓词、知识图谱),然后由一个符号推理引擎基于明确的规则进行规划和推理,最后再将推理结果转换回自然语言或具体动作指令。这种架构有望弥补大模型在系统性推理和因果推断上的不足,同时保留其强大的自然语言接口能力。
5.3 从生成模型到世界模型
当前大模型本质上是“文本生成模型”或“数据生成模型”。一个更宏大的构想是构建世界模型。世界模型是一个能够对环境动态进行内部模拟的系统。它不仅能预测下一个词,更能预测一系列行动会如何改变环境状态。
比如,一个拥有世界模型的机器人,在决定去拿桌子另一端的杯子前,可以在“脑海”中模拟走过去的过程,预测可能碰倒花瓶,从而选择另一条路径。这种基于模型的规划能力是高效、安全行动的核心。训练世界模型需要智能体与环境的交互数据,以及从交互中学习到的关于物理和社会规律的压缩表示。这比训练一个文本生成模型要困难几个数量级,但它是实现真正“知行合一”的必经之路。
5.4 新的训练范式与目标函数
我们可能需要彻底反思训练目标。预测下一个词(自回归)这个目标,可能无法引导模型学习到我们关心的那些深层能力,如因果、推理和心智理论。
一些探索包括:
- 推理过程优化:不仅要求答案正确,更要求模型生成一步步的、可验证的推理链(Chain-of-Thought)。通过强化学习,奖励那些推理步骤合理、符合逻辑的生成过程。
- 交互式学习:设计环境让模型通过提问、试错、获得反馈来学习,更像一个学生,而不是一个静态数据的消化者。
- 因果发现任务:在训练数据中 explicitly 加入因果结构发现的任务,让模型学习区分干预前后的数据分布变化。
注意事项:在尝试这些前沿方向时,一个常见的陷阱是“评估失真”。我们很容易用现有的、为窄AI设计的基准测试(如图像分类准确率、文本生成流畅度)来评估一个旨在迈向AGI的系统,这可能导致优化方向错误。我们必须开发新的评估体系,直接测试模型的概念 grounding 程度、物理常识、因果推理能力、在交互环境中的长期规划能力等。例如“ALOE”或“CausalWorld”这类仿真环境,就是很好的起点。
6. 对开发者与用户的实践启示
理论探讨之余,作为开发者和用户,我们该如何看待和利用当前的大模型,同时又为未来做好准备?
6.1 明确边界,善用其长
首先要清醒认识大模型的能力边界。它是一位卓越的“知识助理”和“创意协作者”,擅长:
- 信息综合与摘要:快速梳理海量资料,提供不同视角。
- 内容生成与润色:撰写草稿、翻译、润色文案、生成创意点子。
- 代码辅助:根据注释生成代码片段、解释代码、查找bug。
- 基于知识的问答:回答事实性问题,提供解释。
但它不擅长(至少目前不擅长):
- 需要深度物理常识和空间推理的任务:如复杂的机械设计、实物操作指导。
- 涉及严谨逻辑和数学证明的任务:未经严格验证前,不可轻信其数学推导。
- 需要实时动态交互和状态跟踪的任务:如复杂的对话式游戏、实时控制系统。
- 提供负责任的、具有因果影响的决策:如医疗诊断、金融投资、法律建议。
在应用设计上,永远不要让大模型处于决策闭环的最后一步。应该采用“人在环路”或“系统在环路”的设计。例如,让模型生成多个方案供人类选择;让模型提供分析,但由人类或基于确定规则的系统做最终判断;在关键操作前设置确认步骤。
6.2 提示工程:在边界内挖掘潜力
虽然无法解决根本差距,但精湛的提示工程可以显著提升大模型在边界附近的性能。核心思想是为模型补全它缺失的上下文和思维框架。
- 思维链提示:不仅问“答案是什么”,而是要求“请一步步推理”。这能激发模型内部的推理过程,有时能产生更准确的结果。
- 角色扮演提示:让模型扮演某个领域的专家(如“一位严谨的物理学家”),这能约束其生成风格和知识调用范围。
- 提供外部工具:当模型需要计算、查询实时信息或处理它不擅长的任务时,在提示中明确告诉它可以调用哪些工具(计算器、搜索引擎API、代码解释器),并描述工具的功能。这实质上是将模型的“知”与外部工具的“行”结合起来。
- 少样本学习:在提示中提供几个输入-输出的例子,让模型快速理解任务格式和期望。
一个实操案例:如果你想让模型帮你规划一次旅行,不要只问“请为我规划一个三天的北京行程”。更好的提示是:“你是一位资深旅行规划师,熟悉北京的历史文化。请遵循以下步骤为我规划:1. 首先,询问我的兴趣偏好(历史、美食、购物、自然)。2. 基于我的回答,列出3个核心主题。3. 为每个主题设计一天的具体行程,包括上午、下午、晚上的活动,并注明每个活动的大致地理位置和交通衔接。4. 最后,提醒我需要提前预订的项目和注意事项。现在,请开始你的第一个步骤,向我提问。” 这样的提示,为模型构建了一个结构化的任务框架,极大地提高了输出结果的可用性和深度。
6.3 为下一代AI储备认知
对于开发者和研究者而言,现在就需要开始积累那些对实现AGI至关重要的能力和数据:
- 多模态数据对:有意识地收集和构建高质量的“文本-图像-视频-动作”对齐数据集。例如,一段描述“拧开瓶盖”的文本,对应第一视角的手部动作视频、力传感器数据和结果(瓶盖被打开)。
- 交互与仿真环境:投入资源开发或利用现有的高保真物理仿真环境(如Isaac Gym、Unity ML-Agents),在这些环境中训练和评估智能体,获取宝贵的交互数据。
- 因果发现工具:学习和应用因果发现、因果推断的工具和方法(如Do-calculus, causal graph learning),尝试将这些思想融入模型架构或训练目标。
- 认知科学知识:主动了解人类和动物是如何学习概念、进行推理、发展社会智能的。认知科学中的理论(如具身认知、预测加工理论)能为AI研究提供宝贵的灵感来源。
从大语言模型到通用人工智能,我们正处在一个激动人心而又充满挑战的过渡期。眼前的模型已经展现了前所未有的能力,让我们得以窥见智能的广阔图景。但真正的“知行合一”的智能,要求机器不仅能言说世界,更能理解、推理并改变世界。这条路上横亘着概念 grounding、物理交互、因果推理、社会理解等多重难关。跨越它们,需要的可能不仅仅是更大的模型和更多的数据,更是范式上的根本创新——也许是新的架构、新的训练目标,或是与符号系统、仿真环境、机器人身体的深度结合。作为从业者,我们既要脚踏实地,用好当前工具的惊人潜力,也要仰望星空,持续思考并推动那些能解决根本问题的研究。这场旅程的终点远未到来,但每一步探索,都让我们离那个真正理解并融入世界的智能更近一点。