导语
人类语言具有独特的系统性结构,话语会拆分为有独立意义的词汇,这些词汇再组合成短语。本研究表明,类自然语言的系统性,会在受预测信息(又称超额熵)约束的编码中形成。预测信息是衡量随机过程中,过去信息对未来事件可预测程度的统计指标,本质反映过去与未来的互信息。模拟实验发现,最小化预测信息的编码,会将信息拆分为近似独立的特征组,以系统、局部的方式表达,对应语言中的词汇与短语。跨语言语料库研究进一步验证,人类语言在语音、形态、句法及词汇语义层面,均能产生更低的预测信息。该研究建立了语言统计结构与代数结构的关联,证实这类结构是普遍认知约束下交流过程的产物。
关键词:预测信息(Predictive Information)、系统性(Systematicity)、认知约束(Cognitive Constraints)、跨语言实证(Cross-linguistic Evidence)
来源:集智俱乐部
作者:赵思语
审校:赵思怡
论文题目:Linguistic structure from a bottleneck on sequential information processing
论文链接:https://doi.org/10.1038/s41562-025-02336-w
发表日期:2024 年 11 月 1 日
论文来源:Nature Human Behaviour
核心谜题:人类语言为何偏爱 “系统性”?
人类语言最显著的特征是系统性(systematicity)与局部性(locality),二者共同构成了人类语言的核心结构内核——所谓“系统性”,指语言能将完整意义拆分为独立的基础成分(如词汇),再按固定规则组合生成新表达;所谓“局部性”,指语言形式与意义成分呈精准的局部对应关系,不会出现意义与形式的跨成分混乱匹配。
当描述 “一只猫和一只狗在一起” 的场景时,英语使用者会自然地说出 “a cat with a dog”,其中 “cat” 对应猫、“dog” 对应狗,完美契合“局部性”的意义-形式精准对应;同时,这些词汇按“冠词+名词+介词+冠词+名词”的固定规则线性拼接,又体现了“系统性”的组合逻辑,最终形成逻辑清晰的表达。这种结构模式的优势十分明确,能让人类轻松理解和生成无限多的新语句,实现高效的创造性交流。
图1. 英语与多种假设语言描述图像的示例语句。a. 展现自然局部系统性的英语语句。b. 一种非自然系统性语言,其中‘gol’表示猫头与狗头的组合,‘nar’表示猫身与狗身的组合。c. 一种非局部但具有系统性的语言,其语句通过交替使用‘猫’和‘狗’的词汇构成。d. 一种整体性语言,其中‘vek’形式表示‘一只猫和一只狗’,且形式与意义之间不存在对应关系。
但从逻辑上来说,语言并非必须如此。我们完全可以构想多种 “非自然语言”:一种是 “非自然拆分” 的语言,用 “gol” 同时指代猫的头部和狗的头部,用 “nar” 指代猫的身体和狗的身体,表达同样场景时会说 “A gol with a nar”;另一种是 “交错排列” 的语言,将 “a cat”“with”“a dog” 的字母打乱交错,形成 “waitacdahogt” 这样难以解析的表达;还有一种是 “整体化表达” 的语言,用 “vek” 这样一个无内部结构的词汇直接指代 “一只猫和一只狗在一起”,就像霍夫曼编码(Huffman codes)那样追求编码效率却缺乏系统性。
但从逻辑上来说,语言并非必须遵循这种“系统性+局部性”的结构。我们完全可以构想多种 “非自然语言”:一种是 “非自然拆分” 的语言,用 “gol” 同时指代猫的头部和狗的头部,用 “nar” 指代猫的身体和狗的身体,打破了“局部性”的意义-形式精准对应;另一种是 “交错排列” 的语言,将 “a cat”“with”“a dog” 的字母打乱交错,形成 “waitacdahogt” 这样的表达,破坏了“系统性”的有序组合规则;还有一种是 “整体化表达” 的语言,用 “vek” 这样一个无内部结构的词汇直接指代 “一只猫和一只狗在一起”,既无系统性也无局部性,就像霍夫曼编码(Huffman codes)那样追求编码效率却缺乏核心结构特征。
这些假想语言在理论上同样能完成交流任务,为何人类语言却最终演化出系统性和局部性的结构?这一问题不仅关乎语言本身的本质,更涉及人类认知与语言进化的深层关联。传统理论认为,语言的系统性源于语言学习者需要对未见过的意义进行泛化,但这类解释无法说明为何语言的拆分方式是 “自然” 的,也无法解释局部性特征。而另一类理论则依赖于语言学习者的先天归纳偏置或意义的心理表征假设,缺乏跨语言、跨认知场景的普遍解释力。
理论基石:预测信息最小化的认知逻辑
(一)预测信息的核心概念
为破解 “人类语言为何选择系统性结构” 这一谜题,研究团队引入信息论中的预测信息(Predictive Information)作为核心度量工具,该指标又称超额熵(excess entropy)。简单来说,预测信息描述的是:在一段随机符号序列中,要准确预测后续内容,需要从前面已出现的内容中提取多少信息。
对应到语言场景,它的本质是衡量 “根据前文猜后文” 的难度:预测信息数值越低,说明语言序列的局部可预测性越强,人类理解话语、组织表达时,所需投入的认知资源(比如记忆负荷、注意力分配、大脑加工成本)就越少;反之,预测信息越高,语言加工越费力。
这一概念的提出,源于对人类认知局限的精准洞察。研究团队基于三点基础观察构建逻辑:第一,人类话语本质是一维离散符号序列(比如构成语言的音素、词汇,需按顺序依次呈现);第二,这些符号在短时间尺度内的可预测性,会直接影响语言理解与表达的难易程度;第三,人类大脑在预测序列内容时,认知资源是有限的(无法同时处理大量杂乱无章的信息)。
基于上述观察,研究团队提出核心假设:人类语言的系统性、局部性结构,本质是为了最小化预测信息—— 通过将完整意义拆分为近似独立的特征组(对应语言中的词汇、短语),再以有序、局部对应的方式组合,让语言序列更适配人类有限的认知资源,实现高效加工与交流。
(二)理论推导:从认知约束到语言结构
预测信息的独特属性为语言结构提供了关键解释。当预测信息较低时,符号能够依赖附近的上下文被准确预测,这意味着语言无需依赖长距离的整合信息,就能让使用者顺畅理解。为了实现这一目标,语言需要将意义分解为 “近似独立的特征”—— 因为独立特征之间的统计依赖性低,表达这些特征的符号序列也更容易被局部预测。同时,这些特征需要以局部的方式组合,即相关的符号保持连续,而不是交错分布。否则,符号之间的统计依赖被拉长,预测难度随之上升。
这种逻辑自然催生了语言的系统性和局部性:意义被拆分为独立成分,每个成分对应一个词汇(系统性),词汇按顺序拼接形成短语和句子(局部性),就像搭积木一样,既保证了表达的灵活性,又降低了预测难度。而那些不遵循这种局部、系统组织方式的“非自然语言”,无论是非自然拆分还是交错排列,都会破坏局部可预测性,导致预测信息升高,超出人类的认知处理能力。
实证支撑:模拟实验与跨语言验证的双重印证
为了验证 “预测信息最小化塑造语言结构” 这一假设,研究团队采用了 “模拟实验” 与 “跨语言语料分析” 相结合的研究方法,从理论和现实两个层面提供了坚实证据。
(一)模拟实验:预测信息如何催生系统性
模拟实验的核心思路是:构建不同的意义集合,设计多种可能的语言编码方式,计算每种编码的预测信息,观察哪种编码方式的预测信息最低,是否与自然语言的结构一致。
图2.硬币翻转分布的语言模拟。a、两种系统化表达方式:3表示完全系统化语言,0表示完全无歧义语言,用于表示由三次加权硬币翻转构成的意义。整体语言。插图框放大显示低预测区域。在系统化语言中,每个字母对应一个信息源的输出结果。d、e中使用的语言及示例源,其中包含硬币翻转信息。在整体语言中,不存在自然的系统化关系,互信息I[M2:M3]≈0.18比特。e、形式与意义之间不同预测信息量。b、计算不同互信息水平下硬币翻转M2与源语言及a中两种语言的预测信息。系统化语言具有较低的预测信息M3(参见正文)。零互信息对应b和c。‘自然’信息。c、所有双射映射从意义到语言的预测信息。M2和M3共同整体表达语言。‘非自然’语言对应长度为3的二进制字符串,用于表示a中的意义和源语言。语言共同整体表达M1和M2。按预测信息排序并按硬币翻转次数着色。
在第一个模拟实验中,研究团队构建了 “三次硬币翻转” 的意义集合,每个硬币翻转的结果(正面或反面)是独立的意义特征。实验设计了两种编码方式:一种是 “系统性语言”,每个硬币翻转结果对应一个独立的符号(如 “a” 代表正面,“b” 代表反面),语句由这些符号按顺序拼接而成;另一种是 “整体化语言”,每个意义组合对应一个无内部结构的符号串,不进行特征拆分。结果显示,系统性语言的预测信息显著低于整体化语言,且在所有可能的编码方式中,只有系统性语言能实现预测信息最小化。这一结果表明,当意义特征独立时,拆分特征并系统表达是降低预测信息的最优选择。
在第二个模拟实验中,研究团队调整了意义特征的性质,让部分特征高度相关(如第二次和第三次硬币翻转的结果始终一致)。此时,模拟结果发生了有趣的变化:最优编码方式不再是完全的系统性拆分,而是将高度相关的特征 “整体化表达”,形成一个统一的 “词汇”,而独立特征仍保持系统性表达。这一发现恰好解释了自然语言中 “词素的任意性”—— 例如 “cat” 这个词,其内部没有拆分,但它所指代的 “猫” 的各项特征(毛茸茸、哺乳动物、有尾巴等)高度相关,整体化表达这些相关特征能降低预测信息,而 “数量” 这一相对独立的特征,则通过 “-s” 这样的后缀系统性表达,形成 “cats”。
此外,针对局部性和层级结构的模拟实验也得出了一致结论。在针对 Zipf 分布意义集合的实验中,保持词汇连续拼接的编码方式,预测信息显著低于词汇交错排列的编码;而在具有层级结构的意义集合(如 “[猫 + 狗]”“[蓝色 + 方形]” 这样的嵌套特征组)中,“特征组连续嵌套” 的编码方式(类似自然语言的句法层级)预测信息最低,进一步印证了局部性对降低预测信息的重要作用。
(二)跨语言实证:人类语言确实具有低预测信息
模拟实验验证了理论逻辑的合理性,但自然语言是否真的遵循这一规律?为解答这一问题,研究团队分析了 61 种语言的大规模语料库,涵盖语音、形态、句法、词汇语义四个层面,通过与 “非自然结构基线” 的对比,检验真实语言的预测信息是否更低。
图3.研究证实,自然语言在音系学、形态学和句法学层面具有减少预测信息的结构特征。a. 选定语言中音系形式的预测信息计算:将实证形式与保留发音方式的随机排列形式进行对比。b. 名词形态的字母级预测信息(黑色垂直线)与四个随机基线的预测信息值对比(样本密度为10,000;详见正文)。P值表示基线样本中预测信息低于实证形式的比例。c. 12种语言形容词-名词对的字母级预测信息与基线对比。非局部基线始终产生远高于实证形式的预测信息,故未予展示。
在语音层面,人类语言均存在特定的语音规则(phonotactics),即对语音组合有固定限制,例如英语中 “blick” 符合语音规则,是可能存在的词汇,而 “bnick” 违背规则,无法成为合法词汇。为验证语音规则与预测信息的关联,研究团队设计了对照实验:将每种语言的词汇语音序列打乱(仅打乱组合顺序,保留单个语音的发音方式不变),以此构建 “打乱基线”,再对比真实词汇语音序列与打乱序列的预测信息差异。实验结果明确显示,61 种语言的真实词汇语音序列,其预测信息均显著低于对应的打乱基线,这一统一结果证明,自然语言的语音规则并非随机形成,本质是为降低预测信息而演化存在的。
在形态层面,研究团队分析了匈牙利语、阿拉伯语、芬兰语、拉丁语和土耳其语五种语言的名词变格系统。这些语言的名词通过后缀变化表达 “数”“格” 等语法特征,具有明显的系统性。研究团队构建了三种基线:一是 “非局部基线”,打乱后缀的字母顺序;二是 “非自然基线”,打乱形态与语法特征的对应关系;三是 “长度匹配非自然基线”,在保持后缀长度不变的前提下打乱形态 - 特征对应。结果显示,五种语言的真实形态系统,预测信息均显著低于所有基线,即使是阿拉伯语中存在的非连续形态(如 “broken plurals”),其预测信息依然低于基线,说明这种有限的非连续结构仍符合预测信息最小化原则。
在句法层面,研究团队分析了 12 种语言的形容词 - 名词组合(如英语 “blue square”)。通过构建 “词汇交错” 和 “形态 - 意义错配” 的基线,发现真实语言的形容词 - 名词组合预测信息更低。而在名词短语语序的研究中,团队分析了不同语言中限定词(D)、数词(N)、形容词(A)和名词(n)的排列顺序,发现跨语言中更常见的语序(如英语 D-N-A-n、西班牙语 D-N-n-A),其预测信息显著低于罕见语序,说明语序的跨语言分布也受到预测信息最小化的约束。
在词汇语义层面,研究团队利用兰卡斯特感觉运动规范(Lancaster Sensorimotor Norms)分析了英语名词的语义特征。结果显示,名词的核心语义特征(如 “是否毛茸茸”“是否为哺乳动物”)之间高度相关,而 “数量” 特征与这些核心特征的相关性较低。这恰好符合模拟实验的结论:相关特征整体化表达于一个词汇中,独立特征则系统性表达,从而实现预测信息最小化。同时,研究还发现,同一词汇内的语义特征相关性显著高于不同词汇间的特征相关性,进一步印证了 “相关特征聚类表达” 的原则。
跨学科启示:语言、认知与人工智能的交汇
这项研究的意义远超出语言学领域,它建立了语言结构与信息论、认知科学、机器学习、神经科学等多个学科的桥梁,为相关领域提供了全新的研究视角。
在认知科学层面,研究揭示了人类语言与认知约束(Cognitive Constraints)之间的深层关联。长期以来,研究者们知道人类认知资源有限,但如何具体影响语言结构尚不明确。该研究表明,预测信息最小化是连接认知约束与语言结构的关键纽带,语言的系统性、局部性等核心特征,本质上是人类为了适配有限认知资源而进化出的最优解。这一发现也为理解 “语言习得” 提供了新视角:儿童学习语言时,可能会本能地偏好预测信息更低的系统性结构(Systematic Structure),从而加速语言习得过程。
在机器学习领域,研究为自然语言处理提供了理论启示。大型语言模型的核心任务是根据前文预测下一个词,而这项研究表明,自然语言的结构本身就是为了降低这种预测难度而设计的 —— 这正是大型语言模型能够取得成功的重要原因。同时,研究中 “预测信息最小化” 的原则,也为构建更高效的语言模型提供了参考:未来的模型设计可以更注重语言的局部可预测性和特征独立性,从而提升模型的效率和可解释性。此外,研究还解释了为何大型语言模型难以学习 “非自然语言”—— 这类语言的预测信息过高,超出了模型的学习能力。
在神经科学领域,研究与大脑的语言加工机制相呼应。神经科学研究发现,大脑在处理语言时,会对可预测的词汇产生更高效的神经响应。而这项研究表明,自然语言的低预测信息特征,恰好与大脑的这种加工偏好相适配。预测信息最小化意味着语言序列的局部可预测性更高,这能减少大脑加工语言时的认知负荷,提升交流效率。这一发现为理解 “语言与大脑的协同进化” 提供了重要线索。
局限与未来:未竟的探索之路
尽管这项研究取得了突破性进展,但仍存在一些局限,为未来的研究指明了方向。首先,研究主要关注单个语句内部的预测信息,而语言交流往往是多语句的语篇层面。未来的研究可以探究语篇层面的预测信息是否同样受到最小化约束,以及如何解释语篇的层级结构(如话题组织)。其次,研究假设语言是意义与形式的一一对应映射,但自然语言中存在大量歧义现象(如多义词、歧义句)。歧义是否会影响预测信息?语言如何在歧义与预测信息最小化之间权衡?这些问题值得进一步探索。
此外,自然语言中也存在一些看似违背局部性的结构,例如长距离指代(如 “The girl who met the boy yesterday likes music” 中,“who” 指代 “the girl”,二者相距较远)。这些结构为何会存在?它们对预测信息有何影响?是否存在其他认知约束与预测信息最小化相互作用?这些问题需要更深入的实证研究来解答。
最后,研究尚未探讨语言进化过程中,预测信息最小化是如何具体发挥作用的。是通过个体交流中的效率压力,还是通过语言学习者的认知偏好,抑或是群体层面的文化进化?厘清这些机制,将有助于更全面地理解语言结构的起源与演变。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。