news 2026/4/16 1:14:43

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构(THS)

解锁LLM新能力!Engram:用条件记忆重塑大语言模型架构

当MoE与N-gram相结合,一种全新的稀疏性范式正在悄然改变大语言模型的能力边界。

近期,来自北京大学和深度求索的研究团队提出了一种名为Engram的创新条件记忆模块,它通过结合经典的N-gram嵌入技术和现代深度学习架构,为大语言模型引入了高效的知识检索能力。Engram的核心突破在于,它能够在不增加计算开销的前提下,通过静态记忆存储大幅提升模型在知识、推理和长上下文任务上的表现

这一技术实现是基于一个深刻的洞见:语言建模中的许多任务本质上是静态、模式化的知识检索,而非动态推理。传统Transformer架构缺少原生的知识查找机制,被迫用昂贵的计算来模拟检索过程。Engram则通过简单的哈希查找,以O(1)的时间复杂度直接获取这些模式化知识。

1. 条件计算 vs. 条件记忆:两种稀疏性范式

当前的稀疏性研究主要集中在条件计算领域,以混合专家(MoE)模型为代表。MoE通过动态路由激活不同专家子网络来处理不同输入,从而实现模型容量的扩展而不显著增加计算成本。这类似于一个大型图书馆,每次只取出少量相关的书籍进行阅读。

但语言信号本身具有内在的异质性,语言建模实际上涉及两种本质不同的子任务:

  1. 组合推理:需要深度、动态的计算过程
  2. 知识检索:处理静态、模式化的语言模式(如命名实体、成语短语)

传统Transformer架构缺乏专门的知识检索机制,导致即使是检索一个简单的多令牌实体(如“Diana, Princess of Wales”)也需要消耗多个注意力层和前馈网络层进行计算。这实质上是用昂贵的计算来重建静态查找表,浪费了宝贵的计算深度。

Engram提出的条件记忆范式,则通过在模型中引入稀疏查找操作,直接检索静态知识,从而与MoE的条件计算形成互补。它将静态模式存储与动态计算在结构上分离,让模型各司其职。

2. Engram核心模块:现代化的N-gram嵌入

2.1 架构概览

Engram模块的设计目标是增强Transformer主干的表示能力,同时保持计算效率。该模块仅应用于特定层,将标准输入嵌入和输出层保持不变。

Engram的处理流程分为两个功能阶段:检索和融合。

2.2 基于哈希

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:08:27

从码农到乡村AI教育家:我的鹤岗实验

代码之外,屏幕之后 在软件测试的领域里,我们习惯于与代码、缺陷、用例、自动化脚本为伍。我们的世界由精确的逻辑、可复现的步骤和追求“零缺陷”的理想构成。我们深知技术的强大,也洞悉其脆弱性。然而,当2025年底,我…

作者头像 李华
网站建设 2026/4/16 11:58:25

nodejs考研备考学习互助打卡系统

文章目录系统概述核心功能技术实现应用场景--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统概述 Node.js考研备考学习互助打卡系统是一个基于Node.js开发的在线平台,旨在帮助考研学生制定学习计划、…

作者头像 李华
网站建设 2026/4/16 15:07:47

开源活动表单系统源码 带完整的搭建部署教程

温馨提示:文末有资源获取方式当业务增长对个性化管理工具的需求日益迫切时,拥有一套可自主掌控的数字化系统变得至关重要。一款功能完备的万能活动在线报名自定义表单系统源码,为此提供了绝佳的起点。它不仅仅是一个“即用型”工具&#xff0…

作者头像 李华
网站建设 2026/4/16 12:03:50

【期货量化进阶】期货量化交易策略交易时机选择(Python量化)

一、前言 交易时机的选择直接影响策略表现。选择合适的交易时机可以降低交易成本、提高成交质量、减少滑点损失。本文将介绍如何识别和选择最佳交易时机。 本文将介绍: 交易时机的重要性市场微观结构分析流动性评估波动率时机选择时间窗口优化 二、为什么选择天…

作者头像 李华
网站建设 2026/4/15 12:55:37

合思AI:聚合全域优势,重塑企业费控数智新生态

在数字经济深度渗透的今天,企业费控管理正从“流程合规”向“效率提升成本优化业财融合”三重升级,AI技术成为破解财务痛点、激活管理效能的核心引擎。立足行业实践,合思AI整合头部大模型产品的核心优势,以“全场景覆盖、全流程智…

作者头像 李华