news 2026/4/16 10:43:16

GPT-5 的 Memory 系统技术架构,比想象中简单太多了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-5 的 Memory 系统技术架构,比想象中简单太多了!

大家好,我是玄姐。

当我询问 GPT-5 关于我的记忆时,它列出了 33 个事实,从我的名字、职业目标到当前的健身计划应有尽有。但它究竟是如何存储和检索这些信息的?为何整个过程会如此无缝自然?

经过大量实验,我发现 GPT-5 的记忆系统远比预想中的要简单很多:没有向量数据库,也没有基于对话历史的检索增强生成(RAG),取而代之的是四个独立的层级:适配环境的会话元数据、长期存储的明确事实、近期对话的轻量摘要,以及当前对话的滑动窗口。

本文将详细拆解每个层级的工作原理,以及这种设计为何可能优于传统检索系统。所有结论均来自对 ChatGPT 对话行为的逆向工程,OpenAI 并未公开这些实现细节。

一、ChatGPT 的上下文结构

要理解记忆系统,首先需要明确 ChatGPT 处理每条消息时接收的完整上下文。其结构如下:[0] 系统指令 [1] 开发者指令 [2] 会话元数据(临时)[3] 用户记忆(长期事实)[4] 近期对话摘要(过往聊天的标题 + 片段)[5] 当前会话消息(本次聊天内容)[6] 你的最新消息

前两个组件定义了模型的高层行为和安全规则,并非本文重点。真正值得关注的部分从 “会话元数据” 开始。

二、四大记忆层级详解

1. 会话元数据(Session Metadata)

这类信息仅在会话开始时注入一次,不会永久存储,也不会成为长期记忆的一部分。该模块包含:

  • 设备类型(桌面端 / 移动端)

  • 浏览器及用户代理(User Agent)

  • 大致位置 / 时区

  • 订阅等级

  • 使用模式与活跃频率

  • 近期模型使用分布

  • 屏幕尺寸、暗黑模式状态、JavaScript 启用情况等

会话元数据示例:

会话元数据:

- 用户订阅:ChatGPT Go- 设备:桌面浏览器- 浏览器用户代理:macOS(Intel芯片)上的Chrome浏览器- 大致位置:印度(可能使用VPN)- 当地时间:约16:00- 账户时长:约157周- 近期活跃度: - 过去1天内活跃1天 - 过去7天内活跃5天 - 过去30天内活跃18天- 对话模式: - 平均对话深度:约14.8条消息 - 平均用户消息长度:约4057字符 - 模型使用分布: * 5% gpt-5.1 * 49% gpt-5 * 17% gpt-4o * 6% gpt-5-a-t-mini * 等- 设备环境: - JavaScript已启用 - 暗黑模式已启用 - 屏幕尺寸:900×1440 - 页面视口:812×1440 - 设备像素比:2.0- 当前会话时长:约1100秒

这些信息能帮助模型根据你的使用环境定制回复,但会话结束后所有数据都会失效。

2. 用户记忆(User Memory)

ChatGPT 拥有专门的工具,用于存储和删除关于用户的稳定、长期事实。这些信息会在数周、数月内不断累积,形成一个持久的 “用户画像”。

以我为例,模型存储了 33 个事实,包括:

  • 姓名、年龄

  • 职业目标

  • 背景与过往工作经历

  • 当前项目

  • 学习领域

  • 健身计划

  • 个人偏好

  • 长期兴趣

这些记忆并非模型猜测得出,仅在以下两种情况下会被明确存储:

  • 用户明确指令:例如:“记住这个” 或 “把这个存入记忆”;

  • 模型检测到符合 OpenAI 标准的事实(例如:姓名、职位、明确偏好),且用户通过对话隐含同意。

这些记忆会作为独立模块,注入未来的每一次提示词中。若需添加或删除内容,直接告知模型即可:

  • “把这个存入记忆……”

  • “从记忆中删除这个……”

用户记忆示例:

- 用户姓名:曼坦·古普塔(Manthan Gupta)- 曾任职于Merkle Science和 Qoohoo(YC W23项目)- 偏好通过视频、论文和实操结合的方式学习- 开发过 TigerDB、CricLang、负载均衡器、FitMe等项目- 正在研究现代信息检索系统(LDA、BM25、混合检索、稠密嵌入、FAISS、RRF、大模型重排序)

3. 近期对话摘要(Recent Conversations Summary)

这是最让我意外的部分,我本以为 ChatGPT 会对过往对话使用某种 RAG 技术,实则采用了轻量摘要的方式。

ChatGPT 会以以下格式存储近期对话摘要列表:

1. <时间戳>:<聊天标题>|||| 用户消息片段 |||||||| 用户消息片段 ||||

关键发现:

  • 仅总结用户消息,不包含助手回复;

  • 最多存储约 15 条摘要;

  • 仅作为用户近期兴趣的 “粗略地图”,而非详细上下文。

该模块能让 ChatGPT 在不同会话间保持连贯性,且无需调取完整对话记录。相比之下,传统 RAG 系统需要:

  • 对每条过往消息进行嵌入处理;

  • 对每个查询执行相似度搜索;

  • 调取完整消息上下文;

  • 导致更高的延迟和 token 成本。

ChatGPT 的方案更简洁:预先生成轻量摘要并直接注入,以牺牲部分细节为代价,换取速度和效率的提升。

4. 当前会话消息(Current Session Messages)

这是当前对话的常规滑动窗口,包含本次会话中所有消息的完整历史(未摘要处理)。

虽然我未能获取 ChatGPT 确切的 token 限制,但模型确认了以下规则:

  • 限制基于 token 数量,而非消息条数;

  • 达到限制后,当前会话中较早的消息会被移除(但记忆事实和对话摘要仍保留);

  • 该模块的所有内容都会原封不动传递给模型,以维持完整的会话连贯性。

这也是模型能在单一会话中进行连贯推理的核心原因。

三、记忆系统的协同工作原理

当你向 ChatGPT 发送消息时,整个流程如下:

  • 会话启动:注入会话元数据,让模型了解你的设备、订阅状态和使用模式;

  • 每条消息处理:始终包含你的存储记忆事实(我案例中是 33 条),确保回复贴合你的偏好和背景;

  • 跨会话感知:通过近期对话摘要获取用户近期兴趣,无需调取完整历史;

  • 当前上下文维护:借助当前会话的滑动窗口,保障单一会话内的连贯性;

  • Token 预算控制:会话持续推进时,较早的消息会被移除,但记忆事实和对话摘要保留,维持整体连贯性。

这种分层设计让 ChatGPT 既能提供个性化、上下文感知的体验,又无需承担检索数千条过往消息的计算成本。

四、结论

ChatGPT 的记忆系统是一套平衡了个性化、性能和 token 效率的多层架构。通过结合临时会话元数据、明确长期事实、轻量对话摘要和当前会话滑动窗口,它实现了一项了不起的成果:既具备 “懂你” 的个性化体验,又摆脱了传统 RAG 系统的计算开销。

核心洞察在于:并非所有内容都需要以 “传统记忆” 的形式存在,会话元数据实时适配环境,明确事实跨会话持久化,对话摘要提供无细节负担的连贯性,当前会话保障即时推理流畅。这些动态组件会随会话推进和用户偏好演变不断更新,最终营造出 “系统真正了解你” 的错觉。

对用户而言,这意味着 ChatGPT 会随时间变得越来越个性化,且无需手动管理知识库;对开发者而言,这是一个务实的工程启示:有时更简洁、经过精心筛选的方案,反而优于复杂的检索系统,尤其是在你能掌控整个技术链路时。

这种设计的取舍十分明确:ChatGPT 为了速度和效率,牺牲了部分历史细节的深度。但对大多数对话场景而言,这正是最合理的平衡,系统记住了真正重要的内容(你的偏好、目标、近期兴趣),同时保持快速响应。

参考原文:

https://manthanguptaa.in/posts/chatgpt_memory/

好了,这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣,别忘了点赞、关注、转发噢~

PS:

▼《每日短视频推荐》

▼大模型能淘汰架构师吗?

—1—

加我微信

扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇

加星标★,不错过每一次更新!

⬇戳”阅读原文“,立即预约!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 17:59:50

Langchain-Chatchat能否支持网页抓取内容入库?

Langchain-Chatchat能否支持网页抓取内容入库&#xff1f; 在企业知识管理日益智能化的今天&#xff0c;一个核心挑战浮出水面&#xff1a;如何让内部问答系统不只是“知道昨天的事”&#xff0c;而是能实时感知外部世界的变化&#xff1f;比如&#xff0c;官网刚更新的产品参数…

作者头像 李华
网站建设 2026/4/12 20:10:27

与 AI 共生,腾讯云携手行业专家共话数智驱动新质生长

引言11 月 29 日&#xff0c;由腾讯云 TVP 和中国海诚联合主办的「与 AI 共生&#xff0c;数智驱动产业新质生长」TVP AI 创变研讨会在上海成功举办。在本次活动中&#xff0c;专家们实地参观了中国海诚轻工博物馆&#xff0c;了解中国轻工业的发展历程&#xff0c;直观感受中国…

作者头像 李华
网站建设 2026/4/12 9:05:32

FaceFusion支持HDR输出吗?高动态范围处理能力验证

FaceFusion 支持 HDR 输出吗&#xff1f;高动态范围处理能力验证在高端视频制作领域&#xff0c;HDR 已经不再是“锦上添花”&#xff0c;而是专业内容的标配。从 Netflix 的原创剧集到 Apple ProRes 视频生态&#xff0c;HDR10、Dolby Vision 和 HLG 格式正在重新定义视觉真实…

作者头像 李华
网站建设 2026/4/14 13:50:45

WampServer 3.1.7:Windows开发者的终极本地服务器解决方案 [特殊字符]

WampServer 3.1.7&#xff1a;Windows开发者的终极本地服务器解决方案 &#x1f680; 【免费下载链接】WampServer3.1.7集成环境下载 WampServer 3.1.7是一款专为Windows设计的集成环境软件包&#xff0c;集成了Apache Web服务器、PHP解释器和MySQL数据库&#xff0c;为开发者提…

作者头像 李华
网站建设 2026/4/10 10:56:56

Langchain-Chatchat能否支持数据库直连知识源?

Langchain-Chatchat能否支持数据库直连知识源&#xff1f; 在企业智能化转型的浪潮中&#xff0c;越来越多组织开始构建基于大模型的知识问答系统。然而&#xff0c;一个现实难题摆在面前&#xff1a;企业的核心知识往往并不存放在PDF或Word文档里&#xff0c;而是深藏于MySQL、…

作者头像 李华
网站建设 2026/4/13 20:41:27

项目分享|MimicMotion:基于置信度姿态引导的高质量人体运动视频生成

项目简介 MimicMotion是一款专注于高质量人体运动视频生成的可控视频生成框架&#xff0c;由腾讯与上海交通大学的团队合作研发&#xff0c;相关成果已被ICML 2025收录。 该框架能够在任意运动引导下&#xff0c;生成高质量且长度任意的视频。从展示的示例来看&#xff0c;生…

作者头像 李华