GPT-5 的 Memory 系统技术架构，比想象中简单太多了！-编程阁

大家好，我是玄姐。

当我询问 GPT-5 关于我的记忆时，它列出了 33 个事实，从我的名字、职业目标到当前的健身计划应有尽有。但它究竟是如何存储和检索这些信息的？为何整个过程会如此无缝自然？

经过大量实验，我发现 GPT-5 的记忆系统远比预想中的要简单很多：没有向量数据库，也没有基于对话历史的检索增强生成（RAG），取而代之的是四个独立的层级：适配环境的会话元数据、长期存储的明确事实、近期对话的轻量摘要，以及当前对话的滑动窗口。

本文将详细拆解每个层级的工作原理，以及这种设计为何可能优于传统检索系统。所有结论均来自对 ChatGPT 对话行为的逆向工程，OpenAI 并未公开这些实现细节。

一、ChatGPT 的上下文结构

要理解记忆系统，首先需要明确 ChatGPT 处理每条消息时接收的完整上下文。其结构如下：[0] 系统指令 [1] 开发者指令 [2] 会话元数据（临时）[3] 用户记忆（长期事实）[4] 近期对话摘要（过往聊天的标题 + 片段）[5] 当前会话消息（本次聊天内容）[6] 你的最新消息

前两个组件定义了模型的高层行为和安全规则，并非本文重点。真正值得关注的部分从 “会话元数据” 开始。

二、四大记忆层级详解

1. 会话元数据（Session Metadata）

这类信息仅在会话开始时注入一次，不会永久存储，也不会成为长期记忆的一部分。该模块包含：

设备类型（桌面端 / 移动端）
浏览器及用户代理（User Agent）
大致位置 / 时区
订阅等级
使用模式与活跃频率
近期模型使用分布
屏幕尺寸、暗黑模式状态、JavaScript 启用情况等

会话元数据示例：

会话元数据：

- 用户订阅：ChatGPT Go- 设备：桌面浏览器- 浏览器用户代理：macOS（Intel芯片）上的Chrome浏览器- 大致位置：印度（可能使用VPN）- 当地时间：约16:00- 账户时长：约157周- 近期活跃度： - 过去1天内活跃1天 - 过去7天内活跃5天 - 过去30天内活跃18天- 对话模式： - 平均对话深度：约14.8条消息 - 平均用户消息长度：约4057字符 - 模型使用分布： * 5% gpt-5.1 * 49% gpt-5 * 17% gpt-4o * 6% gpt-5-a-t-mini * 等- 设备环境： - JavaScript已启用 - 暗黑模式已启用 - 屏幕尺寸：900×1440 - 页面视口：812×1440 - 设备像素比：2.0- 当前会话时长：约1100秒

这些信息能帮助模型根据你的使用环境定制回复，但会话结束后所有数据都会失效。

2. 用户记忆（User Memory）

ChatGPT 拥有专门的工具，用于存储和删除关于用户的稳定、长期事实。这些信息会在数周、数月内不断累积，形成一个持久的 “用户画像”。

以我为例，模型存储了 33 个事实，包括：

姓名、年龄
职业目标
背景与过往工作经历
当前项目
学习领域
健身计划
个人偏好
长期兴趣

这些记忆并非模型猜测得出，仅在以下两种情况下会被明确存储：

用户明确指令：例如：“记住这个” 或 “把这个存入记忆”；

模型检测到符合 OpenAI 标准的事实（例如：姓名、职位、明确偏好），且用户通过对话隐含同意。

这些记忆会作为独立模块，注入未来的每一次提示词中。若需添加或删除内容，直接告知模型即可：

“把这个存入记忆……”
“从记忆中删除这个……”

用户记忆示例：

- 用户姓名：曼坦·古普塔（Manthan Gupta）- 曾任职于Merkle Science和 Qoohoo（YC W23项目）- 偏好通过视频、论文和实操结合的方式学习- 开发过 TigerDB、CricLang、负载均衡器、FitMe等项目- 正在研究现代信息检索系统（LDA、BM25、混合检索、稠密嵌入、FAISS、RRF、大模型重排序）

3. 近期对话摘要（Recent Conversations Summary）

这是最让我意外的部分，我本以为 ChatGPT 会对过往对话使用某种 RAG 技术，实则采用了轻量摘要的方式。

ChatGPT 会以以下格式存储近期对话摘要列表：

1. <时间戳>：<聊天标题>|||| 用户消息片段 |||||||| 用户消息片段 ||||

关键发现：

仅总结用户消息，不包含助手回复；
最多存储约 15 条摘要；
仅作为用户近期兴趣的 “粗略地图”，而非详细上下文。

该模块能让 ChatGPT 在不同会话间保持连贯性，且无需调取完整对话记录。相比之下，传统 RAG 系统需要：

对每条过往消息进行嵌入处理；
对每个查询执行相似度搜索；
调取完整消息上下文；
导致更高的延迟和 token 成本。

ChatGPT 的方案更简洁：预先生成轻量摘要并直接注入，以牺牲部分细节为代价，换取速度和效率的提升。

4. 当前会话消息（Current Session Messages）

这是当前对话的常规滑动窗口，包含本次会话中所有消息的完整历史（未摘要处理）。

虽然我未能获取 ChatGPT 确切的 token 限制，但模型确认了以下规则：

限制基于 token 数量，而非消息条数；
达到限制后，当前会话中较早的消息会被移除（但记忆事实和对话摘要仍保留）；
该模块的所有内容都会原封不动传递给模型，以维持完整的会话连贯性。

这也是模型能在单一会话中进行连贯推理的核心原因。

三、记忆系统的协同工作原理

当你向 ChatGPT 发送消息时，整个流程如下：

会话启动：注入会话元数据，让模型了解你的设备、订阅状态和使用模式；
每条消息处理：始终包含你的存储记忆事实（我案例中是 33 条），确保回复贴合你的偏好和背景；
跨会话感知：通过近期对话摘要获取用户近期兴趣，无需调取完整历史；
当前上下文维护：借助当前会话的滑动窗口，保障单一会话内的连贯性；
Token 预算控制：会话持续推进时，较早的消息会被移除，但记忆事实和对话摘要保留，维持整体连贯性。

这种分层设计让 ChatGPT 既能提供个性化、上下文感知的体验，又无需承担检索数千条过往消息的计算成本。

四、结论

ChatGPT 的记忆系统是一套平衡了个性化、性能和 token 效率的多层架构。通过结合临时会话元数据、明确长期事实、轻量对话摘要和当前会话滑动窗口，它实现了一项了不起的成果：既具备 “懂你” 的个性化体验，又摆脱了传统 RAG 系统的计算开销。

核心洞察在于：并非所有内容都需要以 “传统记忆” 的形式存在，会话元数据实时适配环境，明确事实跨会话持久化，对话摘要提供无细节负担的连贯性，当前会话保障即时推理流畅。这些动态组件会随会话推进和用户偏好演变不断更新，最终营造出 “系统真正了解你” 的错觉。

对用户而言，这意味着 ChatGPT 会随时间变得越来越个性化，且无需手动管理知识库；对开发者而言，这是一个务实的工程启示：有时更简洁、经过精心筛选的方案，反而优于复杂的检索系统，尤其是在你能掌控整个技术链路时。

这种设计的取舍十分明确：ChatGPT 为了速度和效率，牺牲了部分历史细节的深度。但对大多数对话场景而言，这正是最合理的平衡，系统记住了真正重要的内容（你的偏好、目标、近期兴趣），同时保持快速响应。

参考原文：

https://manthanguptaa.in/posts/chatgpt_memory/

好了，这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣，别忘了点赞、关注、转发噢~

PS：

▼《每日短视频推荐》

▼大模型能淘汰架构师吗？

—1—

加我微信

扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

加星标★，不错过每一次更新！

⬇戳”阅读原文“，立即预约！

GPT-5 的 Memory 系统技术架构，比想象中简单太多了！

一、ChatGPT 的上下文结构

二、四大记忆层级详解

1. 会话元数据（Session Metadata）

2. 用户记忆（User Memory）

3. 近期对话摘要（Recent Conversations Summary）

4. 当前会话消息（Current Session Messages）

三、记忆系统的协同工作原理

四、结论

Langchain-Chatchat能否支持网页抓取内容入库？

与 AI 共生，腾讯云携手行业专家共话数智驱动新质生长

FaceFusion支持HDR输出吗？高动态范围处理能力验证

WampServer 3.1.7：Windows开发者的终极本地服务器解决方案 [特殊字符]

Langchain-Chatchat能否支持数据库直连知识源？

项目分享|MimicMotion：基于置信度姿态引导的高质量人体运动视频生成