高并发场景下的Chatbot会话表设计实战:从架构选型到避坑指南
“618”零点刚过,电商客服机器人瞬间涌入 30w 并发。凌晨 00:03,用户 A 付款前追问优惠券,机器人答复“稍等”后却再无下文;00:05,用户 B 刷新页面,历史会话凭空消失——订单因此取消,客诉飙升。追查发现,会话表主键冲突、Redis 热 key 被踢下线、MongoDB 片键抖动,三线同时告急。一次促销,把“会话状态管理”这个看似简单的模块推向火山口。
下文把踩过的坑、量过的指标、调过的参数全部摊开,给你一份可直接落地的“高并发会话表设计说明书”。
测试环境:
- 云主机 16C32G × 5
- 1000 线程压测,单会话 1.2KB
- 目标 P99 ≤ 50 ms,可用性 99.99 %
1. 会话存储选型:一张图看懂“该把数据放哪”
先给出结论:
- 纯内存、超高并发、可接受分钟级丢失 → Redis
- 需要事务、复杂查询、强一致 → MySQL
- 结构灵活、离线分析多 → MongoDB
- 既要又要还要 → 混合(热 Redis + 温 MySQL + 冷 OSS/Hive)
决策树(文字版):
- 峰值 QPS > 20 w 且单轮对话 < 2 KB?
是 → 走 Redis,落地异步;否 → 继续 2. - 是否需要多字段联合分析(如商品、渠道、意图)?
是 → MongoDB;否 → 继续 3. - 是否要求事务、回滚、对账?
是 → MySQL;否 → 可继续 Redis 但加 RDB 持久化。
2. MySQL:分片 + 索引 + 轻量字段
2.1 分片键选择
- 采用“会话 ID 哈希取模” → 32 库 × 32 表,共 1024 张。
- 哈希算法:CRC32(session_id) % 1024,避免后续扩容重新分布。
2.2 表结构(MySQL 8.0,UTF8MB4)
CREATE TABLE chat_session ( id BIGINT UNSIGNED NOT NULL COMMENT '内部自增,与业务无关', session_id CHAR(32) NOT NULL COMMENT '客户端唯一标识+随机盐', user_id BIGINT UNSIGNED NOT NULL COMMENT '用户编号', bot_id SMALLINT UNSIGNED NOT NULL COMMENT '机器人编号', status TINYINT NOT NULL DEFAULT 1 COMMENT '1 进行中 2 已结束', msg_seq INT UNSIGNED NOT NULL DEFAULT 0 COMMENT '最新序号,实现幂等', last_msg_time DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) COMMENT '最新消息时间', ttl_expire DATETIME NOT NULL COMMENT '逻辑过期时间,用于冷热判定', ext JSON DEFAULT NULL COMMENT '弹性字段:渠道、商品、IP 等', PRIMARY KEY (id), UNIQUE KEY uk_sid (session_id), -- 热点查询 KEY idx_uid_time (user_id, last_msg_time), KEY idx_ttl (ttl_expire) -- 后台清理/归档任务用 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 PARTITION BY HASH(session_id) PARTITIONS 1024;说明:
- 主键用自增 BIGINT,避免 UUID 主键页分裂。
- session_id 为客户端生成,32 位 hex,冲突概率 1/2^128,可忽略。
- msg_seq 由客户端顺序递增,服务端用“乐观锁”保证幂等:
UPDATE … WHERE msg_seq = 旧值;失败则丢弃或重试。
2.3 冷热分离流程
- 热数据:ttl_expire > now(),读写走 InnoDB。
- 温数据:ttl_expire 过去 0–7 天,后台 Job 批量写入 Redis(Hash)。
- 冷数据:> 7 天,压缩后写 OSS,Hive 外表映射,供离线分析。
3. Redis:热数据 + 分布式锁
3.1 存储结构
- Key:
cs:{session_id} - Value: 采用 Hash ——
hset(cs:{sid}, seq, payload, ttl, ...) - TTL 与 MySQL ttl_expire 保持一致,单位秒。
3.2 读写脚本(Lua)保证原子性
-- 写会话并检查幂等 local key = KEYS[1] local seq = tonumber(ARGV[1]) local payload = ARGV[2] local ttl = tonumber(ARGV[3]) local last = redis.call('HGET', key, 'seq') if last and tonumber(last) >= seq then return 0 -- 重复消息,丢弃 end redis.call('HMSET', key, 'seq', seq, 'payload', payload, 'ts', ARGV[4]) redis.call('EXPIRE', key, ttl) return 1压测结果:单分片 4 w qps,P99 6 ms。
3.3 分布式锁
为防止“并发关会话”导致库存回滚重复,用 Redlock:
- 键:
lock:{session_id} - 值:UUID + 线程 ID
- 过期 200 ms,可续期;释放用 Lua 保证“仅自己删”。
4. MongoDB 方案(可选)
若业务需要“任意字段”分析,可用 MongoDB 片键_id(=session_id),WiredTiger + snappy 压缩,单文档 16 MB 上限。
注意:
- 片键一旦确立不可改;
- 高并发更新同一文档易引发写热点,需拆子文档或局部更新。
5. 避坑指南
幂等 ≠ 唯一
会话表必须自带“seq”字段,而不是靠唯一索引。消息去重粒度到“单轮”而非“单条”。分布式锁别用
setnx + expire两条命令
必须一条 Lua 完成,或直接用SET key value NX PX mill。TTL 漂移
MySQL 的 ttl_expire 与 Redis TTL 存在秒级误差,后台归档 Job 要留 30 s 窗口,避免“刚归档又被读”。分片再扩容
1024 分片用一致性取模,扩容只能翻倍。提前埋好“分片位”预留,例如 session_id 前 4 位=分片号,后面可再裂变。监控
- Redis 热 key:使用
hotkeys或redis-faina每 10 s 采样。 - MySQL 慢查:pt-query-digest 每日扫描,> 50 ms 即告警。
- Redis 热 key:使用
6. 性能数据
| 场景 | 并发 | P99 延迟 | 错误率 |
|---|---|---|---|
| 纯 Redis 读写 | 20 w | 6 ms | 0.01 % |
| MySQL 分片写 | 5 w | 38 ms | 0.02 % |
| 混合(热 Redis + 异步 MySQL) | 30 w | 46 ms | 0.005 % |
7. 开放问题
如何平衡“实时会话”与“离线分析”的数据一致性?
- 热数据走 Redis,秒级更新;
- 温数据定时批量同步,可接受分钟级滞后;
- 冷数据 T+1 入仓,准实时 vs 最终一致,业务上能否接受对账补偿?
如果你有更优雅的解法,欢迎留言碰撞。
写完会话表,我顺手把“耳朵-大脑-嘴巴”整条链路也跑通了:让 AI 既能听、也能想、还会说。
如果你也想亲手搭一个能实时语音聊天的个人机器人,可以试试这个动手实验——从0打造个人豆包实时通话AI。
实验把火山引擎的 ASR、LLM、TTS 全包好了,前端模板一键起,小白也能 30 分钟跑通;改两行配置就能换音色、调 Prompt,我玩了一晚上,对话延迟基本压在 500 ms 内,体验还挺顺。