Langchain-Chatchat如何监控Token使用情况？用量统计与预警机制-编程阁

Langchain-Chatchat 如何监控 Token 使用情况？用量统计与预警机制

在企业逐步将大语言模型（LLM）引入内部知识管理系统的今天，一个看似微小却至关重要的问题浮出水面：如何避免“问得多、花得更多”导致系统崩溃或资源失控？

Langchain-Chatchat 作为当前最受欢迎的开源本地知识库问答项目之一，凭借其对私有文档的支持和完全离线部署能力，赢得了大量企业的青睐。它结合了 LangChain 框架与国产化模型（如 ChatGLM、Qwen 等），实现了从 PDF、Word 到 TXT 文件的自动解析、向量化检索与语义匹配，真正做到了数据不出内网。

但随之而来的是一个新的挑战——尽管无需支付 API 费用，本地运行的大模型依然受限于显存容量与计算负载。而这一切的核心瓶颈，正是Token 的消耗量。

无论是用户提问、上下文拼接，还是答案生成，每一个字符都可能被拆解为多个 Token，最终累积成巨大的内存压力。一次长对话可能占用数千 Tokens，若并发请求增多，轻则响应变慢，重则服务中断。

因此，构建一套精准、低侵入且可扩展的 Token 监控体系，不再是“锦上添花”，而是保障系统稳定运行的刚需。

要实现有效的资源管控，第一步就是“看得见”。这意味着我们必须能准确测量每次交互中输入和输出所消耗的 Token 数量。

这里的关键词是“准确”。不同模型使用的分词器（Tokenizer）各不相同：ChatGLM 使用的是 SentencePiece，Qwen 基于 BPE，而如果你对接的是类 GPT 模型，则需要依赖tiktoken。稍有不慎，统计结果就可能出现 ±15% 的偏差，直接影响后续决策。

幸运的是，Langchain-Chatchat 的架构天然支持这种细粒度观测。我们可以在推理流程的关键节点插入轻量级中间件，完成 Token 计算而不干扰主逻辑。

以典型的 RAG 流程为例：

prompt = build_rag_prompt(query, retrieved_docs) # 构造提示词 response = llm.invoke(prompt) # 调用模型

只需在这两步之间加入 Token 统计逻辑即可：

from transformers import AutoTokenizer import tiktoken # 根据实际模型选择合适的 tokenizer tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True) def count_tokens(text: str, model_name: str = "chatglm") -> int: if model_name.startswith("gpt"): enc = tiktoken.encoding_for_model(model_name) return len(enc.encode(text)) else: return len(tokenizer.encode(text)) def log_token_usage(user_id: str, session_id: str, prompt: str, response: str): input_tokens = count_tokens(prompt) output_tokens = count_tokens(response) total_tokens = input_tokens + output_tokens usage_record = { "user_id": user_id, "session_id": session_id, "input_tokens": input_tokens, "output_tokens": output_tokens, "total_tokens": total_tokens, "timestamp": datetime.now() } print(f"[Token Log] {usage_record}") return usage_record

这段代码虽简洁，却解决了最基础也是最关键的问题：真实反映每一次问答的实际开销。更重要的是，它是非侵入式的——你可以随时启用或关闭，不影响核心功能。

但仅仅记录单次用量还不够。真正的价值在于聚合分析：谁在高频使用？哪些会话最容易失控？是否存在异常爬虫行为？

这就需要我们将零散的日志转化为结构化数据，并建立多维度的统计能力。

一个可行的做法是将每次 Token 使用记录写入数据库。对于小型部署，SQLite 已足够；生产环境则建议使用 MySQL 或 PostgreSQL 配合索引优化查询性能。

def init_db(): conn = sqlite3.connect("token_usage.db") cursor = conn.cursor() cursor.execute(''' CREATE TABLE IF NOT EXISTS usage_logs ( id INTEGER PRIMARY KEY AUTOINCREMENT, user_id TEXT NOT NULL, session_id TEXT, input_tokens INTEGER, output_tokens INTEGER, total_tokens INTEGER, timestamp DATETIME DEFAULT CURRENT_TIMESTAMP ) ''') conn.commit() conn.close() def query_daily_usage(target_date: str): conn = sqlite3.connect("token_usage.db") cursor = conn.cursor() cursor.execute(""" SELECT user_id, SUM(input_tokens) as sum_input, SUM(output_tokens) as sum_output, SUM(total_tokens) as sum_total, COUNT(*) as request_count FROM usage_logs WHERE DATE(timestamp) = ? GROUP BY user_id ORDER BY sum_total DESC """, (target_date,)) results = cursor.fetchall() conn.close() return results

通过定时任务每日执行该脚本，管理员可以轻松掌握资源分布趋势。比如发现某个用户一天内调用了超过 50 万 Tokens，远超平均值，便可进一步排查是否为自动化脚本滥用或提示工程设计不合理所致。

更进一步，这些数据还能用于可视化展示。接入 Grafana 或自建控制台后，可呈现日活趋势图、Top 用户排行榜、平均每问开销变化曲线等，极大提升系统的可观测性。

然而，被动查看报表终究滞后。真正让系统“聪明起来”的，是主动预警机制。

想象这样一个场景：某员工正在调试系统，连续发起上百条复杂查询，每条 Prompt 包含上千 Tokens 的上下文。几分钟内，GPU 显存迅速耗尽，整个服务开始卡顿甚至崩溃。

如果我们能在用量接近阈值时提前干预，就能避免这类事故。

预警机制的本质是一个闭环控制系统：监控 → 判断 → 响应。

我们可以基于内存缓存（如 Redis）维护每个用户的当日累计用量，并设置两级告警：

警告级别（80% 上限）：发送通知提醒；
严重级别（超过上限）：拒绝服务并触发告警。

from collections import defaultdict import smtplib from email.mime.text import MIMEText user_daily_tokens = defaultdict(int) DAILY_LIMIT = 100_000 def check_and_alert(user_id: str, new_tokens: int): today_str = datetime.now().strftime("%Y-%m-%d") key = f"{user_id}_{today_str}" user_daily_tokens[key] += new_tokens if user_daily_tokens[key] > DAILY_LIMIT: send_alert_email( subject=f"[CRITICAL] 用户 {user_id} 超出 Token 日限额", body=f"用户 {user_id} 当前已使用 {user_daily_tokens[key]} Tokens，超过限制 {DAILY_LIMIT}" ) return False elif user_daily_tokens[key] > DAILY_LIMIT * 0.8: send_alert_email( subject=f"[WARNING] 用户 {user_id} 接近日限额", body=f"已使用 {user_daily_tokens[key]} Tokens，建议关注" ) return True

当然，在真实环境中，还需考虑持久化存储、分布式锁、异步告警队列等问题。例如使用 Redis 替代defaultdict，并通过 Lua 脚本保证原子性操作，防止并发更新出错。

此外，响应动作也不仅限于发邮件。它可以联动限流组件（如 FastAPI 的slowapi），动态降低该用户的请求频率；也可以写入审计日志供合规审查；甚至在未来支持配额重置、临时扩容等自动化运维策略。

在整个系统架构中，Token 监控模块通常位于业务逻辑层与模型服务层之间，作为一个透明的中间件存在：

[前端 UI] ↓ [Langchain-Chatchat Server] ├── 文档解析 → 向量检索 → RAG 构造 Prompt ├── [Token Monitor Middleware] ← 插入统计点 ├── LLM Inference (本地模型 API) └── Usage Logger → Database / Alert System

它的存在几乎不影响主链路性能——一次 Token 计算耗时通常小于 5ms，异步写库更是控制在 10ms 以内。但对于运维团队来说，带来的掌控感却是质的飞跃。

实践中还需要注意几个关键设计点：