Qwen All-in-One可观测性：Prometheus集成实战-编程阁

Qwen All-in-One可观测性：Prometheus集成实战

1. 引言

1.1 业务场景描述

在现代AI服务架构中，轻量级、高可用的模型部署方案正成为边缘计算和资源受限环境下的首选。基于 Qwen1.5-0.5B 的Qwen All-in-One项目正是为此而生——它通过上下文学习（In-Context Learning）技术，在仅加载一个模型的前提下，同时支持情感分析与开放域对话两大任务，显著降低了部署复杂度与资源消耗。

然而，随着服务上线并持续运行，如何实时掌握其性能表现、推理延迟、请求吞吐量等关键指标，成为了保障服务质量的核心挑战。传统的日志排查方式已无法满足动态监控需求，亟需一套完整的可观测性体系。

1.2 痛点分析

当前 AI 服务面临以下可观测性难题：

缺乏对 LLM 推理延迟的细粒度统计
无法量化不同 Prompt 模式（如情感分析 vs 对话）的性能差异
无历史数据支撑容量规划与异常预警
多用户并发场景下难以定位性能瓶颈

这些问题导致运维团队只能“被动响应”故障，而非“主动预防”。

1.3 方案预告

本文将详细介绍如何为 Qwen All-in-One 服务集成Prometheus，构建一套完整的指标采集与监控系统。我们将实现：

自定义指标暴露：记录每类任务的请求次数、处理时长
Prometheus 主动抓取：通过 HTTP 接口拉取指标数据
Grafana 可视化展示：构建专属监控面板
基于规则的告警机制：及时发现异常行为

最终形成“采集 → 存储 → 展示 → 告警”的完整可观测闭环。

2. 技术方案选型

2.1 为什么选择 Prometheus？

在众多监控系统中（如 Zabbix、Telegraf、Datadog），我们选择 Prometheus 作为核心监控引擎，原因如下：

维度	Prometheus	其他方案
数据模型	多维时间序列（标签化）	固定字段或日志解析
拉取机制	主动 Pull（HTTP）	多为 Push 模式
适用场景	动态服务发现、云原生环境	静态主机监控为主
生态整合	与 Grafana、Alertmanager 深度集成	商业产品依赖强
资源占用	轻量级，适合边缘部署	通常需要独立集群

尤其对于 Qwen All-in-One 这类轻量级 CPU 推理服务，Prometheus 的低侵入性和高效采集能力极具优势。

2.2 架构设计概览

整体可观测架构如下：

+------------------+ +-------------------+ | Qwen Service |<--->| /metrics API | | (FastAPI Server) | | (Exposed via | +------------------+ | prometheus-client)| | +-------------------+ | HTTP GET /metrics v +------------------+ | Prometheus | | (Scrape Interval:| | every 15s) | +------------------+ | v +------------------+ +------------------+ | Grafana |<----| Visualization | | | | & Alerting | +------------------+ +------------------+

所有指标由 FastAPI 应用内嵌prometheus-client库暴露，Prometheus 定期抓取，Grafana 实现可视化。

3. 实现步骤详解

3.1 环境准备

确保已安装以下依赖：

pip install fastapi uvicorn prometheus-client opentelemetry-api opentelemetry-instrumentation-fastapi

注意：本项目不使用 ModelScope Pipeline，保持技术栈纯净。

3.2 暴露指标接口

我们在原有的 FastAPI 服务基础上，添加/metrics路径用于暴露 Prometheus 可读的文本格式指标。

核心代码实现

from fastapi import FastAPI, Request from prometheus_client import Counter, Histogram, generate_latest import time app = FastAPI() # 定义自定义指标 REQUEST_COUNT = Counter( 'qwen_request_count', 'Total number of inference requests', ['task_type'] # label: task type ) LATENCY_HISTOGRAM = Histogram( 'qwen_inference_duration_seconds', 'Latency distribution for Qwen inference', ['task_type'], buckets=(0.5, 1.0, 2.0, 3.0, 5.0) ) @app.middleware("http") async def record_metrics(request: Request, call_next): start_time = time.time() # 判断任务类型（根据路径或输入内容） if "sentiment" in str(request.url.path): task_type = "sentiment" else: task_type = "chat" response = await call_next(request) # 记录请求计数 REQUEST_COUNT.labels(task_type=task_type).inc() # 计算并记录延迟 duration = time.time() - start_time LATENCY_HISTOGRAM.labels(task_type=task_type).observe(duration) return response @app.get("/metrics") def metrics(): return generate_latest(), 200, {"Content-Type": "text/plain"}

代码解析

Counter：用于累计请求数量，支持按task_type分组统计。
Histogram：记录推理延迟分布，便于后续分析 P90/P99 延迟。
中间件拦截所有 HTTP 请求，自动打标并记录耗时。
/metrics接口返回标准 Prometheus 文本格式，可直接被抓取。

3.3 修改主推理逻辑以支持打标

我们需要在调用模型前明确区分任务类型，并将其传递给监控系统。

from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "Qwen/Qwen1.5-0.5B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) @app.post("/analyze/sentiment") def analyze_sentiment(data: dict): text = data["text"] prompt = f"你是一个冷酷的情感分析师，请判断以下语句情感倾向：'{text}'\n只回答'正面'或'负面'。" inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=10) result = tokenizer.decode(outputs[0], skip_special_tokens=True) sentiment = "正面" if "正面" in result else "负面" return {"sentiment": sentiment} @app.post("/chat") def chat_response(data: dict): message = data["message"] chat_history = data.get("history", []) # 使用标准 chat template inputs = tokenizer.apply_chat_template( [{"role": "user", "content": message}], return_tensors="pt" ) outputs = model.generate(inputs, max_new_tokens=100) reply = tokenizer.decode(outputs[0], skip_special_tokens=True) return {"response": reply}

上述两个接口分别对应两种 Prompt 模式，中间件会自动识别路径并打上task_type标签。

4. Prometheus 配置与抓取

4.1 配置 scrape job

编辑prometheus.yml文件，添加如下 job：

scrape_configs: - job_name: 'qwen-all-in-one' static_configs: - targets: ['localhost:8000'] # 替换为实际服务地址 metrics_path: /metrics scrape_interval: 15s

启动 Prometheus：

./prometheus --config.file=prometheus.yml

访问http://localhost:9090即可查看目标状态。

4.2 验证指标采集

进入 Prometheus Web UI，执行查询：

qwen_request_count{job="qwen-all-in-one"}

应能看到类似输出：

qwen_request_count{instance="localhost:8000",job="qwen-all-in-one",task_type="chat"} 7 qwen_request_count{instance="localhost:8000",job="qwen-all-in-one",task_type="sentiment"} 5

说明指标已成功采集。

5. Grafana 可视化与告警

5.1 导入数据源

登录 Grafana（默认端口 3000）
添加 Prometheus 数据源，URL 指向http://localhost:9090
测试连接成功后保存

5.2 创建监控面板

新建 Dashboard，添加以下 Panel：

Panel 1: 请求总量趋势图

查询语句：promql sum by (task_type) (rate(qwen_request_count[5m]))
图表类型：Time series
描述：显示每分钟各类任务的请求速率

Panel 2: 平均延迟对比

查询语句：promql histogram_quantile(0.9, sum(rate(qwen_inference_duration_seconds_bucket[5m])) by (le, task_type))
显示 P90 延迟随时间变化
可叠加 P50 和 P99 进行对比

Panel 3: 总请求数统计（单值显示）

查询语句：promql sum(qwen_request_count)
显示服务启动以来总请求数

5.3 设置告警规则

在 Prometheus 中配置告警规则文件alerts.yml：

groups: - name: qwen-alerts rules: - alert: HighLatency expr: histogram_quantile(0.9, rate(qwen_inference_duration_seconds_bucket[5m])) > 3 for: 2m labels: severity: warning annotations: summary: "Qwen 服务 P90 延迟超过 3 秒" description: "当前延迟为 {{ $value }} 秒，请检查模型负载或硬件资源。"

配合 Alertmanager 可实现邮件/钉钉/Webhook 告警通知。

6. 实践问题与优化

6.1 常见问题及解决方案

问题现象	原因分析	解决方法
`/metrics`返回空	未触发任何请求	先发起几次推理请求再查看
指标重复注册	多次导入同一 metric	使用`REGISTRY.collectors()`清理或全局单例
抓取失败（Target Down）	地址错误或防火墙限制	检查网络连通性与 CORS 配置
延迟波动大	CPU 资源竞争	限制进程优先级或启用批处理

6.2 性能优化建议

减少指标维度爆炸：避免为每个用户创建 label，否则会导致时序数量激增。
合理设置 Histogram bucket：针对实际延迟分布调整区间，提升精度。
异步生成指标：对于高频请求，可考虑异步汇总上报，降低主线程压力。
启用压缩传输：在反向代理层开启 Gzip，减小/metrics接口带宽占用。

7. 总结

7.1 实践经验总结

通过本次 Prometheus 集成实践，我们成功为 Qwen All-in-One 服务构建了完整的可观测性体系。关键收获包括：

利用prometheus-client轻松实现指标暴露，无需改造原有推理逻辑
通过中间件自动打标，实现了任务级别的精细化监控
结合 Grafana 实现多维度可视化，直观反映服务健康状况
建立基于 P90 延迟的告警机制，提前发现潜在性能退化

更重要的是，该方案完全兼容边缘部署环境——整个监控组件仅增加约 10MB 内存开销，且不依赖 GPU。

7.2 最佳实践建议

尽早接入监控：在服务开发阶段就引入指标埋点，避免后期补丁式修改
统一命名规范：遵循namespace_operation_duration_seconds等 Prometheus 推荐命名
关注 SLO 设定：基于业务需求定义合理的延迟与可用性目标
定期审查指标有效性：移除无用指标，防止监控噪音干扰决策

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen All-in-One可观测性：Prometheus集成实战