1) 代运维服务范围
A. 基础设施运维
- 服务器/容器(ECS、K8s、Docker)、负载均衡、CDN、对象存储
- 网络与安全:防火墙、安全组、WAF、DDoS防护、SSL证书
- 备份:数据库备份策略、文件备份、跨地域备份、备份验证(恢复演练)
- 监控告警:CPU/内存/磁盘/网络、接口耗时、错误率、日志检索
B. 数据库与缓存
- MySQL/PostgreSQL:慢查询优化、索引、主从、读写分离、分库分表建议
- Redis:缓存命中率、热点key、过期策略、持久化、集群
- 数据一致性与灾备:故障切换流程、RTO/RPO目标
C. 应用与发布运维
- 部署流水线:构建、测试、灰度、回滚
- 配置管理:环境隔离(dev/test/prod)、敏感信息管理(密钥托管)
- 日志与链路追踪:ELK/ Loki、SkyWalking/Zipkin(可选)
- 性能优化:接口性能、页面加载、图片/视频优化、静态资源策略
D. 业务运维(商城特有)
- 订单/支付链路巡检:支付回调、退款、对账、库存扣减异常
- 活动大促保障:容量评估、压测、扩容预案、限流熔断、降级策略
- 商品/类目/价格/库存:数据异常排查、批量操作支持
- 多商户(如有):租户隔离、权限、资源配额、商户侧问题排查
E. 安全与合规(建议写进SLA)
- 漏洞扫描、基线检查、依赖包升级、安全补丁
- 账号权限:最小权限、审计日志、多人协作权限隔离
- 数据脱敏、导出审批、日志留存周期
2) 交付物(建议合同里明确)
- 运维手册/架构图/网络拓扑图
- 监控大盘(核心指标+告警阈值)
- 备份策略与恢复演练报告(月度/季度)
- 安全扫描与整改报告(月度/季度)
- 发布记录、变更记录、事故复盘报告(RCA)
- 性能优化报告(按需或季度)
- 大促保障方案与复盘(如有)
3) 服务模式与响应级别(SLA建议)
常见三种模式:
模式1:基础代运维(7×12 或 5×8)
- 日常巡检、故障响应、发布支持、权限与变更
- 适合:稳定运行、问题不频繁的商城
模式2:驻场式/专属运维(常驻工程师)
- 适合:多商户、大促频繁、自研系统、问题量大
模式3:大促专项保障(按项目)
- 压测、容量评估、扩容预案、现场值守、复盘
- 适合:618/双11/店庆等
SLA建议口径:
- 响应时间:P1 15分钟、P2 30分钟、P3 2小时、P4 1工作日
- 解决时间:按模块给出参考(如“基础故障2小时内恢复服务”)
- 紧急恢复优先:先止血再根因(写清“临时方案/回滚”不算违约)
变更流程
需求/变更申请(含影响范围、回滚方案)
评审(风险、窗口期、执行人)
执行(灰度/全量)
验证(监控、业务回归)
记录与复盘
告警/工单 → 2) 分级 → 3) 止血(回滚/扩容/限流)→ 4) 根因定位 → 5) 修复与预防 → 6) 复盘报告
- 基础包:环境运维+监控备份+发布支持+安全基线(按服务器数量/节点数计费)
- 数据/性能包:慢查询优化、Redis优化、链路追踪、性能专项
- 多商户包:租户管理、商户侧运维支持、多租户隔离加固
- 大促专项:按次数/按天(值守+预案+压测+复盘)
常见计费维度:
节点数/实例数(ECS、RDS、Redis等)
日活/订单量档位
是否7×24、SLA级别
是否包含开发类工作(如改代码、改SQL、开发脚本)
没有回滚方案就上线;发布窗口不明确
备份只做不验(恢复演练缺失)
日志留存不足、关键链路没有监控
支付/退款/对账问题被当成“运维问题”,但需要业务配合查规则
多商户权限混乱、共享资源导致故障扩散
安全责任边界不清(WAF/漏洞修补/代码漏洞谁负责)
- 商城系统类型:自研 / 开源(如启山智软、Juude等)/ SAAS(有赞/微盟等)
- 规模:日活、日订单量、商品数、峰值QPS(或大促峰值)
- 基础设施:云厂商、是否K8s、数据库(RDS/自建)、Redis(云Redis/自建)
- 是否多商户、是否需要7×24、当前最痛的问题(慢、崩、支付异常、安全等)