数据库慢查询排查：从 EXPLAIN 到索引优化-编程阁

数据库慢查询排查：从 EXPLAIN 到索引优化

一、线上慢查询的连锁反应

监控告警突然密集触发，核心订单接口 P99 延迟从 50ms 飙到 3s。数据库连接池耗尽，上游服务跟着超时。排查下来，是一条新增的查询 SQL 执行了 12 秒，全表扫描了 2000 万行数据，直接把订单表锁住了。

这种情况很常见。线上 80% 的数据库性能问题，根源都在索引设计。但加索引不能无脑加——多一个索引就多一份写入开销，索引太多，优化器反而容易选错执行计划。下面结合具体案例，讲讲怎么通过 EXPLAIN 和执行计划来优化数据库性能。

二、查询执行引擎：从 SQL 到磁盘 I/O

2.1 查询执行流程

SQL 从提交到返回结果，要经过解析、优化、执行三个阶段。优化器选执行计划时，主要看索引统计信息（cardinality、ndistinct）和成本估算模型。

flowchart TD A[SQL 文本] --> B[解析器: 语法树 AST] B --> C[预处理器: 语义检查] C --> D[优化器: 成本估算] D --> E{选择执行计划} E -->|索引可用| F[索引扫描] E -->|索引不可用| G[全表扫描] F --> H[回表查询: 获取完整行] H --> I[过滤与排序] G --> I I --> J[返回结果集] D --> K[统计信息: cardinality, ndistinct] K --> E style G fill:#f96,stroke:#333 style H fill:#ff9,stroke:#333

红色节点是全表扫描，性能最差。黄色节点是回表查询，索引覆盖不足时会有额外开销。

2.2 索引扫描类型与成本

扫描类型	触发条件	I/O 成本	适用场景
const/eq_ref	主键/唯一索引等值查询	O(1)	单行精确查找
ref	非唯一索引等值查询	O(logN + M)	少量行匹配
range	索引范围查询	O(logN + M)	时间范围、ID 范围
index	索引全扫描	O(N)	覆盖索引，避免回表
ALL	全表扫描	O(N)	无可用索引

2.3 B+ 树索引的底层结构

InnoDB 的 B+ 树索引，非叶子节点存键值和子节点指针，叶子节点存完整数据（聚簇索引）或主键值（二级索引）。二级索引查询需要回表——先查二级索引拿主键，再查聚簇索引拿完整行。覆盖索引（covering index）让查询只访问二级索引，不用回表。

三、生产级慢查询诊断与索引优化实战

3.1 EXPLAIN 执行计划解读

-- 线上慢查询：按用户查最近订单 SELECT order_id, status, created_at, total_amount FROM orders WHERE user_id = 12345 AND status IN ('PAID', 'SHIPPED') AND created_at > '2025-01-01' ORDER BY created_at DESC LIMIT 20; -- EXPLAIN 分析 EXPLAIN SELECT order_id, status, created_at, total_amount FROM orders WHERE user_id = 12345 AND status IN ('PAID', 'SHIPPED') AND created_at > '2025-01-01' ORDER BY created_at DESC LIMIT 20;

执行计划输出：

id	type	key	rows	Extra
1	ref	idx_user_id	8500	Using where; Using filesort

问题诊断：

type=ref：只用了user_id索引，扫了 8500 行
Using where：在 8500 行里逐行过滤status和created_at
Using filesort：结果集需要额外排序，索引有序性没利用上

3.2 索引优化：联合索引设计

-- 优化方案：创建联合索引，遵循最左前缀原则 -- 索引列顺序：等值条件列在前，范围条件列在后，排序列最后 -- 错误索引：created_at 在前，等值条件无法利用索引 -- CREATE INDEX idx_wrong ON orders(created_at, user_id, status); -- 正确索引：user_id 等值过滤 → status 等值过滤 → created_at 范围+排序 CREATE INDEX idx_user_status_created ON orders(user_id, status, created_at); -- 优化后 EXPLAIN EXPLAIN SELECT order_id, status, created_at, total_amount FROM orders WHERE user_id = 12345 AND status IN ('PAID', 'SHIPPED') AND created_at > '2025-01-01' ORDER BY created_at DESC LIMIT 20;

优化后执行计划：

id	type	key	rows	Extra
1	range	idx_user_status_created	42	Using index condition

效果：扫描行数从 8500 降到 42，filesort 没了，查询时间从 12s 降到 3ms。

3.3 覆盖索引：消除回表开销

-- 如果查询只需要索引列，可以设计覆盖索引 -- 覆盖索引：索引包含查询的所有列，无需回表 -- 原查询需要 total_amount，不在联合索引中，仍需回表 -- 如果 total_amount 查询频率极高，可以扩展索引 CREATE INDEX idx_user_status_created_amount ON orders(user_id, status, created_at, total_amount); -- 此时 Extra 列显示 Using index，完全避免回表 EXPLAIN SELECT order_id, status, created_at, total_amount FROM orders WHERE user_id = 12345 AND status IN ('PAID', 'SHIPPED') AND created_at > '2025-01-01' ORDER BY created_at DESC LIMIT 20;

3.4 慢查询自动化诊断脚本

import re from dataclasses import dataclass from typing import List, Optional @dataclass class SlowQuery: """慢查询信息""" sql: str query_time: float # 秒 rows_examined: int rows_sent: int index_used: Optional[str] class SlowQueryAnalyzer: """ 慢查询分析器 解析 MySQL slow query log，识别索引缺失和优化机会 """ # 常见慢查询模式与优化建议 PATTERNS = [ { "name": "全表扫描", "regex": r"EXPLAIN.*type:\s*ALL", "advice": "缺少索引或索引未被使用，检查 WHERE 条件列是否有索引", }, { "name": "filesort", "regex": r"EXPLAIN.*Extra:.*Using filesort", "advice": "ORDER BY 列未利用索引有序性，考虑将排序列加入联合索引末尾", }, { "name": "临时表", "regex": r"EXPLAIN.*Extra:.*Using temporary", "advice": "GROUP BY 或 DISTINCT 导致临时表，考虑添加覆盖索引", }, { "name": "低效范围扫描", "regex": r"rows_examined:\s*(\d+)", "threshold": 100000, "advice": "扫描行数过多，检查索引选择性和查询条件", }, ] def analyze(self, query: SlowQuery) -> List[dict]: """ 分析单条慢查询，返回诊断结果 """ findings = [] # 检查扫描行数与返回行数比值 if query.rows_examined > 0 and query.rows_sent > 0: ratio = query.rows_examined / query.rows_sent if ratio > 100: findings.append({ "level": "HIGH", "issue": f"扫描/返回比 {ratio:.0f}:1，索引过滤效率极低", "advice": "检查 WHERE 条件是否匹配联合索引的最左前缀", }) elif ratio > 10: findings.append({ "level": "MEDIUM", "issue": f"扫描/返回比 {ratio:.0f}:1，索引过滤效率偏低", "advice": "考虑扩展联合索引，减少回表过滤的行数", }) # 检查是否未使用索引 if query.index_used is None: findings.append({ "level": "CRITICAL", "issue": "未使用任何索引，全表扫描", "advice": "为 WHERE 条件列创建联合索引，遵循最左前缀原则", }) # 检查查询时间 if query.query_time > 1.0: findings.append({ "level": "HIGH", "issue": f"查询耗时 {query.query_time:.2f}s，超过 1 秒阈值", "advice": "优先检查索引覆盖和扫描行数", }) # 检查 SELECT * 模式 if re.search(r"SELECT\s+\*", query.sql, re.IGNORECASE): findings.append({ "level": "MEDIUM", "issue": "使用 SELECT *，无法利用覆盖索引", "advice": "明确指定查询列，配合覆盖索引避免回表", }) return findings def suggest_index( self, table: str, where_cols: List[str], order_cols: List[str], ) -> str: """ 根据查询条件生成索引建议 原则：等值列在前，排序列在后 """ # 等值条件列 + 排序列 index_cols = where_cols + order_cols cols_str = ", ".join(index_cols) return f"CREATE INDEX idx_auto_{table}_{'_'.join(index_cols)} ON {table}({cols_str});"

3.5 优化效果数据

指标	优化前	联合索引	覆盖索引
扫描行数	8,500,000	42	42
回表次数	8,500,000	42	0
查询时间	12.3s	3.2ms	1.1ms
CPU 占用	85%	2%	1%
索引磁盘占用	0	1.2 GB	1.8 GB

联合索引把查询时间从 12s 降到了 3ms。覆盖索引能再压到 1ms，但索引体积增加了 50%。覆盖索引能省回表，但占空间，得看业务值不值。

四、索引优化的代价

4.1 索引的写入代价

每个索引在 INSERT/UPDATE/DELETE 时都需要同步维护。一张表 5 个索引，写入开销约为无索引的 3-4 倍。在高写入场景（如日志表），索引越多，写入越慢。日志表建议只保留主键和时间索引，查询走异步导出。

4.2 统计信息失真

MySQL 优化器依赖information_schema.STATISTICS中的 cardinality 做成本估算。但 cardinality 是采样估算，在数据分布不均匀时严重失真。典型场景：status列 99% 的值是 'COMPLETED'，优化器以为选择性很好，实际扫描 99% 的行。解决方案：手动ANALYZE TABLE更新统计信息，或用FORCE INDEX强制指定索引。

4.3 联合索引的最左前缀陷阱

联合索引(A, B, C)只能支持A、A,B、A,B,C三种查询模式。查询条件只有B或B,C时无法使用索引。更隐蔽的陷阱：WHERE A = 1 AND B LIKE '%keyword%'，LIKE的前缀通配符导致B列无法利用索引，只能用到A列。

4.4 索引冗余与冲突

已有索引(A, B)时，再建(A)就是冗余——前者已经覆盖了后者的查询场景。已有(A, B)和(A, C)时，如果查询条件是WHERE A = 1 AND B = 2 AND C = 3，优化器只能选其一，无法同时利用两个索引（MySQL 的 index merge 效率通常不如联合索引）。此时应建(A, B, C)替代两个索引。

4.5 禁用索引的场景

高频写入、低频查询的日志表
数据量极小（< 1000 行）的配置表，全表扫描比索引查找更快
查询条件极度分散（每个值只匹配 1-2 行），索引维护成本 > 查询收益

五、总结

数据库慢查询优化的核心是减少磁盘 I/O 和计算量。EXPLAIN 执行计划是诊断的起点，type 列决定扫描方式，rows 列决定扫描规模，Extra 列揭示额外开销。联合索引设计遵循"等值列在前、排序列在后"的最左前缀原则，覆盖索引消除回表但增加索引体积。实战数据表明，一个精心设计的联合索引可以将查询时间从 12s 降到 3ms。但索引不是越多越好——每个索引都有写入代价，统计信息失真会导致优化器选错执行计划，联合索引的最左前缀规则限制了查询模式的灵活性。优化就是要在查询速度和写入成本之间找平衡，用 EXPLAIN 说话，用 benchmark 数据服人。

修改总结：