深入ReplicatedReplacingMergeTree引擎：从一次‘表只读’故障聊聊ClickHouse副本同步的那些坑-编程阁

深入ReplicatedReplacingMergeTree引擎：从一次‘表只读’故障聊聊ClickHouse副本同步的那些坑

当你在凌晨三点收到告警，发现ClickHouse集群中某个关键业务表突然变成只读状态，查询开始堆积，仪表盘一片飘红——这种场景对数据工程师来说无异于噩梦。但比起匆忙执行rm -rf和ATTACH TABLE，我们更需要理解：为什么基于ZooKeeper的副本同步机制会突然失效？is_readonly标志背后隐藏着怎样的状态机逻辑？本文将从一个真实故障案例出发，带你穿透ReplicatedReplacingMergeTree引擎的黑盒。

1. 副本同步机制的三层架构

1.1 ZooKeeper的元数据目录结构

每个ReplicatedReplacingMergeTree表在ZooKeeper中都会创建如下关键路径（以/clickhouse/tables/01-01/order_local为例）：

/clickhouse/tables/01-01/order_local ├── blocks # 数据块指纹及版本信息 ├── columns # 表结构定义 ├── log # 操作日志队列（关键！） ├── mutations # 数据变更记录 ├── replicas # 各副本状态 │ └── worker1 # 具体副本 │ ├── host # 副本所在节点 │ ├── log_ptr # 最后处理的操作日志序号 │ └── is_lost # 副本是否标记为丢失 └── temp # 临时操作记录

当执行SELECT * FROM system.replicas WHERE is_readonly=1时，ClickHouse实际上是在检查/replicas/[副本名]/is_lost和日志处理状态。我曾遇到一个典型案例：ZooKeeper的log目录下堆积了超过50万条未处理日志，导致副本心跳超时触发只读状态。

1.2 副本状态机的五种状态

通过分析ReplicatedMergeTreeBlockOutputStream.cpp源码，可以发现副本状态转换逻辑：

状态	触发条件	恢复方式
Normal	正常同步	-
Readonly	ZooKeeper连接超时或日志堆积	修复ZK压力或清理日志
Lost	副本被标记为is_lost=1	手动重置副本状态
Error	元数据不一致	重建表结构
Recovering	自动修复过程中	等待或干预

注意：Readonly状态实际上是保护机制，防止数据不一致时继续写入

1.3 操作日志的处理流程

副本同步的核心在于处理ZooKeeper的log目录下的操作日志。典型的工作流程如下：

Leader副本写入数据后，在log下创建日志项（如log-0000000123）
所有副本通过Watch机制获取通知
各副本拉取日志并执行本地写入
更新replicas/[副本名]/log_ptr指针

# 查看积压的日志数量（需在ZooKeeper节点执行） [zk: localhost:2181(CONNECTED) 0] ls /clickhouse/tables/01-01/order_local/log | wc -l

当这个数字超过max_replicated_logs_to_keep（默认10000）时，就可能触发只读状态。

2. 表只读故障的深度诊断

2.1 诊断四步法

遇到表只读时，建议按以下顺序排查：

检查ZooKeeper健康度

SELECT * FROM system.zookeeper WHERE path='/clickhouse/tables' AND name='你的表路径'

分析副本状态

SELECT table, zookeeper_path, replica_path, log_max_index, log_pointer, total_replicas, active_replicas FROM system.replicas WHERE database='你的库' AND table='你的表'

验证网络分区

# 在ClickHouse节点执行 ping zookeeper-node1 telnet zookeeper-node1 2181

检查磁盘IO

iostat -x 1 # 关注zk数据目录所在磁盘的await指标

2.2 常见故障模式对照表

故障现象	根因分析	典型解决方案
突然所有副本变为只读	ZooKeeper集群不可用	恢复ZK服务
单个副本持续只读	该副本与ZK网络中断	修复网络或迁移副本
表间歇性变只读	ZK磁盘IO瓶颈	分离ZK数据与日志磁盘
新建副本无法同步	`/replicas`下元数据损坏	删除ZK路径并重建表
DDL执行后出现只读	表结构变更导致版本冲突	滚动更新各副本

3. 生产环境优化实践

3.1 ZooKeeper调优参数

在config.xml中配置这些关键参数：

<zookeeper> <session_timeout_ms>30000</session_timeout_ms> <operation_timeout_ms>10000</operation_timeout_ms> <root>/clickhouse</root> <identity>user:password</identity> </zookeeper> <!-- 每个表单独配置 --> <replicated_merge_tree> <max_replicated_logs_to_keep>100000</max_replicated_logs_to_keep> <min_replicated_logs_to_keep>1000</min_replicated_logs_to_keep> <replicated_deduplication_window>100</replicated_deduplication_window> </replicated_merge_tree>

3.2 监控看板关键指标

建议在Grafana中监控这些核心指标：

ZooKeeper层面
- Watch数量
- ZNode数量
- 平均延迟
- 磁盘写入队列

ClickHouse层面

SELECT metric, value FROM system.metrics WHERE metric LIKE 'Replicated%'

3.3 预防性维护脚本

这是一个自动检测只读表的脚本示例：

#!/usr/bin/env python3 from clickhouse_driver import Client import smtplib ch = Client('localhost') result = ch.execute(""" SELECT database, table, zookeeper_path FROM system.replicas WHERE is_readonly=1 """) if result: alert_msg = f"CRITICAL: {len(result)} tables in readonly\n" for row in result: alert_msg += f"- {row[0]}.{row[1]} (ZK path: {row[2]})\n" # 发送邮件告警 with smtplib.SMTP('smtp.example.com') as server: server.sendmail('alert@example.com', 'team@example.com', alert_msg)

4. 故障恢复的进阶策略

4.1 安全重建流程

当必须重建表时，推荐这个经过验证的流程：

停止写入流量

记录当前ZK元数据

./zkCli.sh get /clickhouse/tables/01-01/order_local/columns

在备用节点创建临时表

CREATE TABLE order_tmp ENGINE = ReplicatedReplacingMergeTree(...) AS SELECT * FROM order_local

灰度切换流量到临时表

删除原表ZK路径

rmr /clickhouse/tables/01-01/order_local

重建原表结构
逐步迁移回原表

4.2 数据一致性校验

重建后务必执行一致性检查：

WITH source AS ( SELECT cityHash64(*) AS hash, count() AS cnt FROM remote('replica1', 'db', 'table') ), target AS ( SELECT cityHash64(*) AS hash, count() AS cnt FROM remote('replica2', 'db', 'table') ) SELECT s.cnt == t.cnt AS count_match, s.hash == t.hash AS hash_match FROM source s CROSS JOIN target t

4.3 长期稳定性设计

对于关键业务表，建议采用这些架构模式：

多ZK集群隔离：将元数据分散到不同ZK集群
物理分片+逻辑复制：减少单个分片的压力
缓冲写入层：用Kafka作为写入缓冲
定期元数据备份：备份ZK中关键路径数据

在一次金融级部署中，我们通过给每个分片配置独立的ZK集群，将表只读故障率降低了90%。具体做法是在表引擎参数中指定不同的ZK根路径：

ENGINE = ReplicatedReplacingMergeTree( 'zk_cluster1:/clickhouse/finance/tables/{shard}/transactions', '{replica}' )

深入ReplicatedReplacingMergeTree引擎：从一次‘表只读’故障聊聊ClickHouse副本同步的那些坑