Elasticsearch 数据节点故障恢复步骤
在 Elasticsearch 集群中,数据节点(Data Nodes)负责存储和处理数据。当一个数据节点发生故障时,例如断电或硬件损坏,集群会通过分片(shards)和副本(replicas)机制来恢复数据并确保高可用性。以下是恢复数据节点故障的完整步骤。
背景
- 集群配置:假设集群有 3 个主节点和 3 个数据节点。
- 故障场景:一个数据节点(例如
data-node-3
,IP192.168.1.6
)因断电或硬件故障下线。 - 副本机制:每个索引至少有 1 个副本(
index.number_of_replicas: 1
),确保主分片(primary shard)有对应的副本分片(replica shard)。
恢复步骤
1. 检查集群状态
-
确认故障节点
使用以下命令查看集群节点状态,确认哪个数据节点已下线:curl -u elastic: