此页面由 Cloud Translation API 翻译。

通过资源冗余构建高可用性系统
使用集合让一切井井有条根据您的偏好保存内容并对其进行分类。

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 的可靠性要素中的这一原则提供了有关规划、构建和管理资源冗余的建议，可帮助您避免故障。

此原则与可靠性的范围重点关注领域相关。

原则概览

在确定所需的可靠性级别后，您必须设计系统以避免任何单点故障。系统中的每个关键组件都必须跨多个机器、地区和区域复制。例如，一个关键数据库不能仅位于一个区域中，元数据服务器不能仅部署在一个区域或区域中。在这些示例中，如果唯一区域或地区发生服务中断，则系统发生了全球服务中断。

建议

如需构建冗余系统，请考虑以下小节中的建议。

识别故障域并复制服务

将系统的故障网域（从各个虚拟机映射到区域）对应起来，并实现跨故障网域的冗余设计。

为确保高可用性，请跨多个地区和区域分布和复制您的服务和应用。将系统配置为自动进行故障切换，以确保在区域或地区发生服务中断时服务和应用仍然可用。

如需查看多可用区和多区域架构的示例，请参阅在 Google Cloud中为工作负载设计可靠的基础架构。

及时检测并解决问题

持续跟踪故障网域的状态，以便及时检测并解决问题。

您可以使用 Google Cloud Service Health 信息中心监控所有区域中 Google Cloud 服务的当前状态。您还可以使用 Personalized Service Health 查看与您的项目相关的突发事件。您可以使用负载平衡器检测资源健康状况，并自动将流量路由到健康状况良好的后端。如需了解详情，请参阅健康检查概览。

测试故障切换场景

像消防演练一样，定期模拟故障以验证复制和故障切换策略的有效性。

如需了解详情，请参阅模拟区域级 MIG 的区域服务中断和在 GKE 区域级集群中模拟区域故障。

为可靠性设置切合实际的目标

利用横向可伸缩性

通过资源冗余构建高可用性系统 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

原则概览

建议

识别故障域并复制服务

及时检测并解决问题

测试故障切换场景

通过资源冗余构建高可用性系统
使用集合让一切井井有条根据您的偏好保存内容并对其进行分类。