Compila sistemas de alta disponibilidad a través de la redundancia de recursos

Last reviewed 2024-12-30 UTC

Este principio en el pilar de confiabilidad del Google Cloud Framework Well-Architected proporciona recomendaciones para planificar, crear y administrar la redundancia de recursos, lo que puede ayudarte a evitar fallas.

Este principio es relevante para el área de enfoque de alcance de confiabilidad.

Descripción general de los principios

Después de decidir el nivel de confiabilidad que necesitas, debes diseñar tus sistemas para evitar cualquier punto único de fallo. Cada componente fundamental del sistema debe replicarse en varias máquinas, zonas y regiones. Por ejemplo, una base de datos crítica no puede ubicarse en una sola región, y un servidor de metadatos no se puede implementar en una sola zona o región. En esos ejemplos, si la única zona o región sufre una interrupción, el sistema experimenta una interrupción global.

Recomendaciones

Para compilar sistemas redundantes, ten en cuenta las recomendaciones de las siguientes subsecciones.

Identifica los dominios con fallas y replica servicios

Asigna los dominios con fallas del sistema, de VM individuales a regiones, y diseña para tener redundancia en los dominios con fallas.

Para garantizar una alta disponibilidad, distribuye y replica tus servicios y aplicaciones en varias zonas y regiones. Configura el sistema para la conmutación por error automática a fin de asegurarte de que los servicios y las aplicaciones sigan disponibles en caso de interrupciones zonales o regionales.

Si deseas ver ejemplos de arquitecturas multizona y multirregionales, consulta Diseña una infraestructura confiable para tus cargas de trabajo en Google Cloud.

Detecta y soluciona problemas con rapidez

Realiza un seguimiento continuo del estado de los dominios con fallas para detectar y abordar los problemas de manera oportuna.

Puedes supervisar el estado actual de los servicios de Google Cloud en todas las regiones mediante el Google Cloud panel de Service Health. También puedes ver los incidentes relevantes para tu proyecto mediante Personalized Service Health. Puedes usar balanceadores de cargas para detectar el estado de los recursos y enrutar de forma automática el tráfico a backends en buen estado. Para obtener más información, consulta Descripción general de las verificaciones de estado.

Prueba situaciones de conmutación por error

Al igual que en un simulacro de incendio, simula fallas con regularidad para validar la eficacia de las estrategias de replicación y conmutación por error.

Para obtener más información, consulta Simula una interrupción en la zona de un MIG regional y Simula una falla en la zona en clústeres regionales de GKE.