
故障案例
文章平均质量分 70
记录工作中的故障案例及解决方案。
alden_ygq
一枚北漂7年多的资深SRE菜鸟,专注SRE方向,专注于运维体系建设。个人宣言:先努力成就自己,再用知识成就他人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
io太高导致机器宕机无法ssh登录
当服务器因I/O过高导致宕机且无法SSH连接时,需要系统性排查和解决问题。原创 2025-05-27 16:15:10 · 462 阅读 · 0 评论 -
K8s Pod故障排查实录:一次诡异的启动失败
配置管理规范所有生产环境配置变更需经过审批实施配置版本控制# 示例:将ConfigMap纳入版本控制防御性编程环境变量读取必须校验关键参数设置合理默认值监控增强添加配置变更的审计日志测试建议单元测试覆盖异常配置场景E2E测试中使用错误配置验证系统容错。原创 2025-05-25 22:45:36 · 432 阅读 · 0 评论 -
一次阿里云k8s集群pod访问外部公网域名报:Name or service not known问题排查与处理
阿里云 Kubernetes 集群 Pod 无法访问外部域名通常由 DNS 配置、网络策略或云厂商特定限制导致。建议优先使用阿里云官方推荐的网络配置方案,并建立完善的监控机制。检查节点dns配置,确认是否包含转发dns ip,并且测试dns ip连通性,包含网络连通性和端口连通性。先确认k8s内部dns解析功能是否可用,是否针对所有外部域名均无法正常解析还是仅部分域名无法解析。)通常是由于网络配置、DNS 策略或安全组限制导致的。检查coredns是否正常配置外部转发dns,此为外部域名能否解析的关键。原创 2025-05-25 20:50:53 · 954 阅读 · 0 评论 -
一次kafka 消费者组因 max.poll.interval.ms配置太小导致消费者组频繁rebalance问题跟进。
调整后针对消费者集群进行批量重启,重启后,消费能力较调整前迅速上升,原积压的消息大概在20分钟左右被消费完毕。确认是因为max.poll.interval.ms参数配置太小导致消费者集群触发rebalance。整个业务故障从触发到恢复大概持续了40分钟左右,所幸此类积压消费非强实时消息,因此业务影响较小。排查消费者集群并无节点异常宕机。另外查看分区消息写入速率是日常消息写入速率的1.5倍左右。原创 2025-05-24 22:09:01 · 256 阅读 · 0 评论