容器平台自愈简介,kubernetes集群巡检 remedy controller

本文介绍了Kubernetes集群自愈的重要性,包括硬件和软件故障的常见类型,以及阿里云如何通过托管节点池实现节点自愈。讨论了节点检测工具Npd、Controller如Draino和kubeeye、Polaris等工具的使用体验,并指出这些工具在自愈和集群规范化的价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

容器平台自愈简介

公有云现状

摘自:https://mp.weixin.qq.com/s/CLoALO6r9bb3cE7CLTvZUQ

 

各类硬件和软件故障已成为常态,直接导致 Kubernetes 集群工作节点时常处于一种不稳定的状态,人肉运维不仅效率低下,误操作及 24 小时 OnCall 也是巨大的挑战,因此容器服务通过托管节点池为用户提供了一个自愈的免运维的云上 Kubernetes 集群服务。本文将重点介绍如何通过托管节点池实现 Kubernetes 节点自愈能力。

阿里云公有云提供了托管节点池来帮助私有Kubernetes集群进行节点自愈。Kubernetes的硬件和软件出现故障已经成为常态。此时K8S集群中对应的节点会处于不稳性的状态。人肉运维效率低下,且容易造成误操作引发更大的风险。

自愈的重点在两方面,问题的检测和故障修复。

在K8S集群中的问题主要包括硬件和软件。

硬件包括:内存板卡损坏、磁盘坏道、网卡控制器故障,机房断电跳闸、光缆故障。

软件包括:软件 OOM、进程句柄泄露、IO hang、磁盘满、网络断链,系统负载过高,docker,kubelet故障,运行环境等。

(此处阿里分为了三类:硬件故障(内存板卡损坏、磁盘坏道、网卡控制器故障)、软件故障(软件 OOM、进程句柄泄露、IO hang、磁盘满、网络断链)、机房断电跳闸、光缆故障、系统负载过高等。)

将故障进行抽象分类分层:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值