-
記一次靠譜的 K8S 排錯實戰過程,硬核!
一 背景 收到測試環境集群告警,登陸 K8s 集群進行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 節點 calico pod 異常。 查看詳細信息,查看node2節點沒有存儲空間,cgroup泄露。 2.2 查看存儲 登陸 node2 查看服務器存儲信息,目前空間還很充足。 集群使用到的分布式存儲為ceph,因此查看ceph集群狀態。 三 操作 3.1 ceph修復 目前查看到 ceph 集群異常,可能導致 node2 節點 cgroup 泄露異常,進行…