久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

記一次靠譜的 K8S 排錯實戰過程,硬核!

一 背景

收到測試環境集群告警,登陸 K8s 集群進行排查。

二 故障定位

2.1 查看 Pod

查看 kube-system node2 節點 calico pod 異常。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看詳細信息,查看node2節點沒有存儲空間,cgroup泄露。

記一次靠譜的 K8S 排錯實戰過程,硬核!

2.2 查看存儲

登陸 node2 查看服務器存儲信息,目前空間還很充足。

記一次靠譜的 K8S 排錯實戰過程,硬核!

集群使用到的分布式存儲為ceph,因此查看ceph集群狀態。

記一次靠譜的 K8S 排錯實戰過程,硬核!

三 操作

3.1 ceph修復

目前查看到 ceph 集群異常,可能導致 node2 節點 cgroup 泄露異常,進行手動修復ceph集群。

數據的不一致性(inconsistent)指對象的大小不正確、恢復結束后某副本出現了對象丟失的情況。數據的不一致性會導致清理失敗(scrub error)。

CEPH 在存儲的過程中,由于特殊原因,可能遇到對象信息大小和物理磁盤上實際大小數據不一致的情況,這也會導致清理失敗。

記一次靠譜的 K8S 排錯實戰過程,硬核!

由圖可知,pg編號1.7c 存在問題,進行修復。

  • pg修復
ceph pg repair 1.7c

記一次靠譜的 K8S 排錯實戰過程,硬核!

進行修復后,稍等一會,再次進行查看,ceph 集群已經修復

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.2 進行 Pod 修復

對異常pod進行刪除,由于有控制器,會重新拉起最新的 Pod。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看 Pod 還是和之前一樣,分析可能由于ceph異常,導致node2節點cgroup泄露,網上檢索重新編譯

Google 一番后發現存在的可能有:

  • Kubelet 宿主機的 Linux 內核過低 - Linux version 3.10.0-862.el7.x86_64
  • 可以通過禁用kmem解決

查看系統內核卻是低版本

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.3 故障再次定位

最后,因為在啟動容器的時候 runc 的邏輯會默認打開容器的 kmem accounting,導致3.10內核可能的泄漏問題
在此需要對no space left的服務器進行?reboot重啟,即可解決問題,出現問題的可能為段時間內刪除大量的pod所致。
初步思路,可以在今后的集群管理匯總,對服務器進行維修,通過刪除節點,并對節點進行 reboot 處理。

3.4 對 node2 節點進行維護

3.4.1 標記 node2 為不可調度

kubectl cordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.4.2 驅逐 node2 節點上的 Pod

kubectl drain node02 —delete-local-data —ignore-daemonsets —force
  • --delete-local-data ?刪除本地數據,即使emptyDir也將刪除;
  • --ignore-daemonsets ?忽略 DeamonSet,否則 DeamonSet 被刪除后,仍會自動重建;
  • --force ?不加 force 參數只會刪除該 node 節點上的 ReplicationController, ReplicaSet,DaemonSet,StatefulSet or Job,加上后所有 pod 都將刪除;

記一次靠譜的 K8S 排錯實戰過程,硬核!

目前查看基本 node2 的 pod 均已剔除完畢

記一次靠譜的 K8S 排錯實戰過程,硬核!

記一次靠譜的 K8S 排錯實戰過程,硬核!

此時與默認遷移不同的是,Pod 會先重建再終止,此時的服務中斷時間=重建時間+服務啟動時間+ readiness探針檢測正常時間,必須等到1/1 Running服務才會正常。因此在單副本時遷移時,服務終端是不可避免的。

3.4.3 對 node02 進行重啟

重啟后 node02 已經修復完成。

對 node02 進行恢復

  • 恢復 node02 可以正常調度
kubectl uncordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

四 反思

后期可以對部署 K8s 集群內核進行升級。

集群內可能 Pod 的異常,由于底層存儲或者其他原因導致,需要具體定位到問題進行針對性修復。

原文鏈接:https://juejin.cn/post/6969571897659015205

相關新聞

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

    1. 主站蜘蛛池模板: 双柏县| 泊头市| 通州市| 彭泽县| 盈江县| 甘南县| 平昌县| 禄丰县| 安西县| 永丰县| 松原市| 湄潭县| 南靖县| 昌宁县| 高平市| 惠安县| 左贡县| 都昌县| 红桥区| 长春市| 建宁县| 诸城市| 玉山县| 黄浦区| 河北区| 循化| 濮阳县| 望江县| 邵武市| 兰考县| 广东省| 正安县| 贵德县| 东山县| 灯塔市| 西充县| 天祝| 馆陶县| 寿宁县| 六枝特区| 广昌县|