久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

記一次靠譜的 K8S 排錯實戰過程,硬核!

一 背景

收到測試環境集群告警,登陸 K8s 集群進行排查。

二 故障定位

2.1 查看 Pod

查看 kube-system node2 節點 calico pod 異常。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看詳細信息,查看node2節點沒有存儲空間,cgroup泄露。

記一次靠譜的 K8S 排錯實戰過程,硬核!

2.2 查看存儲

登陸 node2 查看服務器存儲信息,目前空間還很充足。

記一次靠譜的 K8S 排錯實戰過程,硬核!

集群使用到的分布式存儲為ceph,因此查看ceph集群狀態。

記一次靠譜的 K8S 排錯實戰過程,硬核!

三 操作

3.1 ceph修復

目前查看到 ceph 集群異常,可能導致 node2 節點 cgroup 泄露異常,進行手動修復ceph集群。

數據的不一致性(inconsistent)指對象的大小不正確、恢復結束后某副本出現了對象丟失的情況。數據的不一致性會導致清理失敗(scrub error)。

CEPH 在存儲的過程中,由于特殊原因,可能遇到對象信息大小和物理磁盤上實際大小數據不一致的情況,這也會導致清理失敗。

記一次靠譜的 K8S 排錯實戰過程,硬核!

由圖可知,pg編號1.7c 存在問題,進行修復。

  • pg修復
ceph pg repair 1.7c

記一次靠譜的 K8S 排錯實戰過程,硬核!

進行修復后,稍等一會,再次進行查看,ceph 集群已經修復

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.2 進行 Pod 修復

對異常pod進行刪除,由于有控制器,會重新拉起最新的 Pod。

記一次靠譜的 K8S 排錯實戰過程,硬核!

查看 Pod 還是和之前一樣,分析可能由于ceph異常,導致node2節點cgroup泄露,網上檢索重新編譯

Google 一番后發現存在的可能有:

  • Kubelet 宿主機的 Linux 內核過低 - Linux version 3.10.0-862.el7.x86_64
  • 可以通過禁用kmem解決

查看系統內核卻是低版本

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.3 故障再次定位

最后,因為在啟動容器的時候 runc 的邏輯會默認打開容器的 kmem accounting,導致3.10內核可能的泄漏問題
在此需要對no space left的服務器進行?reboot重啟,即可解決問題,出現問題的可能為段時間內刪除大量的pod所致。
初步思路,可以在今后的集群管理匯總,對服務器進行維修,通過刪除節點,并對節點進行 reboot 處理。

3.4 對 node2 節點進行維護

3.4.1 標記 node2 為不可調度

kubectl cordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

3.4.2 驅逐 node2 節點上的 Pod

kubectl drain node02 —delete-local-data —ignore-daemonsets —force
  • --delete-local-data ?刪除本地數據,即使emptyDir也將刪除;
  • --ignore-daemonsets ?忽略 DeamonSet,否則 DeamonSet 被刪除后,仍會自動重建;
  • --force ?不加 force 參數只會刪除該 node 節點上的 ReplicationController, ReplicaSet,DaemonSet,StatefulSet or Job,加上后所有 pod 都將刪除;

記一次靠譜的 K8S 排錯實戰過程,硬核!

目前查看基本 node2 的 pod 均已剔除完畢

記一次靠譜的 K8S 排錯實戰過程,硬核!

記一次靠譜的 K8S 排錯實戰過程,硬核!

此時與默認遷移不同的是,Pod 會先重建再終止,此時的服務中斷時間=重建時間+服務啟動時間+ readiness探針檢測正常時間,必須等到1/1 Running服務才會正常。因此在單副本時遷移時,服務終端是不可避免的。

3.4.3 對 node02 進行重啟

重啟后 node02 已經修復完成。

對 node02 進行恢復

  • 恢復 node02 可以正常調度
kubectl uncordon node02

記一次靠譜的 K8S 排錯實戰過程,硬核!

四 反思

后期可以對部署 K8s 集群內核進行升級。

集群內可能 Pod 的異常,由于底層存儲或者其他原因導致,需要具體定位到問題進行針對性修復。

原文鏈接:https://juejin.cn/post/6969571897659015205

相關新聞

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

    1. 主站蜘蛛池模板: 蕉岭县| 长宁县| 桂东县| 永顺县| 中江县| 南和县| 嵩明县| 临武县| 梁平县| 乐山市| 分宜县| 广州市| 平山县| 嘉鱼县| 循化| 定远县| 黔西| 白河县| 栾川县| 沈阳市| 池州市| 鹿邑县| 柳州市| 新兴县| 合山市| 南涧| 双柏县| 康定县| 洛宁县| 闵行区| 长岭县| 中宁县| 洪雅县| 柏乡县| 即墨市| 保山市| 成安县| 丹阳市| 平和县| 余干县| 南城县|