看完這篇文章,你就明白運維監控體系了
總結歸納運維工作中的監控內容。
監控目標
明白監控的重要性以及使用監控要實現的業務目標
通常包括以下三點:
- 對目標系統進行實時監控
- 監控可以實時反饋目標系統的當前狀態 目標系統硬件、軟件、業務是否正常、目前處于何種狀態
- 保證目標系統可靠性,業務可以持續穩定運行 有問題第一時間反饋出來,便于運維人員處理
監控方法
-
了解監控對象 例如:CPU如何工作? -
性能基準指標 例如: CPU使用率、負載、用戶態、內核態、上下文切換 -
報警閾值定義 例如: CPU負載高的定義,內核態、用戶態多少算高 -
故障處理流程 如何更高效處理故障的流程
監控核心
-
發現問題 -
定位問題 -
解決問題 -
總結問題,對故障原因及問題防范進行歸納總結,避免以后重復出現
監控工具
- 老牌監控
- Cacti
- Nagios
- smokeping
- 流行監控
- Zabbix
- OpenFalcon
- Prometheus+Grafana
- 滴滴開源夜鶯Nightingale
- smartping(專用于網絡監控)
- LEPUS天兔(專用于監控數據庫)
- 自研
- 第三方監控
- 監控寶
- 聽云
- newrelic
監控流程
-
采集
-
存儲
-
分析
-
展示
-
報警
-
處理
監控指標
硬件監控
- 機器硬件:CPU溫度、物理磁盤、虛擬磁盤、主板溫度、磁盤陣列
IPMI工具無法獲取到硬件的狀態,可以借助MegaCli工具探測Raid磁盤隊列狀態
https://www.ibm.com/developerworks/cn/linux/l-ipmi/
系統監控
-
主機存活 -
CPU、內存、硬盤、使用率 -
inode -
負載 -
網卡出入帶寬 -
TCP連接數 -
磁盤讀寫、只讀
應用監控
MySQL
- 服務可用性
- 內存使用率
- 磁盤使用
- 主從不同步及延遲
- 備份情況
- 連接數
Redis、Redis Cluster
- 負載
- 內存使用率
- 連接數量
- qps
Nginx
- 狀態碼
- 連接狀態信息
- RabbitMQ
- PHP-FPM
- OpenLDAP
- 接入IP
- 調用次數
- Zimbra
- OpenVPN
- 版本信息、當前在線
- 用戶、分配IP、客戶端連接IP、通過IP獲取地址位置、接收發送流量 連接時間 時長 連接ID
- ELK
- Graylog
- GitLab
- Jenkins
- MongoDB
- HAproxy
網絡監控
- 網絡質量
- 公網出口
- 專線帶寬
- 網絡設備
流量分析
日志監控
安全監控
- URL、API監控
- 自研
- 阿里云方案
性能監控(APM)java|php|go|nodejs|分布式鏈路追蹤
- PinPoint
- Zipkin
- SkyWalking
- CAT、Jaeger
業務監控
電商業務為例:
- 每分鐘產生多少訂單
- 每分鐘注冊多少用戶
- 每分鐘多少活躍用戶
- 每天有多少推廣活動
- 推廣活動引入多少用戶
- 推廣活動引入多少流量
- 推廣活動引入多少利潤
其他
- SSL證書監控
- 存活性 進程是否還在,端口監聽、Log滾動
- 健康指標 MQ消息堆積量
- 接口監控 API成功率,延遲情況,QPS等等
監控報警
- 郵件
- 短信
- 釘釘、微信、企業微信等其他即時通信軟件
- 電話
報警處理
故障自愈: 服務器宕機自動啟動。利用軟件機制supervisor,systemd或者自定義腳本實現
綜合監控
硬件監控
通過SNMP來進行路由器交換機的監控、其他內容使用IPMI實現。如果都是公有云,可以忽略這部分內容。案例:Open-Falcon監控H3C-ER3260G2路由器
系統監控
服務監控
- 服務自帶
- Nginx自帶status模塊
- PHP相應status模塊
- MySQL利用percona官方工具進行監控
- 通過自定義方法獲取數據
- MySQL show global status xxx;
- Redis info指令信息
- 網絡監控(混合云架構)
- smokeping
- smartping
- 安全監控
- 云服務直接用云安全組即可,或者補充本機iptables
- 硬件防火墻
- Web服務使用Nginx+Lua實現Web層面的防火墻,或者Openresty
- 日志監控
ELK、Graylog實現異常日志,錯誤日志關鍵字的監控 - 業務監控
確定監控指標,監控起來,業務不同各不相同 - 流量分析
建議使用百度統計,google統計,商業,研發嵌入代碼實現。或者使用piwik
- 可視化
dashboard - 自動化監控
通過API,批量操作
監控總結
完整的監控系統,需要對業務有詳盡的了解,軟件只是手段。
來源:https://zhuanlan.zhihu.com/p/34280983