一天損失百萬,微盟公司重大故障,又是運(yùn)維的鍋?
近期,微盟公司發(fā)布公告稱,其業(yè)務(wù)數(shù)據(jù)遭到人為破壞,經(jīng)查證系微盟研發(fā)中心運(yùn)維部核心運(yùn)維人員造成的惡意破壞,目前生產(chǎn)環(huán)境和數(shù)據(jù)修復(fù)正在有序進(jìn)行。
聽到這消息后做運(yùn)維的都驚呆了。身邊的朋友都在討論這事,據(jù)說損失要好幾百萬。





事件回溯
2 月 25 日一早,微盟集團(tuán)發(fā)布公告稱,SAAS 業(yè)務(wù)數(shù)據(jù)遭到一名員工“人為破壞”,已向上海警方報(bào)案,該員工已被刑事拘留。
微盟在公告中稱,2 月 23 日 19:00 ,微盟公司收到系統(tǒng)監(jiān)控報(bào)警,隨后微盟公司立即召集相關(guān)技術(shù)人員進(jìn)行排查,并與騰訊云技術(shù)團(tuán)隊(duì)一起研究制定修復(fù)方案。
經(jīng)微盟公司技術(shù)調(diào)查后,確認(rèn)線上生產(chǎn)環(huán)境業(yè)務(wù)和數(shù)據(jù)遭到集團(tuán)研發(fā)中心運(yùn)維部一位核心運(yùn)維員工人為破壞,公司已于 2020 年 2 月 24 日向中國(guó)上海市寶山區(qū)公安局(“寶山區(qū)公安局”)報(bào)案,目前該員工已經(jīng)被寶山區(qū)公安局進(jìn)行刑事拘留,據(jù)微盟集團(tuán)所知,該員工是因個(gè)人精神和生活原因做出了上述不當(dāng)行為。

處理結(jié)果
根據(jù)公告,截止到 2 月 25 日 7 點(diǎn),微盟的生產(chǎn)環(huán)境和數(shù)據(jù)修復(fù)都在有序的進(jìn)行,預(yù)計(jì) 2 月 25 日晚上 24 點(diǎn)前生產(chǎn)環(huán)境將全部修復(fù)完成,微盟所有新用戶將可恢復(fù)服務(wù),老用戶由于數(shù)據(jù)修復(fù)時(shí)間問題,微盟將提供臨時(shí)過渡方案,預(yù)計(jì)老用戶數(shù)據(jù)修復(fù)將可在 2 月 28 日晚上 24 點(diǎn)前完成。
如何合理防范此類事件?
看到網(wǎng)上有人說是被降薪,有人說是在家憋壞了,有人說生活壓力太大,對(duì)于這種人為因素造成的影響,企業(yè)如果提前做好風(fēng)險(xiǎn)預(yù)案,可以將損失降到最低。
在技術(shù)層面,有幾個(gè)建議:
1、完善數(shù)據(jù)備份恢復(fù)體系,核心數(shù)據(jù)庫(kù)不僅要做本地備份還要做異地的備份,異地備份可以放到云存儲(chǔ)或者專門的備份服務(wù)器上,如果用到mysql,那么binlog日志也要備份,并做好基于 binlog 的閃回技術(shù)的演練。
2、如果用了云數(shù)據(jù)庫(kù)一定要開啟自動(dòng)備份和跨地域備份,發(fā)生故障或者被刪庫(kù),最快的時(shí)間根據(jù)時(shí)間點(diǎn)恢復(fù)備份。
3、生產(chǎn)環(huán)境業(yè)務(wù)保存好文檔和自動(dòng)部署的腳本,部署應(yīng)用做好回滾的功能,當(dāng)發(fā)生故障時(shí)可以快速回滾,或者環(huán)境沒了,可以快速部署新環(huán)境。
4、如果用云服務(wù)器,可以將核心的管理機(jī)和核心的集群做好快照備份,這樣出問題可以最快時(shí)間用快照恢復(fù)集群。
5、在發(fā)布流程方面,線上發(fā)布做好審核發(fā)布,業(yè)務(wù)負(fù)責(zé)人審核通過后才能正常發(fā)布。
6、做好權(quán)限管理,危險(xiǎn)操作雙因子驗(yàn)證,例如刪除數(shù)據(jù)庫(kù),自動(dòng)化工具刪除線上服務(wù)器文件時(shí)候,業(yè)務(wù)負(fù)責(zé)人或者部門負(fù)責(zé)人需要短信郵件驗(yàn)證。
7、推動(dòng)K8S新型技術(shù)的升級(jí)應(yīng)用,容器化發(fā)布部署,應(yīng)用出現(xiàn)故障快速利用鏡像回滾,K8s環(huán)境出現(xiàn)故障,快速搭建環(huán)境,并利用線上業(yè)務(wù)鏡像快速上線應(yīng)用,這次微盟的故障,提供新用戶服務(wù)訪問就需要將近48小時(shí),可能就是業(yè)務(wù)多,環(huán)境復(fù)雜,部署不夠自動(dòng)化。
8、不斷學(xué)習(xí)新技術(shù),當(dāng)故障發(fā)生才能快速恢復(fù)。
好啦!今天的分享到這里就結(jié)束了,希望大家持續(xù)關(guān)注馬哥教育官網(wǎng),每天都會(huì)有大量?jī)?yōu)質(zhì)內(nèi)容與大家分享!
文章來源于網(wǎng)絡(luò),侵刪!