IT之家 9 月 5 日消息,微軟旗下 Azure 澳大利亞數(shù)據(jù)中心園區(qū)上周經(jīng)歷了一次大規(guī)模故障,數(shù)據(jù)中心的電力供應(yīng)能力下降導(dǎo)致兩個數(shù)據(jù)大廳的冷卻設(shè)備斷電,由于員工人數(shù)“不足”難以應(yīng)對,最終導(dǎo)致部分存儲硬件被燒毀,包括澳大利亞昆士蘭銀行和捷星航空在內(nèi)的大型企業(yè)客戶服務(wù)完全中斷。
微軟承認現(xiàn)場沒有足夠的工作人員,而且其應(yīng)急程序也沒有考慮到問題的規(guī)模,在事故發(fā)生時,數(shù)據(jù)中心只安排了 3 名工作人員,他們都相當(dāng)盡責(zé)地 “執(zhí)行了記錄在案的應(yīng)急操作程序 (EOP),但最終沒取得有成功”。
IT之家經(jīng)過查詢得知,兩個受影響數(shù)據(jù)大廳的冷卻能力 “由七個冷卻器組成,其中五個冷卻器處于運行狀態(tài),兩個冷卻器處于備用狀態(tài)(N+2)”。電源下陷(電壓驟降)導(dǎo)致五個運行中的冷卻器出現(xiàn)故障。
微軟聲稱,“園區(qū)因人員配備不足從而導(dǎo)致了這次事故,在‘更好地了解根本問題并采取適當(dāng)?shù)木徑獯胧埃ぷ魅藛T安排數(shù)量目前從 3 人臨時增至 7 人。”,微軟還將調(diào)整相關(guān)應(yīng)急預(yù)案和日常工作流程,降低此類事件再次發(fā)生的可能性。
據(jù)悉,這次事故影響了使用 Azure 的七家大型企業(yè)客戶,其中五家為“標(biāo)準(zhǔn)”級別,兩家為“高級”級別,微軟表示,裝載有企業(yè)客戶存儲內(nèi)容的硬件“因數(shù)據(jù)大廳溫度過高而損壞”,除了企業(yè)客戶重大損失外,該數(shù)據(jù)中心旗下托管的 25 萬多個 SQL 數(shù)據(jù)庫也發(fā)生了故障,根據(jù)微軟 PIR 報告,當(dāng)下相關(guān)數(shù)據(jù)恢復(fù)工作已經(jīng)大致完成。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。