IT之家 4 月 14 日消息,騰訊云官方公眾號今日發(fā)文,披露了 4 月 8 日服務(wù)大范圍故障的原因及細節(jié)。
官方表示,經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云 API 異常所導(dǎo)致。云 API 是云上統(tǒng)一的開放接口集合,客戶可通過 API 以編程方式管理和操控云端資源,云控制臺通過組合云 API 提供交互式的網(wǎng)頁功能。
故障發(fā)生后,依賴云 API 提供產(chǎn)品能力的部分公有云服務(wù)也因此出現(xiàn)無法使用的情況,包括云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗證碼等。此次故障一共持續(xù)了近 87 分鐘,期間共有 1957 個客戶報障。
騰訊云方面稱,若將云服務(wù)比作“酒店”,控制臺就相當(dāng)于“前臺”,是統(tǒng)一的服務(wù)入口。“酒店前臺發(fā)生故障會導(dǎo)致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。”這次故障中客戶已經(jīng)配置好的服務(wù)器等 IaaS 資源,包括已經(jīng)部署運行的業(yè)務(wù),沒有受到云 API 異常的影響。
官方披露了這次故障根本原因及改進措施如下:
綜合盤點這次故障,最根本的原因是在版本變更過程中,沒有有效執(zhí)行沙箱驗證和預(yù)案演練,暴露了在變更管理上的不足,接下來將從以下幾個方面快速進行改進和完善,以減少故障的影響范圍和影響時長。
第一,提升系統(tǒng)韌性
1、定期執(zhí)行預(yù)定的變更策略模擬演練,確保在真實故障發(fā)生時,能夠迅速切換到恢復(fù)模式,最小化服務(wù)中斷時間。
2、優(yōu)化服務(wù)部署架構(gòu),通過分層架構(gòu)、代碼審查和監(jiān)控等手段, 避免 API 服務(wù)中潛在的循環(huán)依賴問題。
3、提供 API 服務(wù)逃生通道,當(dāng)故障發(fā)生時,可供調(diào)用方快速切換。
第二,強化變更管理與保護措施
1、完善自動化測試用例庫,在系統(tǒng)變更前通過沙箱環(huán)境對變更內(nèi)容進行嚴(yán)格驗證。
2、實施灰度發(fā)布策略,逐步推廣新功能或配置更改,按集群、可用區(qū)、地域逐步生效,以便在發(fā)現(xiàn)問題時能夠迅速回滾。
3、引入異常自動熔斷機制,當(dāng)檢測到系統(tǒng)異常時,能夠立即中斷變更過程。
第三,增強故障響應(yīng)與溝通能力
1、對故障處理流程進行全面升級,確保實時更新故障處理進度和預(yù)計恢復(fù)時間點,提升故障報告發(fā)布效率。
2、在對外發(fā)布的故障通知中,清晰闡述受影響的業(yè)務(wù)范圍、故障根因及預(yù)計修復(fù)時長,保持透明度。
3、優(yōu)化騰訊云健康狀態(tài)看板(StatusPage)的信息展示邏輯,解除對云 API 等云服務(wù)的依賴,通過引入緩存和容災(zāi)機制,確保即使在云服務(wù)出現(xiàn)故障時,能準(zhǔn)確、及時地傳遞故障信息。
據(jù)IT之家4 月 8 日報道,當(dāng)日下午騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報錯、內(nèi)部服務(wù)錯誤,網(wǎng)頁顯示 504 錯誤。騰訊云官方微博下也有網(wǎng)友反饋服務(wù)故障,IP 來自全國多地。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。