IT之家 10 月 24 日消息,語雀是螞蟻集團旗下的在線文檔編輯與協(xié)同工具,使用了“結(jié)構(gòu)化知識庫管理”,形式上類似書籍的目錄,該軟件于 2022 年 2 月 22 日正式推出 iOS 及 Android 版本。
據(jù)多位IT之家讀者反饋,這款工具在今日 14:00~15:00 之間出現(xiàn)大規(guī)模服務(wù)器故障,在線文檔和官網(wǎng)目前均無法打開。
在經(jīng)歷了近 10 小時的故障之后,語雀服務(wù)現(xiàn)已全部恢復(fù)正常,各端語雀都可以正常訪問,功能也恢復(fù),目前官方發(fā)布了故障完整報告內(nèi)容,并宣布將向所有用戶贈送 6 個月語雀會員。
故障原因及處理過程
10 月 23 日下午,服務(wù)語雀的數(shù)據(jù)存儲運維團隊在進行升級操作時,由于新的運維升級工具 bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲服務(wù)器被誤下線。受其影響,語雀數(shù)據(jù)服務(wù)發(fā)生嚴重故障,造成大面積的服務(wù)中斷。
為了盡快恢復(fù)服務(wù),我們和數(shù)據(jù)存儲運維團隊全力進行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級等因素,整體用時較長。
具體過程如下:
14:07 數(shù)據(jù)存儲運維團隊收到監(jiān)控系統(tǒng)報警,定位到原因是存儲在升級中因新的運維工具 bug 導(dǎo)致節(jié)點機器下線;
14:15 聯(lián)系硬件團隊嘗試將下線機器重新上線;
15:00 確認因存儲系統(tǒng)使用的機器類別較老,無法直接操作上線,立即調(diào)整恢復(fù)方案為從備份系統(tǒng)中恢復(fù)存儲數(shù)據(jù)。
15:10 開始新建存儲系統(tǒng),從備份中開始恢復(fù)數(shù)據(jù),由于語雀數(shù)據(jù)量龐大,此過程歷時較長
19:00 完成數(shù)據(jù)恢復(fù);同時為保障數(shù)據(jù)完整性,在完成恢復(fù)后,用時 2 個小時進行數(shù)據(jù)校驗;
21:00 存儲系統(tǒng)通過完整性校驗,開始和語雀團隊聯(lián)調(diào),最終在 22 點恢復(fù)語雀全部服務(wù)。用戶所有數(shù)據(jù)均未丟失。
語雀團隊聲稱,“通過這次故障我們深刻認識到,語雀作為一款服務(wù)千萬級客戶的文檔產(chǎn)品,應(yīng)該做到更完善的技術(shù)風(fēng)險保障和高可用架構(gòu)設(shè)計,尤其是面向技術(shù)變更操作的‘可監(jiān)控,可灰度,可回滾’的系統(tǒng)化建設(shè)和流程審計,從同 Region 多副本容災(zāi)升級為兩地三中心的高可用能力,設(shè)計足夠的數(shù)據(jù)和系統(tǒng)冗余實現(xiàn)快速恢復(fù),并進行定期的容災(zāi)應(yīng)急演練。只有這樣,才能提升嚴重基礎(chǔ)設(shè)施故障時的恢復(fù)速度,并從根本上避免這類故障再次出現(xiàn)。”
為此,語雀團隊制定了如下改進措施:
1、升級硬件版本和機型,實現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;
2、運維團隊加強運維工具的質(zhì)量保障與測試,杜絕此類運維 bug 再次發(fā)生;
3、縮小運維動作灰度范圍,增加灰度時間,提前發(fā)現(xiàn) bug;
4、從架構(gòu)和高可用層面改進服務(wù),為語雀增加存儲系統(tǒng)的異地災(zāi)備。
語雀團隊表示,為了表達歉意,團隊將向所有受到故障影響的用戶提供如下賠償方案:
針對語雀個人用戶,我們贈送 6 個月的會員服務(wù)。操作流程:進入工作臺「賬戶設(shè)置」,點擊左側(cè)「會員信息」,在會員信息頁面點擊「立即領(lǐng)取」,即可獲得贈送服務(wù)。
針對語雀空間用戶,由于情況比較復(fù)雜,我們會單獨制定賠償方案。請空間管理員留意語雀站內(nèi)信。
相關(guān)閱讀:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。