谷歌就長達數(shù)小時的云服務宕機事件致歉并發(fā)布事故報告

谷歌因自動傳入請求的配額策略檢查功能未測試,在真實場景中引發(fā)重大宕機,全球超70項云服務停用,導致云服務癱瘓。公司已道歉,并承諾改進系統(tǒng)。谷歌表示將調(diào)整架構,確保系統(tǒng)故障時其他系統(tǒng)仍能運行,避免連鎖崩潰。

谷歌就一起重大服務宕機事件致歉,該公司稱事故由近期多層級的缺陷更新所致。

谷歌就長達數(shù)小時的云服務宕機事件致歉并發(fā)布事故報告

公司于周五晚發(fā)布事故報告,詳細說明周四發(fā)生的數(shù)小時服務中斷情況。全球超 70 項谷歌云服務停止正常運行,導致 Cloudflare、OpenAIShopify 等數(shù)十家第三方服務癱瘓或受干擾,Gmail、谷歌日歷、谷歌云端硬盤、谷歌 Meet 等第一方產(chǎn)品也出現(xiàn)故障。

“我們對此次宕機造成的影響深表歉意,” 谷歌在事故報告中寫道,“谷歌云客戶及其用戶將業(yè)務托付給谷歌,我們會做得更好。我們不僅為此次事件對客戶業(yè)務及其用戶造成的影響道歉,也為系統(tǒng)信任受損致歉。我們承諾將做出改進,避免未來發(fā)生類似宕機。”

谷歌云業(yè)務首席執(zhí)行官托馬斯?庫里安也于周四在 X 平臺(原推特)發(fā)帖提及此次宕機,稱 “對給客戶造成的干擾深感遺憾”。

事故報告顯示,谷歌于 5 月為評估自動傳入請求的 “配額策略檢查” 添加了新功能,但該功能未立即在真實場景中測試。因此,系統(tǒng)無法正確處理新功能產(chǎn)生的數(shù)據(jù)(包括空白條目)。這些空白條目隨后被發(fā)送至所有谷歌云數(shù)據(jù)中心區(qū)域,引發(fā)系統(tǒng)崩潰。

據(jù)谷歌稱,工程師在 10 分鐘內(nèi)定位了問題,但由于部分大型區(qū)域因崩潰出現(xiàn)過載,整個事件持續(xù)了 7 小時。

谷歌還提到,推出該功能時未使用 “功能標志”—— 這是行業(yè)內(nèi)日益普遍的做法,可通過緩慢部署新功能來降低問題發(fā)生時的影響。若使用功能標志,本可在問題擴散前發(fā)現(xiàn)隱患。

展望未來,谷歌表示將調(diào)整架構,確保單一系統(tǒng)故障時其他系統(tǒng)仍能運行,避免連鎖崩潰。此外,公司將審計所有系統(tǒng),并改進自動化和人工通信機制,“讓客戶盡快獲取應對問題所需的信息”。

原創(chuàng)文章,作者:潮玩君,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/724157.html

潮玩君的頭像潮玩君管理團隊

相關推薦

發(fā)表回復

登錄后才能評論