新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 持續(xù)近87分鐘1957個客戶報障 騰訊云回應事故原因

持續(xù)近87分鐘1957個客戶報障 騰訊云回應事故原因

作者: 時間:2024-04-15 來源:第一財經 收藏

2024年4月8日下午,出現服務故障,接口響應報錯、內部服務錯誤,網頁顯示504錯誤。504錯誤代表網關超時(Gateway timeout),是指作為網關或代理,但沒有及時從上游收到請求。

本文引用地址:http://www.butianyuan.cn/article/202404/457590.htm

4月8日傍晚,公告,官網控制臺相關服務出現異常,工程師正在緊急修復中。部分地區(qū)已恢復,其他地區(qū)也正在繼續(xù)搶修當中。

4月14日,騰訊云官方對4月8日故障情況進行說明:4月8日15點23分,騰訊云團隊收到告警信息,云API服務處于異常狀態(tài);隨即在騰訊云工單、售后服務群以及微博等渠道開始大量出現騰訊云控制臺登錄不上的客戶反饋。

經過故障定位發(fā)現,客戶登錄不上控制臺正是由云API異常所導致。云API是云上統一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網頁功能。而事故根本原因在于騰訊云版本變更過程中,沒有有效執(zhí)行沙箱驗證和預案演練,暴露了在變更管理上的不足,最終導致云API服務新版本向前兼容性考慮不夠和配置數據灰度機制不足的問題。

故障發(fā)生后,騰訊云方面表示,依賴云API提供產品能力的部分公有,也因為云API的異常出現了無法使用的情況,比如云函數、文字識別、微服務平臺、音頻內容安全、驗證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。

從客戶的視角來看,可以分為數據面和控制面,數據面承載客戶自身的業(yè)務,控制面負責操作云上不同產品。比如目前使用最廣泛的IaaS服務基本上都是以直接面向數據面為主,控制面僅在客戶購買或需要對資源層面進行調整操作時會涉及。此次發(fā)生故障的控制臺和云API是對控制面的影響。通俗來講,如果把類比為酒店,控制臺相當于酒店的前臺,是一個統一的服務入口。一旦酒店前臺發(fā)生故障,會導致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。

騰訊云方面稱,這次故障中客戶已經配置好的等IaaS資源,包括已經部署運行的業(yè)務,沒有受到云API異常的影響。其他以非云API方式提供服務的PaaS和SaaS服務,處于正常服務的狀態(tài)。但用API提供的服務類產品(需要“酒店前臺服務“)有不同程度的影響,比如騰訊云存儲服務調用當天有明顯下滑。期間售后團隊協助部分客戶做了業(yè)務容災預案的實施,將受影響服務做調度以快速恢復客戶的業(yè)務服務。

騰訊云方面表示將從提升系統韌性、強化變更管理與保護措施、增強故障響應與溝通能力三方面進行改進。

近年來,因云服務問題導致應用程序“崩了”的現象頻繁發(fā)生。今年4月9日,支付寶崩了登上熱搜,用戶反映在使用支付寶APP時出現“已經停止訪問”的頁面。隨后支付寶方面回應稱:少量用戶訪問部分頁面時出現了短暫性的訪問不暢。這一情況已經快速恢復,用戶的資金和信息安全都不受影響,各項功能也都可以正常使用。但具體事故原因并未進一步說明。

2023年12月3日晚,騰訊視頻“崩了”登上微博熱搜。騰訊視頻方面回應稱,出現了短暫技術問題,正在加緊修復,各項功能在逐步恢復中。

2023年11月27日晚間,滴滴App系統發(fā)生故障,全國大面積崩潰,服務無法正常使用。11月29日,滴滴方面發(fā)表聲明稱,各項服務已經恢復,初步確定,這起事故的起因是底層系統軟件發(fā)生故障。

2023年3月5日20:20左右,在B站用戶活躍的高峰期,許多網友發(fā)現B站手機和電腦端均無法訪問視頻詳情頁,當晚B站團隊在出現故障20分鐘后解決了問題。多位行業(yè)人士傾向于原因是“迭代更新出現代碼故障”,這是2021年7月B站大規(guī)模服務器崩潰后的官方解釋。

如果不是滴滴全國范圍的長時間崩潰造成大規(guī)模的負面影響與討論度,非行業(yè)人士不會將某款軟件的暫時“崩了”作為熱點討論。萬博智云CTO孫琦對第一財經表示,滴滴事件僅是一個個案,但該事件故障級別較大,確實影響到了一定規(guī)模普通群眾的生活。實際上,很多用戶看不到的軟件故障正在每天發(fā)生,這在行業(yè)內是一個較為常見的問題。

此次騰訊云發(fā)生大范圍故障,有行業(yè)人士將其與2023年11月阿里云史詩級故障并稱。2023年11月12日晚間,阿里云發(fā)生故障,“阿里云盤崩了” “淘寶又崩了” “閑魚崩了” “釘釘崩了” 等話題相繼登上熱搜,阿里系諸多產品受到影響。阿里云對此公告稱,2023年11月12日17:44起,阿里云監(jiān)控發(fā)現云產品控制臺訪問及API調用出現異常,阿里云工程師正在緊急介入排查。18:54阿里云再度公告稱,經過工程師處理,杭州、北京等地域控制臺已恢復,其他地域控制臺服務逐步恢復中。

近期國內云平臺密集降價,阿里云甚至直接將云產品以折扣形式搬進羅永浩淘寶直播間,傳統IaaS產品逐漸同質化,云廠商競爭逐漸轉為價格競爭。但在追求銷量與市場規(guī)模的同時,客戶的基礎運維與數據安全工作,不應因“降本增效”而被忽視。



評論


相關推薦

技術專區(qū)

關閉