關於數據中心中斷需要知道的十件事

互盟數據中心 發佈 2024-01-29T05:34:03.829686+00:00

Uptime Institute表示,數據中心中斷的修復成本更高, 但其嚴重程度正在降低,發生的頻率也在降低。數據中心中斷的嚴重程度似乎正在下降,而中斷成本繼續攀升。電源故障是「導致站點嚴重中斷的最大原因」。網絡故障和IT系統故障也會導致數據中心癱瘓,而人為錯誤往往也是原因之一。

Uptime Institute表示,數據中心中斷的修復成本更高, 但其嚴重程度正在降低,發生的頻率也在降低。

數據中心中斷的嚴重程度似乎正在下降,而中斷成本繼續攀升。電源故障是「導致站點嚴重中斷的最大原因」。網絡故障和IT系統故障也會導致數據中心癱瘓,而人為錯誤往往也是原因之一。

這些是Uptime Institute(正常運行時間研究所)最近的數據中心中斷報告中指出的一些問題,該報告分析了中斷的類型、頻率以及其在金錢和後果方面的損失。

數據不可靠是一個持續存在的問題

Uptime警告道,考慮到一些中斷受害者缺乏透明度和報告機制的質量,應以懷疑的態度對待與中斷有關的數據。

「中斷信息是不透明且不可靠的,」Uptime研究執行總監Andy Lawrence在介紹Uptime的2023年度中斷分析時表示。

」雖然航空企業等一些行業有強制報告要求,但其他行業的報告有限。所以我們必須依靠自己的手段和方法來獲取數據。眾所周知,出於各種原因,並不是每個人都願意分享有關中斷的詳細信息。有時會得到非常詳細的根本原因分析,而有時什麼也得不到。」

Uptime報告從三個主要來源挑選數據:Uptime的異常事件報告(AIRs)資料庫、自己的調查和公開報告,包括新聞報導、社交媒體、中斷跟蹤器和企業聲明。每種方法的準確性各不相同。例如,公開報告可能缺乏細節,來源可能不可靠。Uptime將自己的調查評為產生公平/良好數據,因為受訪者是匿名的,且其工作角色各不相同。空氣品質被認為非常好,因為其包含數據中心所有者和運營商在同行之間共享的詳細的設施級數據。

中斷率略有下降

根據Uptime的說法,有證據表明近年來中斷率一直在逐漸下降。

這並不意味著中斷總數正在減少——事實上,隨著數據中心行業的擴張,全球範圍內的中斷數量每年都在增加。「這可能給人一種錯誤印象,即與IT負載相關的中斷率正在增長,而事實恰恰相反。中斷頻率的增長速度不及IT或全球數據中心的擴張速度。」Uptime報導到。

總體而言,Uptime觀察到每個站點的中斷率穩步下降,這是通過其在2020年至2022年對數據中心管理人員和運營商進行的四項調查跟蹤得出的。到2022年,60%的調查受訪者表示其在過去三年,從2021年的69%和2020年的78%下降。

中斷率的情況似乎正在緩緩改善。

中斷嚴重程度似乎正在降低

雖然60%的數據中心站點在過去三年中經歷過中斷,但只有一小部分被評為嚴重或嚴重。

Uptime以1到5的等級衡量中斷的嚴重程度,其中5是最嚴重的。1級中斷可以忽略不計,不會導致服務中斷。5級關鍵任務中斷涉及服務和運營的重大破壞性中斷,通常包括巨額財務損失、安全問題、違反合規規定、客戶損失以及名譽損害。

歷史上,5級和4級(嚴重)中斷占所有中斷的20%左右。到2022年,嚴重/嚴重類別的中斷率下降到14%。

Uptime首席技術官Chris Brown表示,一個關鍵原因是數據中心運營商能夠更好地處理突發事件。只要在設計系統和管理操作方面做得更好,單個故障或故障不一定會導致嚴重或嚴重的中斷。

Brown表示,如今的系統具有冗餘性,運營商在創建能夠響應異常事件和避免中斷的系統方面更加自律。

經濟損失正在上升

當服務中斷確實發生時,其成本會越來越高——隨著對數字服務的依賴性增加,這種趨勢可能會持續下去。

回顧Uptime過去四年的調查數據,直接和間接成本超過10萬美元的重大中斷所占的比例正在增加。2019年,60%的中斷恢復成本低於10萬美元。到2022年,只有39%的中斷造成的損失低於10萬美元。

同樣在2022年,25%的受訪者表示,最近一次中斷造成的損失超過100萬美元;45%的受訪者表示,最近一次中斷造成的損失在10萬到100萬美元之間。

Brown表示,通貨膨脹是部分原因;更換設備和勞動力的成本更高。

更重要的是企業在多大程度上依賴數字服務來開展業務。關鍵IT服務的損失可能直接導致業務中斷和收入損失。Brown表示:「任何這些中斷,尤其是嚴重和嚴重的中斷,都有能力影響多個組織和更大範圍的人群,而且必須緩解這種情況的成本不斷增加。」

第三方提供商是最引人注目的公共中斷的幕後推手

隨著越來越多的工作負載外包給外部服務提供商,第三方數字基礎設施企業的可靠性對企業客戶越來越重要,而這些提供商往往遭受最多的公共中斷。

Uptime報告稱,自2016年以來,跟蹤的所有公共中斷事件中,IT和數據中心的第三方商業運營商(雲提供商、數字服務提供商、電信提供商)占了66%。逐年看,這一比例一直在上升。2021年,由雲、託管、電信和託管企業造成的中斷比例為70%,到2022年,這一比例高達81%。

Brown表示:「企業越多地將其IT服務推向其他人的領域,就越不得不進行盡職調查——即使在交易達成後,也要繼續做盡職調查。」

人為錯誤是導致中斷的常見原因,也是一個相對容易解決的因素

根據Uptime基於25年數據的估計,雖然人為錯誤很少是中斷的單一或根本原因,但在所有中斷中,人為錯誤占了66%至80%。Uptime承認分析人為錯誤具有挑戰性。例如培訓不當、操作人員疲勞和缺乏資源等缺點可能難以查明。

Uptime發現,與人為錯誤相關的中斷主要是由於工作人員未能遵守程序(47%的受訪者表示)或程序本身存在問題(40%)造成的。其他常見原因包括服務中的問題(27%)、安裝問題(20%)、人員不足(14%)、預防性維護頻率問題(12%)以及數據中心設計或遺漏(12%)。

從積極的方面來看,投資於良好的培訓和管理流程,可以在不花費太多成本的情況下減少中斷。

電力問題繼續阻礙數據中心的可靠性

Uptime表示,其目前的調查結果與前幾年一致,並表明現場電力問題仍然是造成現場嚴重中斷的最大原因。儘管大多數中斷都有多種原因,而且關於其報告質量各不相同。

2022年,44%的受訪者表示,電力是其最近發生有影響的事件或中斷的主要原因。電力也是2021年(43%)和2020年(37%)嚴重中斷的主要原因。

Uptime表示,網絡問題、IT系統錯誤和冷卻故障也是令人不安的原因。

網絡的複雜性導致更多的中斷

Uptime使用其2023年的Uptime彈性調查數據來挖掘網絡中斷趨勢。在調查受訪者中,44%的表示其組織在過去三年中經歷過由網絡或連接問題引起的重大中斷。另有45%的表示沒有,12%的表示不知道。

導致網絡和連接相關中斷的兩個最常見原因是,配置或變更管理失敗(45%的受訪者提到),和第三方網絡提供商的失敗(39%)。

Uptime將這一趨勢歸因於當今的網絡複雜性。「在現代、動態切換和軟體定義的環境中,管理和優化網絡的程序會不斷修改或重新配置。錯誤變得不可避免,在如此複雜和高吞吐量的環境中,頻繁的小錯誤可以在網絡中傳播,導致難以停止、診斷和修復的級聯故障,」Uptime報導。

與網絡相關的主要中斷的其他常見原因包括:

  • 硬體故障:37%
  • 線路破損率:27%
  • 固件/軟體錯誤:23%
  • 網絡攻擊:14%
  • 網絡/擁塞故障:12%
  • 與天氣有關的事件:7%
  • 防火牆/路由表問題:6%

IT系統和軟體中斷的常見原因

Uptime在其彈性調查中詢問受訪者,其組織在過去三年中是否經歷過由IT系統或軟體故障引起的重大中斷時,36%的表示有,50%的表示沒有,15%的表示不知道。與IT系統和軟體相關的最常見中斷原因是:

  • 配置/變更管理問題:64%
  • 固件/軟體故障:40%
  • 硬體故障:36%
  • 容量/擁塞問題:22%
  • 數據同步/損壞:14%
  • 網絡攻擊/安全問題:10%

火災並不常見,但可能是毀滅性的

公開報告的中斷,包括媒體報導的中斷,揭示了廣泛的原因。原因可能與數據中心運營商和IT團隊報告的不同,因為媒體來源對中斷的了解和理解取決於其觀點。

火災是公開報告的中斷原因之一,但在IT相關來源中排名不高。具體來說,Uptime發現公開報告的數據中心中斷中,有7%是由火災引起的。在網絡簡報中,Uptime研究人員將數據中心火災的發生率與鋰離子電池的使用增加聯繫起來。

與鉛酸電池相比,鋰離子電池占地面積更小、維護更簡單、且使用壽命更長。然而,鋰離子電池存在更大的火災風險。2023年3月28日,法國Maxnod數據中心發生了一場毀滅性的火災。認為這是由鋰離子電池起火引起的。2022年10月15日,SK集團旗下、由其C&C子公司運營的韓國託管設施發生重大火災,原因也是鋰離子電池火災。

關鍵字: