關於運維,阿里雲、字節、華科的專家如是說

阿里云云棲號 發佈 2022-08-03T13:05:26.827144+00:00

只有今天周密的「運」籌帷幄,才有將來持續的「維」護穩定。不久前,阿里雲聯合中國計算機行業協會信息存儲與安全專業委員會,邀請到了來自阿里雲、字節跳動、華中科技大學的多位專家,共同探討數字經濟時代存儲系統的運維之道。

只有今天周密的「運」籌帷幄,才有將來持續的「維」護穩定。不久前,阿里雲聯合中國計算機行業協會信息存儲與安全專業委員會,邀請到了來自阿里雲、字節跳動、華中科技大學的多位專家,共同探討數字經濟時代存儲系統的運維之道。

一、降低延遲,避免系統性能急劇變化

運維的本質是對網絡、伺服器、服務的生命周期各個階段的運營與維護,在成本、穩定性、效率上達成一致可接受的狀態。在 ICT 行業里,運維人常常調侃「運維是對應用的承諾,不離不棄一輩子」。他們就像是數據中心和公司里IT資源的管家、保安、救火員。

阿里雲智能資深技術專家、對象存儲研發負責人羅慶超對此深有體會。他回憶起了阿里雲大客戶請求延時抖動保障的過往,指出雲存儲服務請求的延時抖動厲害的時候,應用整體性能會產生過山車式的變化。

而雲上的請求延時包含網絡延時和存儲延時,雲服務的網絡非常複雜,包含BGP(Border Gateway Protocol)和靜態的公網以及數據中心內的網絡。找出影響延時的擁塞點和合理調度,對避免造成擁堵至關重要。

存儲服務還要處理好介質訪問的延遲問題,機械/固態盤也是個複雜的系統,壓力越大延遲越高。特別是在分布式存儲系統中,還會帶來病毒式的傳染效應。對象存儲OSS為了降低延時的抖動,從快速監控、準確告警、根因分析、優化調度入手,將延時抖動控制在合理的方差範圍內,保證了良好的客戶體驗。

華中科技大學研究員、博士生導師吳非笑言,由於自己來自高校,並未親身感受到運維人的壓力,但能理解堪比永動機的7*24待命之不易。當前雲存儲的可靠性要求是11個9,固態硬碟和傳統機械硬碟是雲存儲中最基礎的數據存儲單元,維護起來並不簡單。前者的存儲介質由快閃記憶體構成,從原理上講,快閃記憶體就像一道門,每開一次就有一次磨損,在使用過程中不可避免會出現老化,逐漸吱呀作響,故障也接踵而至;後者像機械機器一樣不停擺動,但終有停轉之時。在由成千上萬的固態盤或硬碟所構成的存儲系統里,要保證如此高的可靠性,運維人的壓力可見一斑。

二、因時而變,智能化運維大勢所趨

「欲善新基建,必先利運維」。在企業數位化進程中,運維則是濃墨重彩的一筆。

字節跳動資料庫存儲技術負責人張雷表示,從傳統的手動運維,到DevOps的自動化運維,再到AIOps的智能化運維,運維技術在近十幾年實現了跨越式發展。字節雲資料庫雲存儲整個運維體系的發展歷程,也大致分為三個階段。

第一個階段在2016年以前,整體的資料庫和存儲的體量都不是特別大,團隊運維還處於「刀工石斧」的狀態,也就是基本上靠人工就能搞定。

第二個階段是2017到2021年,業務的規模飛速發展,雲存儲的系統也達到了EB量級,資料庫的規模都是幾千甚至上萬套庫,人工運維天花板已顯現,因此運維團隊轉而構建一些自動化的運維平台,依託這些平台去搞定運營問題。

第三個階段是自2021年年中,依託AI等技術的第三代運維體系開始構建。將運維人員的知識和運維經驗與大數據、機器學習技術相結合,融入到運維系統中代替人力,從而解決更大規模上的運營效率問題。

在這三個階段中,整個業務體系的發展,呈現出兩方面的能力躍遷:一方面是運維的文化、組織、能力的提升,通俗的理解就是大家摸黑前行,從做個體運維到成體系、成建制地構建了專職的運維的SRE的團隊去運維;另一方面,整個運維體系和服務化的一些技術體系也都在前進,比如從最早期的管理幾十台伺服器到現在管理幾十萬台伺服器,就是技術體系不斷演進去支持的。總而言之,運維的文化和組織、以及運維的技術體系,這兩條路是齊頭並進的。

三、快速定位,診斷問題根因所在

隨著業務走上雲端,運維也逐步「雲化」。資源監控、終端管控、安全支持等運維服務轉化為雲端應用,企業可以根據需求實現訂閱。

張雷表示通常會關注服務的黃金指標,尤其是跟穩定性相關的一些黃金指標,因為對於大型在線服務而言,穩定性可能是第一位的。此外,他更關注長期的所依賴服務的一些技術演進路徑,以便未雨綢繆,保證在技術或者產品形態上發生巨變時,運維/運營體系不會掉隊。

羅慶超指出阿里雲對象存儲OSS作為服務的提供商,要做到服務承諾的SLA(服務級別協議)和 SLO(服務級別目標)這兩個關鍵指標。細而言之,OSS官網承諾了可用性的SLA為業界領先的99.995%,那作為服務商就一定會按指標準來度量請求的成功率,想盡千方百計來保證該指標。SLO則是更詳細的服務項承諾,例如保障客戶的請求整體的帶寬要能夠達到穩定的Tbps級量級,同時一些典型的請求時延能夠保證在100ms這個量級,不能有太大的波動。

近期阿里雲還會發布一個可觀測服務CloudLens,會為客戶提供主流雲產品的運維知識。CloudLens為對象存儲OSS提供了用量分析、性能監控、安全分析、數據保護、異常檢測、訪問情況分析等功能,從而在成本、性能、安全、數據保護、穩定性、訪問分析6大維度支撐客戶的管理能力。

吳非認為,為了支撐應用的快速發展,存儲技術也在不斷演進。從傳統的磁碟陣列到集中式存儲,再到現在系統里可能有幾十或者上萬台伺服器的分布式存儲。在技術上首先需要考慮怎樣保證成千上萬台伺服器能夠可靠運行。從運維的角度看,就是要不出故障或者少出故障,或者快速檢測出故障,達到快速修復、快速恢復、快速檢測等指標。

近年來AI發展得如火如荼,高校科研人員也在做用AI提前預測系統故障的相關研究,希望在系統故障發生前完成數據遷移,從而有效減輕運維的壓力。

四、產學研用,打造成長共同體

運維為業務系統提供的保障,既離不開阿里雲這樣的服務提供商的布局,又離不開字節這樣的產品使用方的努力。而高校及科研院所作為基礎理論技術與前沿技術研究的主體,在較多關鍵前沿技術方面擁有深厚的基礎技術儲備和豐富的理論研究基礎。因此,產學研合作創新是產業發展需要重視的一個板塊。

吳非表示,用「共同成長體」去定義這樣的合作關係較為妥帖,這個鏈條包含了創新鏈、產業鏈以及用戶鏈。正是因為有這樣的聯盟將用戶方、研發方連結在一起,促進彼此的發展。用通俗的說法就是產、學、研、用為一體,各方共同成長、促進技術的發展與落地。

比如高校研究雲存儲的可靠性問題時,提出一種新算法,在推進算法落地應用過程中,可能需要跟字節跳動、阿里雲等企業合作,在實際系統上部署算法,推動產業發展。

吳非還提到,在產學研界跨界創新也成為高校專家學者自身職業發展規劃中的重要一環。不少專家學者在產業界致力於推動技術落地之後再次選擇回歸學術界,這個叫做「學術休假」。她相信,未來學術界和產業界之間會進一步深入融合。

張雷認為,產學研一體化是技術從誕生到廣泛應用的重要背後推手。最近幾年,雲存儲系統的一些技術已然固化,他首先希望學術界、研究界能夠在基礎設施領域裡帶來更多突破:無論是存儲的介質、還是整個雲存儲體系結構的突破,亦或是一些體系、運維思路、方法上的突破,都可以為行業帶來新生機。其次,產業界也要精益求精,大膽嘗試新技術、新方法、新思想,並將其融入到合適的場景中。因為產業界的大型企業如字節跳動,整個技術體量、伺服器、數量存儲量規模都比較大,其實有一個非常好的技術槓桿效應。即使看起來一個非常小的一個技術優化,但放到體量大的場景下就能產生非常大的價值。所以,產學研各方的互相支撐是十分必要的。

羅慶超指出,阿里雲作為服務供應商,共同成長核心有兩點:一是為共同的運維能力提供底座的服務,二是吸收客戶和業界、學界提供的一些輸入以及先進思想,從而幫助底座成長。

針對兩位嘉賓提到的產學研結合,羅慶超表示,在共同成長的演進上有兩個階段可能會非常重要。第一個階段中,CCIA這樣組織提供了一個共同成長的土壤和生態,把這個CCIA運作好,可以為運維、技術的共同成長打下堅實的基礎。第二階段,共同成長體一定要結出成果,比如通過CCIA這個組織,搭建交流橋樑,孵化出一些在業界頗具影響力的標準白皮書或者技術上的創新點子。

結語:隨著高校功能從人才培育、科學研究延伸到社會服務,企業、協會與高校合作將進一步深化,這無疑有利於形成良性發展的循環圈,推動存儲科技成果加速市場化,而在這個過程中,不管是用戶還是廠商都將受益匪淺。

原文連結:https://click.aliyun.com/m/1000351553/

本文為阿里雲原創內容,未經允許不得轉載。

關鍵字: