觀點 | 智能運維及反洗錢運維建設的思考

金融電子化 發佈 2020-05-26T17:04:18+00:00

FinTech時代,全球範圍內的社會形態、商業生態和客戶行為發生深刻變化,科技賦能效應日益明顯。業界提出的AIOps運維概念,期望在ITOM基礎上,運用機器學習與人工智慧技術,從系統的行為、事件、故障和趨勢等維度,對IT系統運行狀態進行深度監控、趨勢分析、智能決策,從而提升運維管

文 / 中國反洗錢監測分析中心課題組

FinTech時代,全球範圍內的社會形態、商業生態和客戶行為發生深刻變化,科技賦能效應日益明顯。IT系統已經從支撐工具逐步演進為核心競爭優勢。如何藉助以雲計算、大數據等為代表的新興技術夯實運維基礎;如何打造高效能、高可用、低風險運維繫統,為業務提供持續支撐;如何保證信息系統安全穩定運行,優化IT資源環境的性能?這些都是IT運維管理所面臨的新問題。面對不斷湧現的運維新挑戰,業界認為智能化將是運維管理的發展方向。

AIOps運維概念的提出

近年來,運維管理經歷了從手工運維到ITOM(IT運維管理),進而逐步向AIOps(IT智能運維)邁進的過程,體現了運維技術從數字化、自動化到智能化的發展趨勢。業界提出的AIOps運維概念,期望在ITOM基礎上,運用機器學習與人工智慧技術,從系統的行為、事件、故障和趨勢等維度,對IT系統運行狀態進行深度監控、趨勢分析、智能決策,從而提升運維管理能力,為IT運維提供全新的管理思路。AIOps典型場景包括但不限於如下四方面。

1.資源優化。資源優化包括閾值動態調整、資源與性能優化等運維場景。傳統的運維管理平台一般採用靜態閾值。然而,靜態閾值往往是根據人的經驗設定。閾值動態調整通過自主學習系統運行情況,結合運維人員的經驗,自動調整各閾值。資源與性能優化通過全面監測系統運行情況,運用智能算法挖掘系統運行規律,定位性能瓶頸,利用智能調度算法實現資源合理分配,最大化提高資源利用率,提升系統性能。

2.智能預測。智能預測包括故障預測、安全態勢感知等運維場景。故障預測利用回歸分析、神經網絡等技術,分析設備運行情況的變化趨勢,提前診斷故障,對潛在風險進行預警,避免更大損失。安全態勢感知通過實時監控、特徵提取等手段,構建安全分析模型,識別和預測可能的安全隱患,提前研判未來安全態勢,有效防範和化解安全風險。

3.分析診斷。分析診斷包括異常分析、故障診斷等運維場景。隨著系統規模不斷變大、複雜度不斷提高,運維數據量越來越大,運維人員對海量數據進行分析並診斷故障原因變得越來越困難。異常分析運用關聯、聚類等技術規約同類異常,減少無效告警,結合人工專家經驗,分析不同告警間的相關性,快速診斷故障。

4.智能決策。智能決策包括決策輔助、故障自愈等運維場景。AIOps具備將數據轉換為知識、對知識分類組織和進一步挖掘衍生知識的能力,並形成知識庫。運維人員遇到系統問題時,可檢索知識庫,尋找解決方案。此外,智能執行根據分析診斷的結果,在沒有人工干預情況下獨立完成故障感知、分析、決策、執行、評估的全流程,實現回滾、重啟和分流等操作,以使系統恢復正常狀態,實現故障自愈。

運維管理系統建設的思考

1.建設現狀。隨著中國反洗錢監測分析二代系統建設不斷推進,中心的信息技術架構也正逐步由以往的「集中式架構」向「分布式架構」轉型。信息系統複雜性和分布性的增加,促使運維部門通過引入管理平台輔助運維管理。

經過一年多時間的定製開發,運維管理平台已建成。通過整合資源、固化流程、細化分工,全方位多角度實時展示系統運行狀態,使運維數據更加完整,系統狀態更加透明,運維工作更加有序,從而提高運維工作效率,提升運維人員管理能力,節省管理成本,提高運維綜合質量。該平台具備以下主要功能。

(1)數據採集。運維數據採集按邏輯可以分為本地採集協議棧和外部接口。本地採集協議棧又分「單向採集」和「雙向監控」兩種模式。其中,單向採集是指通過SNMP等通用協議收集被管對象的運維信息,這一方式僅採集數據,不操作被管對象;雙向監控則通過API或者輕量級代理,實現信息採集和運維操作的雙向數據流動。外部接口包括災備運維接口和第三方平台接口等,對接災備站點和其他第三方平台。

(2)運維管理。運維管理按實際需要包括應用監控、大數據平台監控和雲平台監控。應用監控從業務視角出發,建立子系統業務拓撲圖。每個業務拓撲圖從業務、服務、IT基礎設施不同層面,立體展現子系統所有軟硬體的運行狀態。當出現異常時,相應的業務拓撲圖將高亮顯示告警或故障信息。雲和大數據平台監控提供實時的集群概況,例如各物理節點和虛擬節點的運行狀況,集群資源使用情況等,提供報告和診斷工具,幫助優化性能和提高資源利用率。

(3)運維可視化。運維可視化向管理員展示運行概覽、網絡拓撲、應用運行情況等信息,提供配置管理、拓撲管理、安全管理、災備環境管理等運維管理功能,打造統一運維工作平台。

在運維管理方面,向管理員提供配置調整、拓撲重構、告警閾值重置等管理功能,協助管理員完成定期巡檢、災備系統管理等運維職能。在展示與報表方面,以曲線圖、拓撲圖、數據表、儀表圖等形式展示系統實時或歷史運行狀態、關鍵性能、拓撲結構、告警事件等信息,便於管理員直觀、多角度了解整個被管系統的運行狀態。同時,提供報表數據,可根據管理員要求定製個性化報表;提供報表數據分析工具,實現對歷史數據的按需分析能力,幫助管理員掌握系統運行規律。

(4)平台管理。平台管理包括平台相關的管理員管理、安全管理、審計管理等。運維管理平台梳理運維管理核心流程,將其規範化、標準化,明確定義各流程的運維步驟、流程間的關係,以及各運維人員角色定位與責權分配,從而高效解決運維相關問題,提升運維效率。

2.近期建設目標。現有運維管理平台通過自動化提升了運維效率,但仍未能擺脫運維工作對運維人員經驗的依賴。原因在於運維管理平台往往缺乏分析能力,對採集到的運維信息未能進一步加工,更無法將數據進行知識化提升。為此,需要在現有運維管理平台基礎上,進一步建設智能運維AIOps,提高運維繫統智能優化、智能診斷、智能預測和智能決策的綜合能力,從而提升運維效率。

經分析認為,可以分三個階段實現我中心AIOps系統建設,具體如圖1所示。第一階段為運維管理平台建設階段,已基本完成。建設並完善運維管理系統,實現對反洗錢二代系統所有設備和應用的實時監控,全面取代手工操作。第二階段為運維大數據分析階段,作為近期目標。在上述基礎上,建設運維大數據分析平台,引入分析手段,將日常運維從被動的運行狀態監控向主動的異常現象分析轉變,運維建設重心進一步轉向面向用戶感知的IT運維服務,為智能運維打下堅實基礎。第三階段為智能運維階段,是最終目標。建成具備反洗錢運維管理特色的AIOps系統。

為實現上述目標,規劃從運維大數據平台建設、運維數據預處理、異常檢測等四方面,推進智能運維建設。

(1)運維大數據。運維管理平台一般採用較快的頻率採集數據方式,以確保故障告警的時效性和監控指標種類的全面性。因此,隨著時間的推移,運行數據和日誌記錄將迅速形成運維大數據。同時,有調查表明運維歷史數據使用率極低,大量的寶貴運維知識被淹沒在海量數據中,得不到有效利用。主要有兩方面原因:一方面,傳統運維管理平台無法有效支撐大數據級數據的並行計算和分析處理;另一方面,為保證查詢統計效率,傳統的運維管理平台往往會採用壓縮策略,但丟棄部分很可能含有重要的運維知識。大數據技術可以實現海量數據全局搜索,能有效幫助運維人員更便捷地分析數據,從而支撐今後運維分析工作的開展。

(2)數據預處理。收集到運維事件信息後,在數據處理層進一步對各類業務感知、性能、告警、配置數據集中進行預處理,包括:規範數據格式;根據需要對數據進行拆分、去重;驗證數據正確性;替換無效數據,補全缺失數據,保證數據完整性;對各類運維數據欄位進行統一格式轉換等。預處理為後續數據挖掘模型訓練和大數據分析提供了數據準備。

(3)異常檢測。系統運行過程中發生的故障,大部分為漸發性故障。即在故障發生前的一段時間內,與其相關聯的服務、設備會出現指標惡化、服務質量下降等現象。針對此類現象,通過對歷史數據和實時流量數據的分析,綜合報送機構服務響應時間、數據處理入庫時間等多維度感知指標,匯聚成一個整體,既進行宏觀分析也進行關聯分析、時序分析等微觀分析,從而實時、自動、準確地從監控數據中發現異常,為後續的診斷、自愈提供基礎。

(4)故障診斷推薦。構建業務、子系統數據流轉神經網絡,通過深淺知識、基因比對等算法構建出故障根因樹的超集。在超集上進行每邊的聯動分析,對這棵樹進行剪枝,最終形成故障之間的聯動關係,即故障失效傳播鏈。基於知識庫分析故障失效傳播鏈,將得出可能的故障點機率與處理推薦方案反饋給運維人員,以作為故障處理與恢復的參考。後期,當根因樹被訓練的比較準確,故障經驗庫完善後,便可依據準確的報警,匹配根因樹與經驗庫,實現故障的定位與自動修復。

3.遠期AIOps目標。第二階段建設完成後,運維繫統將「初具智慧」。進一步通過在深度監控、趨勢分析、故障定位、智能決策等方向發力,使得系統更「聰明」,形成如圖2所示的最終AIOps架構。

(1)深度監控。通過大數據和人工智慧技術分析運維數據,發掘更多運維人員尚未覺察的潛在系統性能和安全問題。通過多維度深度分析,結合動態指標閾值,提供更精準的故障預警;實時感知網絡鏈路狀態,合理規劃網絡負載,識別和預警網絡擁堵事件,分析其原因並自主分流以疏解擁堵;能夠根據系統運行情況,智能發現性能優化策略,自主調配,提供智能優化服務;評估系統安全態勢,識別並確認安全風險,預測未來安全威脅並預警,幫助運維管理人員提前進行安全加固。

(2)趨勢分析。運維工作不僅關注系統當前運行狀態,運維人員更希望能及時了解未來一段時間的系統運行趨勢,包括容量預測、性能預測等,提前獲知可能發生的故障,事先進行設備檢修或部件更換,從而儘可能避免故障發生。運行趨勢分析藉助大數據和機器學習能力,結合運維人員的有效經驗,分析得出故障、性能以及關鍵指標間的關係與規律,使用計算模型對目標場景實現模擬推演,量化並預測系統的故障幾率和趨勢,降低業務運行風險。

(3)故障定位。將告警信息按照時間分片算法進行分類分組,通過對歷史和實時數據的挖掘與分析,結合處置已發生故障形成的經驗知識庫和模型,關聯不同的告警和事件,形成告警關聯關係網,從而將運維信息由平面變為立體。運維人員通過推導告警關聯網絡路徑能更加快速、直觀的定位問題,避免因同一故障導致的告警風暴,從而快速定位故障根因。

(4)決策支持。在深度運維監控、運行趨勢分析和故障根因定位基礎上,描繪系統及故障畫像,立體式描繪系統狀態和故障細節,輔助運維人員進行IT決策。

除輔助運維決策外,故障自愈能力甚至可以實現自動「解決故障」或「恢復系統」。針對特定的運維場景,運用基於已有的故障判斷模型形成的故障知識庫,自主評估故障類型和影響範圍,並根據評估結果從故障知識庫中找到相應的最佳解決方案,甚至生成並實施相應的執行計劃,從而對於版本回退、流量調度、災備切換等操作流程相對較固定的運維場景,實現排除故障並使系統恢復正常的自愈效果。

總 結

隨著業務規模逐步擴大,應用系統日益複雜,依賴關係不斷增多,日常維護、故障處理、趨勢預測等日漸成為運維人員面臨的難題。智能運維是解開這些難題的技術手段。然而,智能運維並不是一蹴而就的,需經歷一個長期的、循序漸進的建設過程。這要求我們持續跟蹤國內外智能運維發展前沿動態,提前制定規劃,做好技術儲備及人才培養,早日實現AIOps落地,提升我中心運維管理整體水平。

(課題組成員 :葉鋼、陳釗、孫勝國、何揚達、王學峰、紀亞男、孫博健、趙姍姍)

關鍵字: