運維工作的「本手、妙手、俗手」

nwvdi耐威迪 發佈 2022-06-25T15:08:49.102697+00:00

「本手、妙手、俗手」是圍棋的三個術語。本手是指合乎棋理的正規下法;妙手是指出人意料的精妙下法;俗手是指貌似合理,而從全局看通常會受損的下法。對於初學者而言,應該從本手開始,本手的功夫紮實了,棋力才會提高。一些初學者熱衷於追求妙手,而忽視更為常用的本手。本手是基礎,妙手是創造。

「本手、妙手、俗手」是圍棋的三個術語。本手是指合乎棋理的正規下法;妙手是指出人意料的精妙下法;俗手是指貌似合理,而從全局看通常會受損的下法。對於初學者而言,應該從本手開始,本手的功夫紮實了,棋力才會提高。一些初學者熱衷於追求妙手,而忽視更為常用的本手。本手是基礎,妙手是創造。一般來說,對本手理解深刻,才可能出現妙手;否則,難免下出俗手,水平也不易提升。

以上材料對我們頗具啟示意義。請結合材料寫一篇文章,體現你的感悟與思考。

以上內容正是今年廣東省高考語文作文考題,此題目一經流出,引得社會一片譁然,主題著實讓人眼前一亮,詞條更是霸占熱榜舊居不下。高考不僅是國家選賢與能的大事,亦是國家價值觀、人生觀和家國意識的引導的體現。

藉此契機,淺談《運維管理的本手、妙手與俗手》


運維管理目標

作為運維工作者最關心的首先是如何通過預防性手段減少設備出現宕機、故障等問題造成業務中斷,其次是如何實現發現問題馬上告警或是重點鏈路重點保障,定期引導查看,這樣就算出現問題也可以避免重大事故,最後就是一旦發生故障,如何快速精準的排障,將損失降到最低。

一切為了業務而服務,「更安全、更準確、更及時」正是我們運維核心價值的體現。

運維管理背景

運維的工作較為繁雜,大型的網際網路公司通常將運維方向分為:應用運維(SRE)、系統運維(SYS)、運維研發(DEV)、資料庫運維(DBA)、運維安全(SEC)五大方向。

但無論在運維的哪個崗位,都逃離不開資產相關工作。

系統運維工作職責包含負責數據中心基礎服務的建設以及資產管理,網絡基礎設施選型、交付和維修。對應的需要管理到所有網絡基礎設施的物理信息,包括數據中心網絡基礎設施分布情況、設備配置信息、對應廠商資料、設備IP等各種資源情況,以此確保數據中心建設可以滿足業務需求。

應用運維同樣也離不開服務及資源管理,要時刻掌握負責業務及業務之間的關聯關係,業務依賴資源關係,以便可以及時發現故障問題產生預警,又或是出現問題第一時間響應,安排相關人員聯合排障。不僅如此,還要對各設備資源進行管理,梳理資源狀況、業務承載,要做到合理分配使用,根據不同業務的需求,分配不同配置的網絡基礎設施,確保資源能被充分利用。並在日常工作中要不斷排查點位,發現問題,及時追查,排除隱患。

同樣運維研發、資料庫運維、運維安全相關工作都是建立在網絡基礎設施上面的,沒有物理基礎設施作為依託,以上都將成為空談。

由此可見,網絡基礎設施的管理可稱之為運維工作重點之一。本文將針對這部分工作,淺談「本手」、「妙手」與「俗手」。

現狀--「本手」運維

目前大部分數據中心選用都是excel表格結合CAD圖紙、手工記錄數據等方式對網絡基礎設施資源進行記錄,這種「人工記錄」的管理方式,我們可將其稱之為「本手」。但是「本手」的操作也隨之暴露一些問題,比如設備量大、資源信息維度廣、人員流動性大,如想實現網絡基礎設施物理層精細化管理,勢必要投入大量的人工成本,最終造成過度依賴資深運維工程師、人工時間成本消耗巨大、記錄方式差異化、數據口口相傳等問題。

那麼針對運維管理,有沒有「妙手」呢?更大限度的減少設備故障,重點業務更加精準的保障,發現故障更加及時的告警。答案是肯定的,隨著數據中心行業發展,本手的管理方式雖能勉強滿足管理需求,但其成本代價高昂,如果有智能化手段介入配合管理方式的優化,那麼是不是可以更加高效、快速的實現運維管理,我們可將其稱之為「妙手」。

如何實現「妙手」運維

現在針對有源設備狀態管理已經有網管軟體的接入,「妙手」真正要解決的問題其實是無源設備以及資產各個維度信息的管理,在現有運維模式上優化,比如如何減少設備故障?如何快速的將設備端接信息記錄清楚?如何快速的為排障、保障工作實現數據支撐?如何將網絡基礎設施資源充分利用、合理優化?如何在保障業務安全平穩運行的同時,實現「更安全、更準確、更及時」的目標。

我認為可以利用專業管理工具結合網管軟體相輔相成,實現以物理層為基礎,結合邏輯層管理,物理+邏輯雙腿走路,將原先記錄在excel表格上的資產信息,以可視化的形式展現在網絡基礎設施管理平台,通過智能化手段管理,從而實現減少故障,提高系統安全可靠性,排障更加精準,效率大大提升。



關於運維工作與nVisual

nVisual就是這樣一個以運維部門在日常運行維護管理流程為核心,以事件跟蹤為主線,以解決IT運維管理中的八大管理問題為目的(事件管理、問題管理、變更管理、維護管理、故障管理、場地配置管理、設備生命周期管理、應急管理、質量管理、成本管理和安全管理),為企業提供一個高效、規範的網絡基礎設施管理平台。不僅可以滿足運維工作日常對網絡基礎設施資源管理的需求,並可以通過郵件、手機簡訊等形式對責任人進行階段提示,以此規範運維工作流程,提高系統維護的服務響應效率。

以PDCA循環的方式實現網絡基礎設施系統管理

·P (計劃 PLAN) :從問題的定義到行動計劃

·D (實施 DO) :實施行動計劃

·C (檢查 CHECK) :評估結果

·A (處理 ACT) :標準化和進一步推廣

先利用網絡基礎設施管理平台針對需求完成資源(占用位置、占用設備、占用線纜等)分配(計劃),以工單的形式通知實施人員按計劃執行,完成實施後系統校檢實施情況,最後根據實施情況進行下一步分配。

nVisual不僅可以輔助日常業務上架等工作還可以通過信息整合,實現對各種資源的綜合管理,包括各種靜態資源、基礎資料、備品備件資源的有效管理。從而全面提高運維部門運行維護的快速響應能力,同時也為業務知識積累和業務考核建立了完善的數據模型。此外,系統可以自動做出多種分析報表,不僅可以有效評價IT部門人員工作效率和強度,而且能夠實時、動態、統一的了解所有軟、硬體系統的運行、維護情況。

這樣「物理+邏輯雙腿走路」的運維管理方式可以大大減少人的重複工作,降低知識傳遞的成本,使我們的運維交付更高效、更安全,使產品運行更穩定,且對於重點業務建立起了重點保護重點巡查機制,由事後處理變成提前發現,由人工處理變成系統自動發現,由手動巡查故障點變成了直接展示故障位置,減少排障時間。怎能不稱之為「妙手」呢?

關於「俗手」的思考

最後,再淺談一下目前運維工作的「俗手」,其實針對網絡基礎設施物理層管理的痛點問題一直存在,有很多單位也想到了引入智能化手段,嘗試減輕運維工作壓力,但是選用的確是增加硬體設備,如電子配線架。目前我國數據中心建設已經發展到了一定規模,存在很大體量的老舊數據中心,增加硬體設備勢必要中斷業務,且由於電子配線架需要雙配,在數據中心等同於增加了一個故障點,只實現了對設備直接鏈路連接關係的管理,對流程、事件、歷史故障、變更信息、發布信息、運行情況、知識記錄、綜合分析等方面還是缺乏管控,最後還提高了建設成本,這樣的管理方式是不是可以稱之為弄巧成拙的「俗手」呢,值得我們探討。

結束語

期待每一位運維工程師都能找到屬於自己的「妙手」,為企業提供「更安全、更準確、更及時」的運維服務。


關鍵字: