協會觀點 | 數據治理端對端,讓數據「活」起來

天津市大數據協會 發佈 2022-07-11T11:46:59.969828+00:00

大數據時代,數據成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用,不敢用,因此,小編覺得數據治理是大數據時代,我們用好海量數據的必然選擇。

大數據時代,數據成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用,不敢用,因此,小編覺得數據治理是大數據時代,我們用好海量數據的必然選擇。


01

數據治理,端對端


「端到端」是在供應鏈里看到的專業術語,現在也被借鑑到信息化、數位化的領域。說的是供應鏈管理應該從整個供應鏈的一端到另外一端全流程進行管控。


以蔬菜供應鏈為例,一端是農戶,就是蔬菜生產端,一端是消費者,就是蔬菜消費端。好,我們用最樸素的思維去理解,對蔬菜的質量管控,應該從哪裡開始?從進入批發市場嗎?

很明顯,必須得從農戶開始,進行全流程管控好嗎?進入市場之後再開始管控,等發現問題的時候,很可能已經有很多蔬菜流轉到消費者餐桌上了。


從理論上來講數據治理主要是三個目的:保證數據的可用性、數據質量和數據安全。而在實踐層面,國內外談到數據治理,其主要目的都是數據質量,對於數據安全,往往是有專門的團隊和管理舉措,從數據治理領域涉及的較少。我們下面的討論也繼承這種習慣,主要探討數據質量這個目標。


02

數據生產端

其實很多數據治理項目做不到深入到「數據生產端」,並不是數據治理服務商們不懂,而是有很多因素的。比如時間、金錢成本。一旦深入到數據生產端,那就意味著數據治理的成本會成倍增長,而且短時間內看不到成效。


舉個簡單的例子,我們不管在哪個環節,發現一條數據有質量問題,我們怎麼解決?

通常來說,數據質量一般可以分為幾種情況:

01

數據不標準導致的,可以用標準化後直接處理的,比如性別代碼不統一的情況,弄個mapping表統一標準就行;

相對比較規律的,比如姓名里有空格、除·之外的特殊字符的,梳理幾個規則處理就行;

02

數據不標準導致的,可以用標準化後直接處理的,比如性別代碼不統一的情況,弄個mapping表統一標準就行;

相對比較規律的,比如姓名里有空格、除·之外的特殊字符的,梳理幾個規則處理就行;

關鍵信息缺失、錯誤的,比如姓名為空、身份證號完全不符合規則的。

03

關鍵信息缺失、錯誤的,比如姓名為空、身份證號完全不符合規則的。

其中,情況1、2可以與業務方確認規則之後,由數據工程師解決。但是數據工程師對情況3就無能為力了。大數據技術再厲害,也不能猜出對方叫啥、身份證號是多少不是?


在這個時候,就需要數據治理平台與業務系統打通,對各種渠道判定有問題的數據,進行歸類後,退回業務系統。業務系統中收到信息後,讓業務系統的人員另起一個流程,通過與客戶溝通、查閱其他資料等方式進行補齊。這裡必須要做的一件事情就是確認每一條數據的歸屬。


03

數據應用端


一個公司數位化程度,最簡單的辦法就是看他們的數位化是為誰服務的。那麼數位化滲透率還是不夠,將滲透了管理層。如果能夠對各個部門的實際業務進行深度結合,幫助各個部門優化其流程,那滲透率已經比較高了,可以稱之為數據驅動型的企業。


如果數位化已經嵌入到執行層的日常流程,甚至達到了脫離數位化手段都無法開展工作的地步,這就像武俠小說里的「坐立行走皆是功夫」,達到了佛法里的「行住坐臥皆是禪」的地步,可以稱之為數位化完全體。

每個數據治理的領域都可作為一個獨立方向進行研究治理,目前總結的數據治理領域包括但不限於一下內容:數據標準、元數據、數據模型、數據分布、數據存儲、數據交換、數據生命周期管理、數據質量、數據安全以及數據共享服務。

同時各領域之間需要有機結合,如數據標準、元數據、數據質量等幾個領域相互協同和依賴。通過數據標準的管理,可以提升數據合法性、合規性,進一步提升數據質量,減少數據生產問題;在元數據管理的基礎上,可進行數據生命周期管理,有效控制在線數據規模,提高生產數據訪問效率,減少系統資源浪費;通過元數據和數據模型管理,將表、文件等數據資源按主題進行分類,可明確當事人、產品、協議等相關數據的主數據源歸屬、數據分布情況,有效實施數據分布的規劃和治理。

04

協會總結

在大數據時代,對於企業而言數據是一項戰略性企業資產,數據治理工作是極富專業性和挑戰性的,需要更多進行跨界整合、外部應用的商業模式創新需要企業用戰略的眼光和專業的視角,長期不懈地在此領域精耕細作,才能起到一定的價值,未來才可能在行業對標中脫穎而出。

關鍵字: