MDM數據質量應用說明

數通暢聯 發佈 2022-07-23T16:25:10.225285+00:00

科技飛速發展的時代,企業信息化建設會越來越完善,越來越體系化,因此企業所使用的應用系統也就越來越多,企業在業務發展過程中沉澱了大量的數據,但是這些數據沒有為企業帶來直觀的價值,沒有形成企業的數據資產,所以越來越多的企業進入到了數據治理階段,對於主數據治理的需求越來越明確。

科技飛速發展的時代,企業信息化建設會越來越完善,越來越體系化,因此企業所使用的應用系統也就越來越多,企業在業務發展過程中沉澱了大量的數據,但是這些數據沒有為企業帶來直觀的價值,沒有形成企業的數據資產,所以越來越多的企業進入到了數據治理階段,對於主數據治理的需求越來越明確。

MDM基礎數據管理平台是對主數據進行同步、清洗、治理、分發全生命周期的一次管理,幫助各個業務系統的主數據統一,保障它們的完整性、一致性,同步就是從主數據源頭到主數據過程,治理是到主數據後進行已系列的管理和維護、分發把治理後主數據分發給各個業務系統包括源頭。而本篇文檔將介紹對主數據完整生命周期中涉及到的一些功能模塊的優化,確保產品在現有的基礎上更加完善,可以滿足用戶的需求。

整體介紹

主數據治理方案可以將企業的組織、人員、客戶、供應商等高度共享的數據進行統一管理,對需要的業務系統進行同步分發,使數據易採集、易理解、易分析,提高部門與部門之間的溝通效率。

1.產品說明

MDM基礎數據管理系統是對主數據進行同步、清洗、治理、分發全生命周期的一次管理,幫助各個業務系統的主數據統一,保障它們的完整性、一致性,同步就是從主數據源頭到主數據過程,治理是到主數據後進行一系列的管理和維護、分發是把治理後主數據分發給各個業務系統包括源頭。

通過以上各個過程的相互配合去從根本上解決企業各個業務系統之間數據不能共享,數據重複、錯誤等問題。使得企業在數據方面更完善,業務進行更順暢。

2.產品方案

1.應用集成方案 ESB + MDM

2.統一身份方案 IDM + ESB

3.基礎數據方案 MDM + ESB

4.數倉建設方案 DAP + ESB

5.集成底座方案 IDM + MDM + ESB (iPaaS方案)

6.數據中台方案 MDM + ESB + DAP (dPaaS方案)

7.應用中心方案 MDM + ESB + Portal (aPaaS方案)

8.全域集成方案 ESB + MDM + DAP + Portal + IDM (ePaaS方案)

3.質量管理

MDM主數據管理平台對於數據質量的管理有兩種主要途徑:數據巡檢和數據清洗。兩者的區別在於數據巡檢是針對已經存在於MDM中的數據,篩選出相似數據,相似度和相似欄位可以在功能建模中進行配置;而數據清洗是在數據進入到MDM之前對數據進行校驗,包括重複校驗以及基於各種校驗規則對數據進行清洗。

數據質量

數據質量,是指在業務環境下數據符合數據消費者的使用目的,能滿足業務場景具體需求的程度。在不同的業務場景中,數據消費者對數據質量的需求不盡相同,有些人主要關注數據的準確性和一致性,另外一些人則關注數據的實時性和相關性。因此,只要數據能滿足使用目的,就可以說數據質量符合要求。

1.質量說明

數據質量的定義可能要從多個維度出發去衡量。如果從用戶角度考慮,能滿足用戶特定需求所需的程度;如果從數據本身出發去考慮,那就需要查看數據的各個參數部分去衡量優劣勢;如果從數據過程來定義數據質量,則需要看數據能否被正確使用、存儲以及傳輸來定義數據質量。

2.質量評估

數據質量是保證數據應用的基礎,它的評估標準主要包括五個方面:完整性,一致性、準確性、唯一性、及時性。數據是否達到預期制定的需求,就可以通過這五個方面來判斷。

1.完整性指的是數據信息是否存在缺失,數據缺失可能是整條記錄的缺失,也可能是一條數據記錄中某些欄位值缺失。信息缺失的數據的借鑑價值就會大大降低。所以數據完整性也是數據質量評估最基礎的一項標準。

2.準確性指的是數據記錄的信息是否存在異常或者錯誤。和一致性不一樣的是,存在準確性問題的數據不僅僅是在規則上不準確,也有可能是其他方面,比較常見的像數據亂碼。其次,異常的大或者小也是不準確的體現。

3.一致性是指數據是否遵循了統一的規範,數據集合是否保持了統一的格式。數據的一致性主要體現在數據記錄的規範和數據是否符合邏輯。數據規範指的是,一項數據存在固定的格式,例如手機號一定是一串十一位的數字;邏輯指的是,某些數據之間存在著固定的邏輯關係,例如數據相似度一定是介於0到1之前的數值。

4.唯一性是指數據相互之間是否重複。當然這個所謂的重複並不一定就是百分百的重複,也有可能是在某些欄位上的重複。而哪些數據重複會被認定為重複也要看具體情況,例如不同分組下的數據就有可能存在重複數據,但確實符合業務邏輯的。

5.及時性是指數據從產生到可以查看的時間間隔。及時性對於數據分析的要求並不高,但是如果數據分析的周期加上數據建立的周期時間過長,那麼這些數據也就失去了借鑑的價值。

3.質量提升

MDM主數據管理平台作為一款解決企業數據問題的產品,自然有著獨有的提升數據質量的方法。主數據平台中有質量管理的模塊,其中,數據清洗以及數據巡檢這兩個功能可以用於提升數據的質量

數據清洗主要是針對源頭業務系統中的數據導入到主數據平台之前,需要先通過清洗功能將不符合質量要求的數據過濾出來,進行調整之後再次清洗,直至數據質量過關;而數據巡檢主要是在日常數據操作的過程中可以通過配置巡檢策略對數據的相似度進行查看,針對存在問題的數據可以進行調整直到符合前期制定的質量需求。

數據巡檢

數據巡檢主要是用來保證數據的唯一性,通過巡檢功能來對數據進行查重處理來保證分發到下游業務系統的數據是唯一的。

1.功能說明

目前MDM中相似度巡檢運算方式是根據多個欄位的組合通過相似算法算出他們的相似百分比,然後查看是否超過配置的百分比數字,如果超過就判定為相似數據,然後記錄到數據表中,還需添加新的質量校驗算法,通過結果值乘以不同欄位的閥值再除以閥值的相加和得出的數字進行數據巡檢,巡檢支持結果Excel輸出,幫助客戶提升主數據質量。

2.功能配置

1.應用巡檢功能需要配置巡檢欄位和巡檢相似度,這兩項是必須要配置的,否則無法進行巡檢。

2.除了欄位和相似度也可以配置巡檢啟動時間和時間間隔;啟動時間為自動巡檢的時間,而時間間隔是一次巡檢結束後,隔多久進行下一次巡檢。

3.配置好這些參數,就可以進行數據巡檢的操作了。

3.功能展現

1.主數據平台中預置的所有主數據以及新增的主數據都會顯示在數據巡檢頁面上,如圖所示:

2.單擊選中一條數據點擊執行會對該類主數據下的所有數據進行相似度的巡檢,可以根據狀態判斷巡檢是否完成,巡檢結束後會顯示相似數據的個數。

3.雙擊一條數據可以進入到相似數據頁面來查看相似數據。

4.上面頁面顯示的是所有的相似數據,而每一條數據點擊查看或者雙擊可以查看與之相似的數據。然後就可以對這些數據進行處理了。

數據清洗

數據清洗就是在同步和治理過程中把主數據一些欠缺的、重複的、不符合規則的數據篩選出來,然後導出到Excel中,在Excel中調整完畢後再次導入清洗功能中直至數據全部清洗成功。

1.功能說明

通過數據清洗功能下載主數據導入模板,源頭業務系統把數據填寫模板中,通過數據清洗導入功能進行導入清洗,檢測出數據中欠缺的、重複的、不符合規則數據,通過導出功能把失敗的數據導出到Excel中進行數據處理後,再重新導入重新檢測直到所有數據成功為止,然後把所有成功的數據導出Excel中,返回給業務源頭系統進行源頭系統的數據清洗(源頭系統添加主數據編碼映射),通過主數據任務分發把標準的數據分發給業務,這樣就把源頭、主數據、下發至業務系統數據保持一致。

2.功能配置

1.創建主數據通常分為兩個部分,一個是數據建模,一個是功能建模,這兩部分中都有數據清洗相關的配置。首先從數據建模中說起,在編輯主數據信息的時候可以選擇是否需要數據清洗功能,如下圖所示:

2.如果選擇了數據清洗,當跳轉到數據建模頁面中時,就需要配置欄位關聯的校驗規則了,之後的清洗過程就會按照配置的校驗規則去執行。

3.配置好校驗規則後點擊提交按鈕就會跳轉到創建表的頁面並生成數據清洗相關的那四張表,點擊創建和提交,數據建模部分相關的配置就完成了。

4.接下來是功能建模,功能建模中配置的一個是數據清洗導出的策略,這個導出包括過程中導出和導出最終清洗結果。這個策略分為兩種,分別為導出全批次成功和導出單批次全量。全批次成功導出的是所有批次下清洗成功的數據,單批次全量導出的是最後一個批次下的所有數據,如圖所示:

3.功能展現

1.左側樹選擇對應的主數據節點,點擊批次導出選擇想要清洗Excel數據,導入之後如圖所示,頁面右上角會顯示功能建模中配置的清洗導出策略,過濾條件框最右側可以通過勾選是否重複來直接查看重複數據。

2.對於失敗的數據,可以點擊查看或者雙擊一條數據來查看數據詳情和錯誤信息,如圖所示:

3.清洗過濾可以通過欄位和校驗規則篩選出符合過濾條件的數據。

4.進入到數據詳情頁面可以查看重複數據的信息,包括常規的欄位和重複的欄位信息。

5.對於重複,清洗功能自帶排除功能,可以將重複數據進行排除,如果不小心誤刪也可以通過還原按鈕將數據還原回去,類似電腦桌面上的回收站功能。

心得總結

最後一部分是對數據質量相關的一些個人理解,包括數據治理,數據質量分析以及產品的發展。

1.數據治理

「數據」已成為企業的一項寶貴的戰略資產。為了使龐大的數據發揮更大的價值,企業必須著眼於數據治理和綜合利用。主數據驅動的數據治理是指從企業雜亂的數據中捕捉具有高業務價值、被企業內各業務部門重複使用的關鍵數據進行管理,構建單一、準確、權威的數據來源,從而提高企業的整體數據質量,提升數據資產價值,推動業務創新,全面增強企業競爭力。

2.質量分析

數據質量分析是數據準備過程的重要一環,是數據預處理的前提,也是數據挖掘分析結論有效性和準確性的基礎。數據質量分析的主要任務是檢查原始數據中是否存在髒數據,髒數據一般是指不符合要求,以及不能直接進行相應分析的數據。常見的髒數據類型包括缺失值、異常值、不一致的值以及重複值。通過分析結果對數據進行處理,從而保證數據質量。

3.產品發展

產品誕生要從不同角度來擴展疊代每個產品,通過從項目去,再從項目來,通過客戶的需求篩選出我們產品需要的功能,進行產品功能升級,增強產品的功能性,而且需要做到換位思考,了解項目中實施的重點和難點,總結經驗,擴展嚮導功能,加強產品的易用性,並且在開發時要考慮產品的性能和穩定性。

為了更好地開發產品,真正要做的是產品和項目本身的分離,將開發出來的產品作為一個平台,項目的特色化定製則是通過在產品基礎上的配置和實施來實現。實施本身存在差異,但是作為通用化底層模型的產品平台本身可以產生強大的規模效應和底層支撐。另外推進產品開發的時候,要立足長遠,不能僅想著開發的產品能不能滿足現有需求,還要轉變思想去挖掘潛在的市場需求。

本文由@數通暢聯原創,歡迎轉發,僅供學習交流使用,引用請註明出處!謝謝~

關鍵字: