Cloudera一個滿足未來數據生態系統架構的混合數據平台

至頂頭條 發佈 2022-09-29T23:33:15.510960+00:00

未來數據生態系統架構是什麼模樣?Gartner認為,未來的數據生態系統應該利用分布式數據管理組件,可以在多個雲和/或本地運行,但應被視為具有高度自動化的緊密的整體,像集成、元數據和治理功能將各個組件粘合在一起。

未來數據生態系統架構是什麼模樣?

Gartner認為,未來的數據生態系統應該利用分布式數據管理組件,可以在多個雲和/或本地運行,但應被視為具有高度自動化的緊密的整體,像集成、元數據和治理功能將各個組件粘合在一起。

企業中不同的角色會關心不同的數據架構和方法論,數據網格(Data Mesh)、數據編織(Data Fabric)、湖倉一體(Data Lakehouse)是所有角色都會關注的三個數據框架和方法論。Cloudera則提供了適用於數據編織、數據湖庫、數據網格和未來數據生態系統架構要求的混合數據平台。

構建未來數據生態系統架構

數據網格(Data Mesh)是數據與產品思維的融合。其是一種範式轉變,數據由業務中的不同域擁有和管理,數據由最了解數據的域擁有,隨時可供企業內的任何其他域使用。ThoughtWorks公司的工程師Zhamak Dehghani提出了數據網格的四個原則,分別是領域所有權原則、數據即產品原則、自助數據平台原則、聯合計算治理原則。

數據編織(Data Fabric)各家評測機構都有自己的框架,Cloudera看來,數據編織的管控流程和之前所有數據管控方法一樣,現在要做的不光要對人工的方式、手動數據管理進行服務,也要對未來的機器學習、自動的發現方式、對外進行服務,這個框架比以前要求更高。

湖倉一體(Data Lakehouse)集成並統一了數據倉庫和數據湖的功能,在支持單一平台上的AI、BI、ML和數據工程。新技術能力支撐下,由上至下和由下至上的融合,適用於數據分析和機器學習工作負載。

Cloudera大中華區技術總監劉隸放表示,在企業內部針對不同的角色,要講不同的數據架構和方法論,這之間並不矛盾。

CEO、CIO、CDO關注如何在管理成本和維護人員規模的同時進行擴展,也就是數據你網格;CTO、CSO關注用什麼技術方案保持一致性並構建標準模式,也就是數據編織;領域從業者關注在具體項目上的優化,也就是湖倉一體。

混合數據平台能做些什麼

作為一家混合數據企業,Cloudera提供適用於數據網格、數據編織、數據湖倉和未來數據生態系統架構要求的混合數據平台,允許客戶在多個公共和私有雲以及本地訪問和分析數據,使企業能夠做出由數據驅動的明智決策,幫助企業建立由數據驅動的未來。

為什麼說Cloudera是未來數據生態系統架構要求的混合數據平台,這主要源於三點,第一,開放數據編織、湖倉一體和數據網絡,可以在任何地方提供大規模數據;第二,多雲和本地數據管理和分析;第三,一次編寫,隨處運行的數據分析可移植性;第四,使用開放的雲原生存儲格式統一安全和治理,SDX能夠真正幫助客戶在新的形勢下跨雲,包括雲原生、不同的存儲中,做到數據統一的安全管控和治理。

「從產品構建角度,Cloudera數據平台可以支持現代數據架構。」劉隸放指出,Cloudera擁有三大核心優勢,首先以更靈活且簡單的方式幫助客戶建立數據驅動型文化,其次以性能和成本效益驅動價值,最後與大量合作夥伴做開放性認證,支持開放的標準和互操作性,以速度和控制拉動企業增長。

從算力的角度來說,邊緣計算非常重要,一些問題可以通過機器學習的處理模型在邊緣進行處理,這對於數據安全性有要求的企業,可以實現數據要脫敏和過濾。

未來數據平台一定存在跨雲模式,選擇同一個平台,同一個計算引擎,到另外一個平台也可以使用,不需要改造,這是一個非常重要的考量的點。

關鍵字: