您真的需要數據湖嗎?

聞數起舞 發佈 2020-06-11T05:19:56+00:00

長期以來,數據湖在業界引起了極大的轟動,通常被視為解決所有數據問題的一站式解決方案。如果您正在討論是否需要數據湖來加強數據策略,那麼本文將為您提供一些幫助,以便您進行電話諮詢。

讓我幫你決定。

長期以來,數據湖在業界引起了極大的轟動,通常被視為解決所有數據問題的一站式解決方案。 圍繞數據湖的嗡嗡聲已將組織誤導為設計那些對業務沒有真正價值的組織。 此外,這些年來有關數據沼澤的恐怖故事只鼓勵人們懷疑。 如果您正在討論是否需要數據湖來加強數據策略,那麼本文將為您提供一些幫助,以便您進行電話諮詢。

您是否厭倦了從沒有邏輯集中存儲區域的異構系統中提取數據?

對於大多數處理各種數據源的組織來說,這是一個普遍的問題。 缺乏用於分析工作負載的集中式數據存儲,迫使數據使用者創建本地化的系統,通常只限於少數幾個用戶來進行報告和分析。 幾種非標準化流程最終導致數據孤島的創建,這些孤島可能會成為數據訪問,一致性和準確性的主要問題。

數據湖架構可以通過分布式存儲集中數據,從而提供可擴展,快速,安全和經濟的解決方案。 加上強大的數據治理,最終可以解決數據孤島中的問題並使組織內的數據民主化。 這些解決方案可以在內部,雲甚至混合基礎架構中部署。

您是否因為存儲舊數據很昂貴而僅僅刪除舊數據而感到內疚?

資料庫管理系統需要隨著數據增長而具有更多的計算能力,這導致許多設計決策(例如分區和向外擴展)進一步增加了支出。 當成本持續上升時,IT可以將數據壓縮為備份的資料庫備份到更便宜的存儲或平面文件中,或者在大多數情況下最終將它們刪除。 歸檔數據或刪除它們以降低費用可能會損害數據獲利的機會。

可以設計一個數據湖體系結構來實施數據保留策略,從而減輕控制數據增長的壓力。 藉助廉價的分層存儲,您可以輕鬆地計劃周密的保留策略並存儲大量數據,而不會浪費預算,並大大減少了編排的開銷。

您是否經常使用變化的數據結構來調整資料庫?

如果您正在使用關係資料庫並且源數據的架構不斷變化,那麼您要麼忽略正在進行的更改並可能丟失有價值的信息,要么正在花費資源來將資料庫調整為適用於源架構。 無論哪種方式,您都不會贏。

數據湖允許存儲原始數據(結構化/非結構化/半結構化),而無需運行任何前期ETL流程。 您不會丟失正在進行的數據更改,還可以節省調整資料庫表結構,ETL管道等的費用。您(或使用者)可以在讀取數據時定義結構,而不是在存儲數據時定義數據的結構 (檢查讀取模式)可以使授權使用者以他們喜歡的任何方式讀取數據。 雙贏。

您是否有不同的數據消費者集合需要相同的數據集的不同形式?

並非組織中的每個人都希望以一種特定的形狀或切割形式使用數據。 一些消費者需要與他們的部門需求保持一致的關係形式的乾淨,結構化和必要的數據,一些消費者需要原始數據來運行機器學習實驗,一些消費者將屬於受限類別並使用屏蔽數據。 在傳統平台上解決這些要求變得麻煩(且昂貴)。

一旦將原始數據存儲在數據湖中,就可以在數據中創建邏輯視圖,以便用戶以所需的形式使用數據。 您甚至可以創建流程以將結構化形式的數據存儲到數據倉庫中,並應用匿名規則將數據推送給外部使用者。

您了解數據湖的概念嗎?

關於數據湖有很多神話,在做出決定之前了解一些事實很重要。

· Data Lake是一個概念,而不是產品。 Data Lake不是Amazon S3或Azure Data Lake Storage或Hadoop,而是一種架構,指導如何在對象存儲(如Amazon S3,ADLS,HDFS)或多個存儲組件中存儲和組織數據。

· Data Lake不能替代數據倉庫。 這是關於數據湖的最大困惑。 如此多,當您使用Google術語"數據湖"時,您會發現大多數人將數據湖與數據倉庫進行比較。 數據湖允許數據以其原始格式駐留,而數據倉庫是您存儲經過處理,清理,結構化和感興趣的數據的地方。 數據湖和數據倉庫是相輔相成的想法,不能相互替代。

· 數據湖需要治理。 您可以不經任何處理就將原始格式的數據提取到數據湖中,但是一旦將數據存儲在數據湖中,就需要進行適當的分類,管理和控制,以確保只有授權的使用者才能跟蹤,識別和訪問數據。

· 數據湖不是一種通用架構。 數據湖的設計因每個組織和用例而異。 一個組織可以決定建立多個數據湖,或者一個數據湖可以為多個組織服務。 無論哪種情況,都是根據業務策略,基礎架構,技術選擇和人員技能來做出特定的設計決策。

最後…

數據湖確實具有巨大的優勢,對於許多熱衷於制定數據戰略的組織而言,它可能是一個有吸引力的提議。 您必須仔細檢查它是否可以解決您的業務問題,是否與組織中的其他技術平台很好地集成以及是否真正為業務創造了價值。 做出良好的設計決策並確保在整個組織中建立數據治理規則以使用數據湖至關重要。 最重要的是,只有那些人才能成功實現這一目標,您將必須支持和發展正確的技能,並鼓勵採用數據驅動的文化。

(本文翻譯自Sandipan Bhaumik的文章《Do you really need a data lake?》,參考:https://towardsdatascience.com/do-you-really-need-a-data-lake-7faccb8c550d)

關鍵字: