天冕大數據｜數據倉庫發展歷程 - 天冕大數據實驗室

回顧早期的企業環境，中國企業從2000年之後的企業內部信息化開始經歷了十幾年的歷程，到2013年移動網際網路大發展之後，各行各業實現了深程度的『業務數據化』。這個周期是漫長的，同時伴隨著粗放式的企業業務系統建設，導致業務數據也呈現一種粗粒度模式。而此時數據存儲量暴漲、數據類型多樣化，相應的數據沉澱與積累也成指數暴漲，與此同時對應的處理數據的技術、架構等也應運而生。

每項技術的出現都不是偶然的，數據倉庫技術也同樣如此。隨著企業大量使用計算機，操作型系統產生了大量的數據。

一開始，企業分析數據是通過一種抽取程序從「操作型資料庫」中通過一定的條件把數據轉移到其它文件系統或者資料庫中，然後再對這些數據進行分析。這種方式可以很好地抽取和分析數據，同時對於生產環境的資料庫影響也不大。但是，隨著企業的發展，產生了大量的抽取程序，還有抽取程序的抽取程序，抽取程序的抽取程序的抽取程序...這就導致了一系列的問題。比如，A部門通過自己的一套抽取程序獲了一些數據，並且分析出了公司業績增長15%的結果，B部門通過自己的一套抽取程序得到的數據分析出公司業績增長為10%。

為什麼會這樣呢？因為他們抽取的規則不一樣，得到的數據就不一樣。更不用說，這樣的抽取過程還伴隨著多層抽取，數據經過多層早就變樣了。

總的來說，這種方式抽取的數據，不同部門因為基準時間、算法、抽取層次、沒有公共數據源等等問題會有各種各樣的結果。還有就是不同的部門產生的數據都是為各自部門服務，如果有分析要使用不同部門最近幾年的時間數據，就會發現這些數據都是孤島，很難串聯起來。這些情況都推動了數據倉庫的出現及發展壯大。

1、數據倉庫定義

數據倉庫是伴隨著信息與決策支持系統的發展過程產生的。在數據倉庫進入中國之前已在國外使用了挺長一段時間。有人認為數據倉庫就是大量數據的集合，也有人認為數據倉庫一般指的是在相當長的時間內堆積數據，而大數據是海量數據 + 複雜類型數據基礎上的大分析、高寬頻、大內容。

數據倉庫之父Bill Inmon在1991年出版的「Building the Data Warehouse」一書中所提出的定義被廣泛接受——數據倉庫（Data Warehouse）是一個面向主題的（Subject Oriented）、集成的（Integrated）、相對穩定的（Non-Volatile）、反映歷史變化（Time Variant）的數據集合，用於支持管理決策(Decision Making Support)。

2、數據倉庫發展歷程

開始階段：

數據倉庫概念最早可追溯到20世紀70年代，MIT的研究員致力於研究一種優化的技術架構，該架構試圖『將業務處理系統和分析系統分開』，即將業務處理和分析處理分為不同層次，針對各自的特點採取不同的架構設計原則，MIT的研究員認為這兩種信息處理的方式具有顯著差別，以至於必須採取完全不同的架構和設計方法。但受限於當時的信息處理能力，這個研究僅僅停留在理論層面。

探索階段：

20世紀80年代中後期，DEC公司結合MIT的研究結論，建立了TA2（Technical Architecture2）規範，該規範定義了分析系統的四個組成部分：數據獲取、數據訪問、目錄和用戶服務。這是系統架構的一次重大轉變，第一次明確提出分析系統架構並將其運用於實踐。

全企業集成階段：

IBM公司在處理信息管理不同方面的問題時發現其最煩人的問題是不斷增加的信息孤島。因此1988年，為解決全企業集成問題，第一次提出了信息倉庫（InformationWarehouse）的概念，將其定義為：一個結構化的環境，能支持最終用戶管理其全部的業務，並在1991年在DEC TA2的基礎之上把信息倉庫的概念包含進去，稱之為VITAL規範（VirtuallyIntegrated Technical Architecture Lifecycle）。VITAL定義了85種信息倉庫組件，包括PC、圖形化介面、面向對象的組件以及區域網等。至此，數據倉庫的基本原理、技術架構以及分析系統的主要原則都已確定，數據倉庫初具雛形。

1988年到1991年之間，一些前沿的公司已經開始建立數據倉庫。

確立階段：

1991年Bill Inmon出版了他的第一本關於數據倉庫的書《Building the Data Warehouse》，標誌著數據倉庫概念的確立。該書指出，數據倉庫(DataWarehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合，用於支持管理決策(Decision-Making Support)。該書還提供了建立數據倉庫的指導意見和基本原則。憑藉著這本書，Bill Inmon被稱為數據倉庫之父。

數據集市：

1994年前後，實施數據倉庫的公司大都以失敗告終，導致數據集市的概念被提出並大範圍運用，其代表人物是Ralph Kimball。由於數據集市僅僅是數據倉庫的某一部分，實施難度大大降低，並且能夠滿足公司內部部分業務部門的迫切需求，在初期獲得了較大成功。

爭吵與混亂：

隨著數據集市的不斷增多，這種架構的缺陷也逐步顯現。公司內部獨立建設的數據集市由於遵循不同的標準和建設原則，以致多個數據集市的數據混亂和不一致。為保證數據的準確性和實時性，有的甚至可以由OLTP系統直接修改數據集市裡面的數據，為了保證系統的性能有的數據集市甚至刪除了歷史數據。這其中也導致了一些新的應用的出現，例如ODS。直至此時，人們對數據倉庫、數據集市、ODS的概念還是非常模糊，經常混為一談。

合併：

經過長時間的爭吵，解決問題的方法只能是回歸到數據倉庫最初的基本建設原則上來。1998年，Inmon提出了新的BI架構CIF（CorporationInformation Factory，企業信息工廠），新架構在不同架構層次上採用不同的構件來滿足不同的業務需求。CIF的核心思想是把整個架構分成不同的層次以滿足不同的需求，把DW、DM、ODS進行詳細的描述。現在CIF已經成為數據倉庫的框架指南。

在國內數據倉庫領域，inmon和kimball的理論也一度爭論不休，但是隨著數據倉庫建設的逐步深化，把企業數據倉庫作為企業數據整合平台的思路深得人心，越來越多的企業開始強調在企業內部建立一個企業級別的數據倉庫來支持整個企業的發展和運作。

3、數據倉庫實現方式

數據倉庫系統是一個信息提供平台，他從業務處理系統獲得數據，主要以星型模型和雪花模型進行數據組織，並為用戶提供各種手段從數據中獲取信息和知識。

從功能結構劃分，數據倉庫系統至少應該包含數據獲取（Data Acquisition）、數據存儲（Data Storage）、數據訪問（Data Access）三個關鍵部分。

企業數據倉庫的建設，是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念，只有把信息及時交給需要這些信息的使用者，供他們做出改善其業務經營的決策，信息才能發揮作用。而把信息加以整理歸納和重組，並及時提供給相應的管理決策人員，是數據倉庫的根本任務。

回到國內數據倉庫的使用情況，數據倉庫大約是在2000年傳入中國並大範圍擴展的，企業數據集成 EDW 時代的重要代表人物Bill Inmon 代表作《數據倉庫》一書提出了如何建設數據倉庫的指導性意見與原則，這個導致數據倉庫在傳到中國後的幾年內，國內幾個大實施廠商都是遵守該原則的實施方法。

淘寶是從 2003至2004 年間開始構建自己的數據倉庫的。隨著淘寶網的成立，2003年阿里開始與IBM合作，解決用戶、商品和消費信息分散的問題。當時的阿里已經從十幾個人的小公司延展出很多新業務，技術系統也變得龐大複雜。到了2007年，阿里在IT上的投入之大，一度成為IBM、Oracle等國外IT廠商在中國的標杆用戶。

在這裡不妨提起從2018年下半年開始在網際網路圈火熱起來的名詞「數據中台」。數據倉庫和數據中台有什麼區別呢？在這裡稍微做個描述：數據倉庫的主要場景是支持管理決策和業務分析，而數據中台則是將數據服務化之後提供給業務系統，目標是將數據能力滲透到各個業務環節，不限於決策分析類場景。數據中台台包含數據倉庫的完整內容，它將已建好的數據倉庫當成數據源，對接已有數據建設成果，當然也可以基於數據中台提供的能力，通過匯聚、加工、治理各類數據源，構建全新的離線或實時數據倉庫。