學習一門新知識的時候,首先我們要了解他的全貌,接下來和我一起了解:
- Apache Hadoop框架
- Apache Hadoop的發展
一、什麼是Hadoop?
Hadoop是Apache軟體基金會下的頂級開源項目,用以提供:
- 分布式數據存儲
- 分布式數據計算
- 分布式資源調度
為一體的整體解決方案。
Apache Hadoop是典型的分布式軟體框架,可以部署在1台乃至成千上萬台伺服器節點上協同工作。
個人或企業可以藉助Hadoop構建大規模伺服器集群,完成海量數據的存儲和計算。
二、為什麼學習Hadoop?
近10年來,大數據技術體系一詞一直和Hadoop是劃上等號的,提起大數據技術基本就是在提及Hadoop。
隨著近些年的發展,越來越多的新技術框架的出現,給大數據技術體系帶來了豐富的生態,但是擁有元老地位的Hadoop依舊非常重要。
為什麼學習Hadoop有如下幾個至關重要的原因:
- Hadoop是最早的一批大數據技術框架,在市面上擁有極高的占有率和龐大的用戶群體。
- Hadoop在大數據體系內,技術難度相對較低,非常適合作為大數據學習的入門技術棧。
所以,學習Hadoop不僅僅因為其適合入門,同時也可以為大數據學習打下良好的基礎。
三、Hadoop的功能
通常意義上來說,Hadoop是一個整體,其內部還會細分為三個功能組件,分別是:
所以,我們會說Hadoop是一個集合了:存儲、計算、資源調度為一體的大數據分布式框架。
四、Hadoop發展
Hadoop創始人:Doug Cutting
Hadoop起源於Apache Lucene子項目:Nutch
Nutch的設計目標是構建一個大型的全網搜尋引擎。
遇到瓶頸:如何解決數十億網頁的存儲和索引問題
Google三篇論文
《The Google file system》:谷歌分布式文件系統GFS
《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式計算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》:谷歌結構化數據存儲系統
其髮型版本有兩個,一個是開源社區版,一個是商業發行版。
Apache開源社區版本
http://hadoop.apache.org/
商業發行版本
CDH(Cloudera's Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商業版
HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收購
星環,國產商業版,星環公司出品,在國內政企使用較多。