掃盲!一篇內容走進Hadoop的世界

傳智教育官方賬號 發佈 2024-02-29T10:50:21.843443+00:00

學習一門新知識的時候,首先我們要了解他的全貌,接下來和我一起了解:Apache Hadoop框架Apache Hadoop的發展一、什麼是Hadoop?Hadoop是Apache軟體基金會下的頂級開源項目,用以提供:分布式數據存儲分布式數據計算分布式資源調度為一體的整體解決方案。

學習一門新知識的時候,首先我們要了解他的全貌,接下來和我一起了解:

  • Apache Hadoop框架
  • Apache Hadoop的發展

一、什麼是Hadoop?

Hadoop是Apache軟體基金會下的頂級開源項目,用以提供:

  • 分布式數據存儲
  • 分布式數據計算
  • 分布式資源調度

為一體的整體解決方案。

Apache Hadoop是典型的分布式軟體框架,可以部署在1台乃至成千上萬台伺服器節點上協同工作。

個人或企業可以藉助Hadoop構建大規模伺服器集群,完成海量數據的存儲和計算。

二、為什麼學習Hadoop?

近10年來,大數據技術體系一詞一直和Hadoop是劃上等號的,提起大數據技術基本就是在提及Hadoop。

隨著近些年的發展,越來越多的新技術框架的出現,給大數據技術體系帶來了豐富的生態,但是擁有元老地位的Hadoop依舊非常重要。

為什麼學習Hadoop有如下幾個至關重要的原因:

  • Hadoop是最早的一批大數據技術框架,在市面上擁有極高的占有率和龐大的用戶群體。
  • Hadoop在大數據體系內,技術難度相對較低,非常適合作為大數據學習的入門技術棧。

所以,學習Hadoop不僅僅因為其適合入門,同時也可以為大數據學習打下良好的基礎。

三、Hadoop的功能

通常意義上來說,Hadoop是一個整體,其內部還會細分為三個功能組件,分別是:

所以,我們會說Hadoop是一個集合了:存儲、計算、資源調度為一體的大數據分布式框架。

四、Hadoop發展

Hadoop創始人:Doug Cutting

Hadoop起源於Apache Lucene子項目:Nutch

Nutch的設計目標是構建一個大型的全網搜尋引擎。

遇到瓶頸:如何解決數十億網頁的存儲和索引問題

Google三篇論文

《The Google file system》:谷歌分布式文件系統GFS

《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式計算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》:谷歌結構化數據存儲系統

其髮型版本有兩個,一個是開源社區版,一個是商業發行版。

Apache開源社區版本

http://hadoop.apache.org/

商業發行版本

CDH(Cloudera's Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商業版

HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收購

星環,國產商業版,星環公司出品,在國內政企使用較多。

關鍵字: