當我們說大數據Hadoop,究竟在說什麼?

麥聰軟件 發佈 2023-05-03T06:50:20.607116+00:00

提到大數據,大抵逃不過兩個問題,一個是海量的數據該如何存儲,另外一個就是那麼多數據該如何進行查詢計算呢。好在這些問題前人都有了解決方案,而Hadoop就是其中的佼佼者,是目前市面上最流行的一個大數據軟體,那它包括哪些內容呢?有什麼特點呢?

提到大數據,大抵逃不過兩個問題,一個是海量的數據該如何存儲,另外一個就是那麼多數據該如何進行查詢計算呢。

好在這些問題前人都有了解決方案,而hadoop就是其中的佼佼者,是目前市面上最流行的一個大數據軟體,那它包括哪些內容呢?有什麼特點呢?


Hadoop介紹

提到Hadoop,大家的理解是什麼?

狹義上理解,Hadoop指的是Apache軟體基金會的一款用java語言實現,開源的軟體,允許用戶使用簡單的編程模型實現跨機器集群對海量數據進行分布式計算處理。

廣義上,Hadoop指的是圍繞Hadoop打造的大數據生態圈,如下圖所示, 其中Hadoop是整個生態圈的底座、地基,構建出整個大數據的生態系統。


Hadoop三大核心組件

hadoop主要由3大部分組成,俗稱Hadoop三劍客:

1.Hadoop HDFS(分布式文件存儲系統)

全稱分布式文件系統,本質是一個文件系統,由於數據量很大,總不能將將所有數據存儲到一台"電腦"上,哪有那麼大磁碟的電腦,那麼是不是可以存儲到多個不同的"電腦"上,也就是分布式的,把文件存儲在不同的節點中,主要是為了解決海量數據存儲的問題,它處在生態圈的底層與核心地位。


2.Hadoop MapReduce(分布式計算框架)

MapReduce作為大數據生態圈第一代分布式計算框架,主要是解決了海量數據的計算問題。

傳統的計算方式一般都是將數據從各個節點上加載過來,然後統一計算。這樣有個最大的弊端就是計算十分慢,只有一個節點工作。而MapReduce計算框架可以分布在各個節點上並行計算,最後進行歸併。

注意,MapReduce只是一個計算框架,或者說編程模型,不是一個軟體,無需部署。


3.Hadoop Yarn(集群資源管理和任務調度平台)

YARN是分布式通用的集群資源管理系統和任務調度平台,怎麼理解呢?

大數據的很多計算任務,比如MapReduce任務、或者其他的Spark任務等等,他們在計算的時候需要CPU、內存、磁碟等資源,那麼多個任務進行運算的時候需要有個管理者去給他們進行資源分配、調度等,這個管理員就是YARN。


Hadoop優點

Hadoop為什麼這麼流行,這和它的眾多優點分不開。

  • 擴容能力

Hadoop是在可用的計算機集群間分配數據並完成計算任務的,這些集群可方便靈活的方式擴展到數以千計的節點。


  • 成本低

Hadoop集群允許通過部署普通廉價的機器組成集群來處理大數據,以至於成本很低。看重的是集群整體能力。


  • 效率高

通過並發數據,Hadoop可以在節點之間動態並行的移動數據,使得速度非常快。


  • 可靠性

能自動維護數據的多份複製,並且在任務失敗後能自動地重新部署(redeploy)計算任務。所以Hadoop的按位存儲和處理數據的能力值得人們信賴。


  • 開源

由於Hadoop開源,所以整個社區活躍度很高,很多企業都是基於Hadoop構建他們的大數據平台。


Hive 與 SQL Studio

Hadoop只是一套工具的總稱,它包含三部分:HDFS,Yarn,MapReduce,功能分別是分布式文件存儲、資源調度和計算。

按理來說,這就足夠了,就可以完成大數據分析了。

但第一個問題就是麻煩。這一套相當於用Yarn調度資源,讀取HDFS文件內容進行MR計算。要寫Java代碼,但做數據的最好的工具是什麼?SQL!所以Hive相當於這一套標準流程的SQL化。

hive是基於Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。

Hive的優點是學習成本低,可以通過類似SQL語句實現快速MapReduce統計,使MapReduce變得更加簡單,而不必開發專門的MapReduce應用程式。hive十分適合對數據倉庫進行統計分析。

目前可支持Hadoop的SQL工具並不多,除開Hive外,還有SQL Studio,最近SQL Studio已全面支持Hadoop

SQL Studio是一款跨平台的資料庫管理工具,支持Linux、Mac、Windows系統:

  1. SQl Studio最值得一提的就是它免費;
  2. 如今國產資料庫正發展的如火如荼但支持國產資料庫的SQL工具卻不多SQL Studio正是這少數中的金子不僅支持MySQL、Oracel等主流資料庫,還支持武漢達夢、人大金倉等國產資料庫;
  3. 它是Web版工具,一鍵解壓點開就能使用無需安裝非常方便支持團隊實時在線進行代碼溝通協調效率更高;
  4. 自動生成測試數據功能,不再需要寫代碼,SQL Studio自動幫你生成百萬測試數據,省心省力;
  5. 支持超大數據量:毫秒級查詢千萬級數據,導出3000W速度比Navicat還快,展開1W張表格穩定絲滑不卡頓
  6. ......

更多功能優點您可下載後自行探索

關鍵字: