Tech Talk · 雲技術有話聊 | 基於多場景計算分析的融合數倉基礎架構

科技全看點 發佈 2022-06-02T05:15:44.072341+00:00

5月26日,信服雲大數據研發技術專家Kevin 在信服雲《Tech Talk · 雲技術有話聊》系列直播課上分享了《基於多場景計算分析的融合數倉基礎架構》,詳細介紹了信服雲數倉Dipper如何在複雜場景下提升查詢效率,信服雲數倉Dipper在明細查詢、聚合查詢等多種查詢場景下的加

5月26日,信服雲大數據研發技術專家Kevin 在信服雲《Tech Talk · 雲技術有話聊》系列直播課上分享了《基於多場景計算分析的融合數倉基礎架構》,詳細介紹了信服雲數倉Dipper如何在複雜場景下提升查詢效率,信服雲數倉Dipper在明細查詢、聚合查詢等多種查詢場景下的加速技術,以及信服雲數倉Dipper在多種業務場景下的開發經驗。以下是他分享的內容摘要,想要了解更多可以關注「深信服科技」公眾號觀看直播回放。

一、數據倉庫當前面臨的挑戰

數據倉庫是用來存放各個業務系統數據的地方,包括網站的訪問日誌、業務數據等。基於收集上來的散亂的海量的數據,以數據集成的方式進入到了數據倉庫的系統,再進行數據清洗、數據匯聚、數據加工等步驟,進而用於進行大數據分析操作。這些操作都是在數據倉庫裡面來完成,最後形成集成數據集合,用於支撐各個部門的決策過程。

數據倉庫是企業數位化轉型裡面不可或缺的一部分,這體現在商業智能數據挖掘、數據儀錶盤和數據探索這些方面。無論是企業的數據分析師,還是企業的經營決策者,都需要用它來發現商業中可能忽略的問題,實現決策的科學制定。

當前數據倉庫的一些需求,其實基本上處理的數據是 PB 級的數據,不僅要負責 PB 級的數據的存儲,還要負責 PB 級數據的計算。因為這裡計算資源和存儲資源比較多,如何通過性價比更高方式來保證數據的存儲,保證數據的計算能夠是高效的,也是很多企業關心的問題。

要支持這種高性能的這樣的查詢,對於用戶來講,數據倉庫對外的輸出的窗口提供這樣的功能。所以在高並發聚合分析、億級別的並發秒級檢索、高性能的 AD hoc查詢這三方面都要給用戶提供一種高性能的體驗。

二、數據倉庫難點與解決方案

總結起來,用戶的痛點分為三方面:多系統帶來的運維複雜;查詢性能不足;人工建倉成本高。

針對多系統部署、成本高的痛點,信服雲提供了一套的一體化智能運維系統。在這個系統里有很多的組件,例如分布式計算引擎,統一的元數據管理引擎,這些引擎在系統中是統一部署的。

根據機器的實際的情況進行參數的調優和配置,實現一鍵安裝。運行過程中出現了問題,也可以及時地發出告警,提醒人員說當前系統可能存在問題。

在這裡面,如果是說每套系統發生掛掉的情況,通過高可用機制也能夠儘快恢復線上業務的生產,來降低因為系統故障導致的業務中斷。

業務系統運行在這樣的數據倉庫上,就能夠保證用戶的系統是高可用的,實現智能運維,來降低運維的成本。

針對性能不足的問題,信服雲提供了一套化繁為簡的Dipper數據分析引擎,分成統一接口層和融合引擎層。可以將用戶的查詢分類,在系統中分別針對各類查詢進行優化,以獲得更優的查詢性能。

當查詢涉及到大批量數據計算或者大批量數據分析時,可以提供Hive 或者是 Spark 這樣的分析引擎,限制內存和計算資源的使用情況,保證計算過程的穩定執行。

當涉及聚合查詢或者明細查詢時,提供提供索引機制,在減小計算數據量的情況下,採用類似於Presto這種引擎,實現低延遲快速的計算。

如果秒級甚至說毫幾百毫秒依舊不能滿足需求,信服雲會給用戶開一個高速緩存,並採用內存計算引擎,為用戶提供更高並發、更低延遲的查詢體驗。

融合數倉的背後有三種關鍵技術。第一,提供一套 ANSI SQL 接口,無需對接多種分析引擎。儘管下面用到了三個不同的組件,但是對於用戶來講,只要寫一套 ANSI SQL 的語法,就能夠獲得特定的轉換,無需用戶考慮組件的切換。



第三,所有的索引不需要用戶來指明說要構建什麼索引,在這過程中可以通過 SQL 語句的分析來自適應地為用戶建立各種各樣的索引。

三、數據倉庫技術實踐成果

以電子製造業場景為例,使用了信服雲的數據倉庫,1萬塊圓晶晶片能夠達到秒級響應,相較於原來的幾十分鐘的分析速度,提升了用戶的檢驗效率。

在醫療場景下,對於同一套數據存儲的明細查詢性能,清理緩存之前,可以達到並發500,即使是清理緩存以後,也能達到 200 的並發,超過用戶給百級並發秒級響應的預期。



還有能源、水務、教育、日誌分析等場景,信服雲的數倉架構都提供了很好的查詢體驗,高性能的數倉組件大幅度降低了查詢的時延,能夠在千萬級事實數據下達到秒級響應的效果。

以上就是本次直播的主要內容。對於技術內容感興趣的IT朋友可以關注「深信服科技」公眾號回顧本期直播,了解更多技術內容。

關鍵字: