MaxCompute2.0 助力眾安保險快速成長

阿里雲官網 發佈 2020-03-05T01:59:27+00:00

摘要:2017雲棲大會阿里雲大數據計算服務(MaxCompute)專場,眾安保險數據總監王超群帶來MaxCompute助力眾安保險方面的演講。

摘要:2017雲棲大會阿里雲大數據計算服務(MaxCompute)專場,眾安保險數據總監王超群帶來MaxCompute助力眾安保險方面的演講。本文主要從MaxCompute優勢開始談起,進而談及大數據能夠為公司運營帶來的好處,最後重點分析了眾安保險的數據平台建設,包括任務調度、元數據和數據質量監控等。

以下是精彩內容整理:

眾安保險作為國內第一家網際網路公司,我們從創立之初計算平台就使用MaxCompute。

為什麼會選擇MaxCompute?

成立之初我們也在自建平台和MaxCompute上作出了選擇,我們主要從五方面考慮:健壯性、與應用系統交互、擴展性、強數據安全和低成本。

健壯性:7*24的服務能力、異常恢復時長;

與應用系統交互:數據源的獲取與數據輸出效率和成本;

擴展性:當數據成倍增長時,計算能力彈性;

數據安全:數據異常攻擊防護,提供多層沙箱防護及權限體系;

成本:自建成本和MaxCompute成本對比。

首先,2013年能夠提供完整能力的計算平台並不是很多,MaxCompute孵化於阿里金融的生產系統驗證後對外輸出,支持5000台以上的計算能力,滿足我們對彈性和擴展性的要求;其次,我們對阿里雲專業能力的信任,可以看到阿里雲在國內的計算份額遙遙領先;最後,MaxCompute不僅僅是一個計算平台,它還提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)開發工具,這會降低我們最初加工開發過程中的開發成本。

大數據能給公司運營帶來哪些顛覆?

雲計算和大數據整體生態鏈的發展如圖,國內雲計算年增長率超60%,AWS新增功能數可觀,雲計算正日益接近生活,從hadoop誕生以來,十年間產品豐富性大大增加,生態圈越來越大。


大數據不僅僅在於它的工具、平台和生態圈,更在於它能夠賦能於人、場景,通過賦能支持生態發展,阿里每天都有上萬人在使用MaxCompute在工作,大數據是對人賦能創造的新職業,反過來從業者也會反饋大數據,豐富大數據的場景,在十年的發展中,人和資源的投入也在反饋結果,同時還有資本的良性回報繼續投入大數據行業,形成閉環。



眾安是一家以保險為核心的公司,我們提供跨生態的連接,與各個子行業進行跨生態合作,包括電商、3C、汽車等,這些產品打通了各個生態夥伴同時也會增加我們對用戶的接觸,通過與300多個生態夥伴的合作,我們積累了大量用戶數據及信息。最終,我們希望眾安既能服務這些生態,又能通過數據積累、客戶積累、品牌積累來做大做強眾安自己的開放平台。

截至到2016年底,我們服務的用戶為4.92億,保單數72億,為中國網際網路的新生代提供了第一張保單。其中,30歲以下人群大約占比50%,說明眾安保險代表這新的生活理念方式,而且這群人群有著充足的資產生產能力,他們對保險的認可度和意識是更高的,他們是將來的消費主力。

眾安保險的數據平台建設

每串數字後面都是公司全體員工努力的結果,那麼,基於MaxCompute數據平台做了哪些事情呢?怎樣支撐業務快速發展?



數據平台分為平台工具、數據監控和數據服務。數據本身是有多源異構數據,數據價值體現在於它的流動性和開放性,只有把數據經過加工、質檢提供到用戶手中,才能產生價值。平台工具包括MaxCompute、數據同步、任務調度和計算存儲管理;數據監控有預警系統、元數據、血緣關係和數據質量;數據服務包括數據門戶、自助取數和服務API。


任務調度系統



任務調度本質上是要完成數據加工工作流的狀態,數據加工是一個多鏈路的過程,如何保證數據順序的正確性,我們支持日、周、月等不同周期調度,支持分組優先級,支持小時任務,支持自定義時間調度,日任務量超1W。

任務調度是一個有向圖,每一個節點都可以看到來源數據是非常多的,紅色數據代表出錯狀態,藍色代表成功,綠色代表正在運行,黃色是存在的狀態。不同任務加工來源於很多的數據源,就會給我們帶來困惑,如果信息出現錯誤,那麼到底是自身任務出錯還是上游數據源結果引來的問題呢?那麼,怎麼讓開發更快的定位問題,減輕開發成本,提供統一口徑?我們通過元數據來解決。


元數據



數據包括打通數據和數據間關係,利於模型優化和異常定位,打通數據與人之間的關係,利於成本優化。數據關係包括數據字典信息、血緣信息、存儲和產出信息、表責任人信息和業務元數據信息,推動存儲計算優化來降低MaxCompute使用成本。

左圖為數據間的基本信息,還有數據產出信息、血緣關係;右圖展示表的來源,輸出會影響下一輪哪些表,獲取信息以後,我們會把數據和數據之間打通,人和數據之間打通。



存儲優化後成本下降了30%,通過存儲計算優化降低無效存儲,計算效率會提升。


數據質量監控


數據質量監控通過切片方式嵌入到任務自身執行狀態中,執行任務的自處理,自己判定自己的狀態,基於規則與模板驗證數據的準確性,只有Ok才會被下游使用,這樣避免了數據污染,自身暴露錯誤不依賴於下游。它的特點是利用MaxCompute的統計項收集功能,規則是統計項規則,包含表和欄位級別,模板為規則+周期+統計函數的整合,把事後監控變為事中監控,支持用戶自定義,覆蓋重點任務,覆蓋率30%。


數據服務與安全

在消費時,我們會去考慮哪些東西呢?數據是要開放和流通的,在開放和流通中我們還要小心什麼?數據泄露和安全都會導致公司的災難。


在技術上,我們基於ACL與角色管理,賦予不同等級,我們做了表和欄位級別的權限等級控制,建立敏感信息掩碼、涉密信息的加密審批流程,開放與安全,基於技術控制和流程控制,各種角色需要數據。開放基礎是安全控制,開放關鍵在流程管理,我們在開放與安全間做平衡。


在數據平台的建設中,要保持可用、易用、適用三個階段,需要經歷多次疊代升級系統。數據即服務,要滿足用戶不同的數據需求,數據是基礎設施,每家公司都面臨數據平台的搭建和使用。


MaxCompute生態的豐富,資源與工具的共享,對挖掘算法的深入及支持都可強大到滿足我們的使用需求,我們可以有更多時間去接觸用戶,為用戶創造價值。MaxCompute成本也在逐步下降。未來,希望MaxCompute提供更多種模式支持,包括UDF\資源庫如IP庫,包括挖掘的python算法包、人工智慧平台支持。



MaxCompute招聘信息:DT時代,與堅持夢想者同行!


阿里巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/


---阿里大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……

更多行業上雲案例敬請關注【阿里云云棲號】

本文為阿里雲原創內容,未經允許不得轉載。

關鍵字: