雲計算的本手、俗手和妙手

特大號 發佈 2022-06-17T05:17:53.055592+00:00

如今,雲基礎設施領域,幾乎所有的大佬都在布大局、下大棋,而在這盤大棋里,「DPU」堪稱非常關鍵的一步。我這裡所說的「DPU」,是泛指各種具備DPU類似功能和定位的加速卡或協處理器,大家的叫法雖然不同,想幹的事、想攪的局都差不多。

如今,雲基礎設施領域,幾乎所有的大佬都在布大局、下大棋,而在這盤大棋里,「DPU」堪稱非常關鍵的一步。

我這裡所說的「DPU」,是泛指各種具備DPU類似功能和定位的加速卡協處理器,大家的叫法雖然不同,想幹的事、想攪的局都差不多。

但是在實戰布局中,不同出身的棋手,下棋的路數卻大相逕庭↓

傳統處理器大廠,目標是全行業通吃,很注重產品的「通用性」,這是很合乎他們以往套路的正規下法,就像他們多年以來一代代CPU/GPU的疊代,盯住對家,一步一個腳印,如「擠牙膏」般穩健布局。

所以,這類大廠,下的是「本手」。

隨著DPU的熱炒,還有一大批獨立公司湧現出來,紛紛入局入坑,由於勢能有限,這類公司的產品往往盯住一些行業細分場景,比如資料庫加速、統一通信加速。

這個棋路,初看合理,但長線會很艱辛,定製化多,市場規模也有限。

因此,這類玩家,下的是「俗手」。

那麼,「DPU」的大棋局裡,誰有機會下出「妙手」?

我認為只有CSP雲服務商,而且是頭部的雲大廠,比如AWS和阿里雲們,才有機會走出「妙手」。

第一,無論是叫做數據中心處理器(英偉達DPU),還是叫做基礎設施處理器(英特爾IPU),最大的目標市場,都是CSP,也就是像「3A」這樣的超大雲服務商。

這說明雲服務商使用DPU是必然趨勢,但通用型的DPU能滿足各大雲商「變態」的需求嗎?顯然不能!

道理很簡單,所有的硬體基礎設施,都需要跟軟體來相互加持。傳統IT時代,跟CPU配合的是OS作業系統,當年Wintel組合就是用這種互相加持,取代了IBM的PC霸主地位。

而到了如今的雲時代,DPU這樣的新型基礎設施,必須要靠CloudOS來加持,才能發揮最大作用。

那麼雲作業系統掌握在誰手裡呢?當然是這些雲大廠們。

第二,手握CloudOS、深諳雲需求的雲大廠們,硬體能力夠格嗎?能造出靠譜的DPU來嗎?

完全不用擔心!

其實這幾年來他們一直在修煉硬體內功,AWS自研的ARM處理器已經進化到第三代了(Graviton3),而接近DPU形態的Nitro則打磨了更多年。

阿里雲也是一樣,自研的「神龍」架構其實就可以看做是DPU,去年阿里雲還發布了吊炸天的5nm工藝倚天710處理器…

不止這「兩A」,其他的雲大廠也都在悄麼聲的搞硬體、搞晶片,大家都看到了重新定義雲基礎設施、把CloudOS與底層緊耦合的機會,所以雲大廠的硬體能力,不必擔心。

再舉個極端的例子,上個月發生了件大事,博通610億美金收購了VMware,接下來,很有可能整出一個針對私有雲環境深度優化的「DPU」或者什麼怪東西出來。

博通大概率會用軟硬體的深度垂直整合,來收割私有雲市場。


私有雲都敢這麼下場,對於自主能力更強的公有雲大廠來說,水到渠成。

所以,這盤大棋,前有「本手」,後有「俗手」,而這棋中的「妙手」就是:雲大廠親手下場垂直整合,CloudOS與DPU軟硬一家親。

不過,這雖是妙手,還沒有秒到極致,頭部稍有點道行的雲大廠都在這麼琢磨。

所以,真正絕頂的棋手,要做到別人下棋看3步,他卻能看到10步。如今,這樣的超級妙手,還真讓我們等到了。

在今天舉辦的阿里雲峰會上,阿里雲宣布推出CIPU:雲基礎設施處理器。

在認真扒了扒這個「CIPU」之後,我發現,阿里雲這不僅僅是妙手,甚至是「掀桌」級別的,徹底換了玩法。在所有的雲大廠中,阿里雲搶先邁出了一大步!


為什麼說這是「掀桌式」的玩法呢?

長期以來,IT基礎架構,都是以CPU為中心的。不管是集中式的傳統IT架構,還是分布式的雲架構,CPU都是當仁不讓的老大。

即便是曾經的阿里神龍或者AWS Nitro,雖然具備了強大的卸載加速能力,但它們依然是插在伺服器里的一塊卡。

負責充當CPU老大的打手,干一些髒活累活(存儲卸載、網絡卸載、虛擬化和管理卸載)。

所以,從當前時間點往前看,整個雲基礎設施,仍然以伺服器為單位、以CPU為中心。

即便伺服器上都插了各種加速卡,但CPU是「話事人」,CloudOS想要更直接、更流暢地操控基礎設施,總有那麼一點不順滑,無法完成垂直整合。


但是,今天阿里雲CIPU發布,雲基礎設施的架構被顛覆了,從以CPU為中心,變成了以CIPU為中心。

「DPU」從以前的CPU小跟班,搖身一變當家做主了。

CIPU就是這個升格版的主人,它成為數據中心裡連接計算、存儲、網絡的中樞。

在以CIPU為中心的架構下,雲基礎設施即便物理外觀看起來還是一台台伺服器,但內部的邏輯結構和連接關係已經發生了巨變。

下圖是阿里雲給出的邏輯架構。

而我腦補的畫面是這樣的↓

在雲數據中心的一組集群里,有台插滿CIPU的「裝置」,作為中樞,把周邊的計算型節點、存儲型節點統統「納管」起來,變成了一台「超級伺服器」。

以前,虛擬化技術把單台物理伺服器化整為零,而如今,CIPU又把多台伺服器化零為整,從「一虛多」到「多合一」,整個底層完全被重構。

新體系架構下,在一個集群里,CIPU是核心「話事人」,阿里飛天OS可以更直接操控CIPU,把飛天的所有軟實力,全部裝載到CIPU里,管理平面更簡潔,加速更徹底。

以前阿里雲神龍也好,AWS Nitro也罷,加速能力相當於「外掛」,而CIPU新架構,這種加速和管控,相當於「原生」,形成了雲作業系統的垂直一體。

因此,CIPU帶來了更加吊炸天的加速體驗,我不囉嗦了,直接列一下阿里雲今天公布的官方數據吧↓

這裡面最誇張的一項,莫過於eRDMA的延時低至5.5μs,此前業界在公有雲上能拿得出手的RDMA延時,只有15.5μs。

5.5μs意味著什麼?用戶可以真正放心地把HPC工作負載放到雲上去跑了,通過雲計算,高性能計算得到了雙重普惠:①雲上超算低成本,性能無憂,更靈活的規模和彈性 ②全應用場景的加速編程生態兼容。

而一些通用場景,同樣可以考慮用eRDMA網絡來提速,根據阿里雲官方公布的數據,Redis場景提速130%,Spark場景提速30%,AI深度學習訓練場景提速30%

其它主流通用計算場景,在CIPU的加持下,性能更是得到大幅提升,全面領先於友商雲,以下數據來源於阿里雲官方↓

好了,以上就捋完了CIPU的基本特徵,那為什麼說阿里雲推出CIPU,是一招超乎尋常的「妙手」的呢?

我來總結下——

CIPU是阿里云為飛天作業系統量身訂做的,是業界第一個雲作業系統垂直軟硬一體,All in One的全新基礎設施體系架構。

CIPU將成為阿里雲基礎設施底座的中軸,對計算、存儲、網絡進行全面的雲化加速,未來,CIPU Centric的體系不僅會顛覆數據中心的邏輯架構,也會對物理架構產生深遠影響。

CIPU消除了90%以上的雲稅(雲化開銷):計算虛擬化開銷、存儲虛擬化+存算分類轉發開銷、網絡虛擬化+網絡轉發開銷、內核TCP協議棧開銷、RPC序列化&反序列化開銷。

這就好比從蒸汽機進化到內燃機,本質上是能量轉換效率的大幅提升。


對廣大雲用戶來說,大家將會享受到雲基礎設施「內燃機時代」的紅利,獲得更高性能、更高安全、更加穩定、更普惠的雲服務。

阿里雲的這招「妙手」也絕非偶得,是通過無數次軟硬體的「本手」歷練才悟到的:飛天OS「本手」、神龍「本手」、倚天「本手」、中國公有雲市場深度實踐「本手」…

苦練「本手」,不戀「俗手」,擅出「妙手」,方能贏得雲計算的大棋局!

最後一張圖,我們再來品品阿里雲的「妙手」↓

關鍵字: