「篳路藍縷,以啟山林」,Arm伺服器生態掀第三波發展浪潮

eet電子工程專輯 發佈 2020-04-28T14:28:59+00:00

Marvell半導體公司副總裁及伺服器處理器部總經理GopalHegde認為,Arm伺服器生態日益繁榮的原因,是最終用戶發現Arm加速應用的時機已經成熟,才會有越來越多的人投入。

2018年10月,Arm推出專為5G網絡和下一代雲端到邊緣基礎設施創立的全新基礎設施級IP—Neoverse,這被業界視作是「Arm伺服器生態第三波浪潮」的標誌性事件。從那之後,短短的一年半時間內,華為基於鯤鵬920的泰山(TaiShan)伺服器、飛騰FT-1500A/FT-2000/FT-2000+ CPU產品、Marvell ThunderX3處理器、亞馬遜(AWS)Graviton2處理器、Ampere Altra處理器、法國晶片初創企業SiPearl用於百億億級超級計算機原型機的代號為「Rhea」的處理器晶片等,如「雨後春筍」般相繼面世。

「滾雪球」效應

伺服器是一個跟生態密切相關的業務。Marvell半導體公司副總裁及伺服器處理器部總經理Gopal Hegde認為,Arm伺服器生態日益繁榮的原因,是最終用戶發現Arm加速應用的時機已經成熟,才會有越來越多的人投入。「生態層面其實是一種『滾雪球』效應,滾到一定地步就會自己越滾越大。」他說。

以Marvell ThunderX2為例,自從2018年推出以來,在超算(HPC)、雲端(CLOUD)和邊緣計算(EDGE)三大市場的部署進度不斷加速,得到了諸多OEM廠商和平台、IHV硬體廠商、作業系統和固件、中間件、應用和工具的支持,目前生態系統覆蓋已超過100家合作夥伴企業。例如微軟正為Azure部署基於ThunderX2的量產級伺服器,也公開表態未來可能有40%-50%的量遷移到Arm平台上;ThunderX2系列伺服器處理器已實現對NVIDIA GPU的支持,將進一步滿足HPC 和遊戲應用的需求;超算領域,隸屬於美國能源部的勞倫斯·利弗莫爾(Lawrence Livermore)、桑迪亞(Sandia)和橡樹嶺(Oak Ridge)國家實驗室,英國萊斯特大學(University of Leicester)等都採用了ThunderX2處理器。

Gopal Hegde認為,儘管超算、雲端計算和邊緣計算三大市場有各自不同的需求和側重點,但其實還有很多事情是貫通的。一個典型案例就是浮點運算,以前浮點運算更多應用在超算領域,但隨著AI和機器學習的出現,雲端對浮點運算的要求也非常高。而且超算在包括架構在內的很多領域是領先於雲端的,很多理念在超算應用中實現之後,過一段時間才會選擇性的推到雲上。

而在Marvell半導體公司伺服器處理器部產品營銷高級總監周立新看來,如今數據中心已從對單線程性能的關注轉向對機架級別性能的關注,其中性能功耗比、性能成本比和TCO(總擁有成本)是部署考慮的三大關鍵因素。因此,數據中心開始採用專為特定工作負載而定製的伺服器。

從應用場景看,當前的數據中心除了繼續強調單線程性能外,同樣強調並行處理能力,由於部署規模日益龐大,成本、功耗成為與性能並重的考慮因素,這也是市場上青睞Arm這樣低功耗、低成本設計處理器的原因;從架構層面來看,之前傳統的軟體有很多都是由第三方提供的,比如Oracle提供資料庫,但很多客戶沒有原始碼。但隨著GPU、異構計算架構的不斷湧現,一些超大規模數據中心的工作負載和應用不但開始提供有原始碼,還允許改變原始碼和程序來加速創新能力,這也給ARM伺服器的引入帶來了方便,可以更輕鬆應對兼容性問題。

英特爾和AMD也給了Arm機會。按照Gopal Hegde的說法,英特爾領先的晶圓製造能力是其能長期稱霸伺服器晶片市場的原因,但最近幾年,他們在製造工藝上落後了。Arm伺服器晶片廠商的主要合作夥伴台積電則高歌猛進,在拉開與Intel差距的同時,給了Arm伺服器新的機會;AMD雖然憑藉EPYC架構重返伺服器市場,ROME系列也受到了客戶的高度認可,但其架構在延遲、帶寬和功耗等方面存在弊端。

但Gopal Hegde不認為Arm伺服器會與x86展開全面競爭,目前來看,生態成熟且成長迅速的超算和雲端領域會是Marvell發力的方向,企業級市場不會有進入的想法。

上新了,ThunderX

2014年,Cavium(後被Marvell以60億美元的價格收購)推出了基於Arm架構設計的伺服器晶片ThunderX,這是全球首款至強E5級別的 Arm 伺服器晶片,也是當時業界唯一的能支持雙路架構的Arm伺服器晶片,產品擁有最多高達48個的定製Armv8內核和最多472位DDR3/4內存控制器等優勢,對存儲、網絡和安全等進行了特定的優化。

此後,Marvell為自己的ThunderX系列制定了每2年升級一代的策略,承諾每次都可以實現2倍甚至更高的性能提升。2018年7月,新一代Arm伺服器晶片ThunderX2正式量產,採用16nm工藝打造的晶片集成了32個ARMv8.1亂序執行核心,每個晶片擁有四個線程。在內存方面,支持最多8條DDR4,頻率高達2667MHz,也支持高達56條的PCIe 3.0通道擴展。

相比上一代ThunderX2,最新推出的ThunderX3處理器採用台積電(TSMC)7P製程工藝製造,擁有高達96個核, 4線程/核心,每個插槽的總計算能力達到384線程。內存接口支持8通道DDR4-3200,每個通道可搭載2個DIMM。IO擴展提供了64個PCIe Gen 4.0通道,搭載16個控制器。該處理器支持單節點和雙節點配置。在浮點運算方面,ThunderX3的每個核心搭載四個128 位SIMD (Neon)單元。該設備完全符合SBSA/SBBR,並提供了企業級的RAS和虛擬化功能。

得益於中微架構的改進,ThunderX3 IPC的整體性能較ThunderX2提高25%。結合處理器頻率和DDR頻率的提升,單線程總體性能較上一代提高了60%以上。在單顆處理器層面,相較於 ThunderX2,ThunderX3的整數運算性能提升3倍以上,浮點運算性能提升5倍以上。

目前,ThunderX3在設計中尚未採用chiplet的設計方式,周立新對此解釋說,公司會根據市場的發展需求提升晶片的規格,ThunderX3每個內核的尺寸比AMD的約小30%左右,性能、功耗、內存帶寬和內存延遲等方面的表現也令人滿意。但未來隨著工藝和架構的不斷演進,再小的內核遲早也會遇到物理瓶頸,那時可能就會考慮Chiplet方案。

ThunderX3 的目標市場仍然是雲計算和HPC高性能運算市場中的特定工作負載(如大數據、資料庫、流媒體、Web 層、彈性搜索和雲存儲)。考慮到其本質上是高度並行,周立新認為,單核支持4個超線程,不僅能夠帶來顯著的性能提高,更重要的是,無論是x86架構還是其它Arm處理器,目前都沒有實現,ThunderX3在這方面實現了「數量級的差異」。

至於四線程與單線程相比,究竟能帶來哪些優勢?他認為可以從以下三方面來看:一是SPECCPU,這是最標準的衡量伺服器的指標;二是MySQL資料庫;三是Web搜索。根據測算,四線程比單線程有顯著的性能提升,特別是MySQL,可以提高80%的性能。

Gopal Hegde特彆強調了Thunder X3對Arm終端上原生Arm應用程式的支持。他指出,現在廠商開始逐漸把遊戲和應用放到伺服器上,考慮到現在的終端基本都是一樣基於Arm晶片設計的,那就意味著X86在相關的支持上會有先天的缺陷,而這正是Arm伺服器晶片所擅長的。

關鍵字: