Aurora成首個部署英特爾Max GPU的超算,峰值性能突破2 百億億次

雲體驗師 發佈 2023-11-20T09:36:16.666942+00:00

2023年6月25日,英特爾宣布,Aurora超級計算機在阿貢國家實驗室完成部署,可提供 2 Exaflops 的 FP64 (雙精度)算力,將成為全球首台峰值性能可達每秒計算 200 億億次的超級計算機,性能可持續穩定在1 Exaflops 的 FP64的水平。

2023年6月25日,英特爾宣布,Aurora超級計算機在阿貢國家實驗室完成部署,可提供 2 Exaflops 的 FP64 (雙精度)算力,將成為全球首台峰值性能可達每秒計算 200 億億次的超級計算機,性能可持續穩定在1 Exaflops 的 FP64的水平。

Aurora是第一個部署英特爾數據中心GPU Max系列的超級計算機,也是世界上最大的基於至強Max CPU的系統,同時,也擁有目前世界上最大的GPU集群。

Aurora超級計算機是英特爾、慧與(HPE)和美國能源部(DOE)的合作項目,設計目標是發揮高性能計算機在模擬、數據分析和人工智慧方面的巨大潛力。

Aurora的各項參數都非常驚人。

Aurora擁有10624個刀片伺服器節點,每個刀片配備兩個具有HBM的英特爾至強CPU Max系列處理器,還有六個英特爾數據中心Max系列GPU。

也就是說,Aurora有21248 個英特爾至強CPU Max系列處理器,提供總計11萬個核心。還有63744個用於處理AI和HPC工作負載的英特爾數據中心Max 系列 GPU。

英特爾數據中心Max系列 GPU主要用於高性能計算和AI場景,測試結果顯示,它在實際的科學和工程工作負載上優勢明顯,如在OpenMC上的性能是AMD MI250X GPU的2倍,並且,它還可以近乎線性地擴展到數百個節點。

英特爾Xeon Max系列CPU是唯一一款將HBM放到了x86處理器上的處理器,在許多實際的高性能計算工作負載上,比如地球系統建模、能源和製造領域 ,比競爭對手的性能高40%。

存儲方面。Aurora集成了超過1024個存儲節點,存儲系統使用的是英特爾開源的分布式異步對象存儲(DAOS),提供220 PB的容量,31 TB/s的帶寬,並利用了HPE Slingshot高性能網絡。

高性能的存儲對於處理涉及大量數據集的工作負載,如核聚變研究、科學工程、物理模擬、天氣預測和其他任務都非常有用。

從應對氣候變化,到研發治病藥物,科研人員都需要動用大量計算資源。Aurora可用於滿足高性能計算和AI的需求,作為推動科學技術突破的關鍵工具。

預計今年TOP500榜單,Aurora將占有重要的一個席位。

「在進行驗收測試時,我們將使用Aurora來訓練一些大規模的用於科學研究的開源生成AI模型,」 阿貢國家實驗室副實驗室主任Rick Stevens說道。」Aurora擁有超過60,000個英特爾Max GPU,一個非常快的I/O系統,還有一個全快閃記憶體的大規模存儲系統,是訓練模型的理想環境。」

Aurora所使用的刀片伺服器各個部件,從處理器、內存、網絡再到冷卻技術,都非常先進。每台刀片包含兩個英特爾至強Max系列CPU和六個英特爾數據中心Max系列GPU。

此前,Xeon Max系列在Sunspot上展示出了很好的性能表現,Sunspot是具有與Aurora相同架構的測試和開發系統。開發者可以利用oneAPI和AI工具來加速HPC和AI工作負載,並提高代碼在多種架構上的可移植性。

刀片伺服器的安裝也是一個非常精細的活兒。

每個重達70磅的刀片伺服器都需要專用的機器吊裝到冰箱大小的機架中。Aurora有166個機架,每個機架可容納64個刀片,整套系統占地大約兩個專業籃球場的空間。

部署完成後,科研人員就能將應用從測試平台Sunspot上遷移進來,將應用放置到整個系統上來運行。

隨著GPU在高性能計算和AI方面的優勢逐步顯現,英特爾開始發展GPU技術路線。

2022年底和2023年初,英特爾發布了數據中心 GPU Max系列,開始向阿貢國家實驗室交付,如今正式完成了安裝。

Aurora貢獻了好幾個里程碑,它是工業界首台性能超過2 ExaFLOPS的超級計算機,也是第一台基於英特爾的ExaFLOPS級別的超級計算機,標誌著超算時代的一個重要里程碑。

關鍵字: