英偉達崔岩:更多雲服務轉向加速計算,提升數據中心能效成關鍵

澎湃新聞 發佈 2023-03-30T17:42:03.709358+00:00

·「下一波技術應用浪潮正在改變各行各業,首先是生成式人工智慧,其次是數據科學,最後是用於創建虛擬世界的元宇宙。在這一波技術應用浪潮的推動下,雲計算正在成為企業計算的標配。

·「下一波技術應用浪潮正在改變各行各業,首先是生成式人工智慧,其次是數據科學,最後是用於創建虛擬世界的元宇宙。在這一波技術應用浪潮的推動下,雲計算正在成為企業計算的標配。」

·「當企業試圖在雲計算運行這些下一代應用時,無論是私有雲還是公有雲,都面臨規模與性能、高效和彈性、電力供應限制、安全的多租戶基礎設施這四大需求和挑戰。」

英偉達DPU和DOCA技術專家崔岩談下一波技術應用浪潮。

「下一波技術應用浪潮正在改變各行各業,首先是生成式人工智慧,如最近火爆全網的ChatGPT。其次是數據科學,由數據驅動決策。最後是用於創建虛擬世界的元宇宙,並在虛擬世界中訓練人工智慧或構建工業中的數字孿生模擬。這些都需要算力才能實現大規模的運行。」3月29日,英偉達DPU和DOCA技術專家崔岩在2023國際集成電路展覽會暨研討會(IIC SH)上談到,在下一波應用浪潮的推動下,雲計算正在成為企業計算的標配。

根據Gartner的預測,到2023年,全球最終用戶在公有雲服務上的支出預計將從2022年的4903億美元增長20.7%,達到5918億美元,高於2022年預測的18.8%增長率。

雲計算面臨四大挑戰

「然而當企業試圖在雲計算運行人工智慧、數據科學或元宇宙這些下一代應用時,無論是私有雲還是公有雲,都面臨一些新的需求和挑戰。」崔岩說。

首先是規模與性能,工作負載在數據中心運行時,需要高度分布式的方式處理大量的數據和大型數據集。這些對雲計算數據中心的基礎設施、性能有嚴格要求,一個租戶的工作負載與共享相同基礎設施的其他租戶會爭搶資源,這會帶來一些問題。

其次是高效和彈性,當雲計算採用軟體定義數據中心時,就需要占用高達30%的CPU核心來運行基礎設施工作負載。而這部分被消耗的CPU核心,本可以用來運行業務程序。這導致CPU負載的效率降低,經濟性變差。

同時,隨著2022年全球電力價格的飆升,很多雲計算數據中心面臨電力供應限制、節能減排和雲服務租用成本降低等多重壓力。而且如人工智慧訓練和高性能計算等工作負載的運行,在本質上是瞬時的,雖然需要大量算力,但需要的時間較短。這就需要雲計算數據中心能夠快速、動態地重新部署資源,以響應這些需求,從而滿足租戶和工作負載不斷變化的需求,且隨時隨地可用。

最後,就是安全的多租戶基礎設施。雲計算的多租戶性質需要一個安全的多租戶基礎設施,通過部署無處不在的安全模型,來防止雲計算數據中心內部和外部的網絡攻擊,並實現快速恢復。安全已經不是一種選擇,而是業務應用所必須的。企業需要不斷評估和調整他們的安全態勢,來防範廣泛且複雜的網絡威脅。

崔岩認為,未來應對這些對雲計算的需求與挑戰,推動下一波應用浪潮,越來越多的雲服務提供商轉向加速計算。

英偉達CEO黃仁勛在上周的GTC大會上宣布,全面投產BlueField-3晶片。BlueField-3是第三代的NVIDIA DPU平台,專為下一代數據中心基礎設施構建。BlueField-3 DPU將傳統計算環境轉變為從雲端到邊緣的高性能、高效率、高安全性、可持續的數據中心。

據崔岩介紹,頭部的伺服器、OEM製造商正在將BlueField-3集成到他們的系統中,同時英偉達還將其集成到英偉達數據中心計算平台中。

降低電力成本成為數據中心主要目標

在大模型等熱門的當下,對算力的需求也大幅增長,如何提升數據中心能效更加成為一個關鍵問題。

起初數據中心關注的焦點在於,更大限度提升計算密度,縮短上市時間,以及部署冗餘系統,實現高可用性等目標上。如今大部分的數據中心都可以實現快速上線,以及通過更高可用性和計算密度來改善耗電量。「降低相關電力成本,成為優化現在數據中心和設計新數據中心的主要目標。」崔岩說。

崔岩提出,四個主要的驅動力使得能效在數據中心中變得越來越重要。第一個驅動力是電力成本上漲,且呈現出長期趨勢,全球能源需求旺盛與供應受限的相互作用不斷推動電力成本。第二是供電量的硬性限制。現有的數據中心電力輸入具有硬性限制,即使數據中心所有者有意願多支付電力費用,數據中心也無法獲得額外的電力。第三是節能減排的要求。面對氣候變化壓力,推動數據中心採用綠色環保電力,以實現雙碳的戰略目標。第四是公有雲服務商定價壓力。在電力成本不斷上漲的壓力下,公有雲服務商還要持續降低雲服務的租用成本,來應對市場的競爭壓力。

目前為了提升數據中心能效,數據中心運營商通常會採用多種策略降低數據中心的耗電量和電力成本,主要有五種策略。

第一,在電力成本更低或供應量更豐富的地區建立數據中心。這種策略可以降低電力成本,但不能降低耗電量,而且電力成本後續有可能會上漲。

第二,改善能源使用效率,也就是PUE(Power Usage Effectiveness,評價數據中心能源效率的指標),更大限度提升用於實際IT設備的電力占比。主要採用更高效的配電和UPS(一種電源保護設備,可以在電網停電或電壓異常時,通過內置電池等電源提供電力,以保持電子設備的正常運行),提高冷卻效益和更高效的照明,但不能提升伺服器的能效。

這兩種策略在電力成本上升和數據平均PUE平穩的情況下,對於持續提升數據中心能效的作用已經不顯著。

第三,通過虛擬化容器(讓多個應用程式在一個計算機系統中共享資源,提高計算機系統的利用率和性能),更大限度地提升每台伺服器的利用率,從而在同等工作負載的情況下採用更少的伺服器,但這可能會增加每台伺服器的耗電量。

第四,提高伺服器的能效,即設法降低每台伺服器的耗電量。

第五,將選定的工作負載外包給公有雲或電力成本更低的主機託管中心,但由於數據隱私和管理合規問題,不是所有的工作負載都可以進行外包。而且,公有雲服務商和主機託管中心的高能效帶來的低耗電量並不一定能惠及客戶,實現電力成本的節省。

關鍵字: