中科曙光「綠色數據(算力)中心」的節能新突破

每日經濟新聞 發佈 2024-05-08T03:26:26.227516+00:00

每經記者:范芊芊 每經編輯:文多在電影《流浪地球2》中,出現了一台「2058年的計算機」,它可滿足數萬座發動機協同運作,並支撐「數字生命」計劃所需算力。這台新型計算機的「原型」來源於中科曙光還未正式發布的「缸式」新型浸沒液冷計算機。

每經記者:范芊芊 每經編輯:文多

在電影《流浪地球2》中,出現了一台「2058年的計算機」,它可滿足數萬座發動機協同運作,並支撐「數字生命」計劃所需算力。這台新型計算機的「原型」來源於中科曙光還未正式發布的「缸式」新型浸沒液冷計算機。中科曙光及旗下公司曙光數創在液冷技術領域已探索多年,這一技術目前被廣泛用於構建綠色數據(算力)中心。

計算、存儲、網絡被稱為數據中心的三大IT基礎設施,也是數據中心耗電量的重要來源,為了解決數據中心節能減碳問題,中科曙光旗下公司曙光數創推出浸沒式相變液冷方案為伺服器「降溫」。去年,中科曙光則推出了曙光ParaStor液冷存儲系統為存儲器「降溫」,打造存算一棧式液冷方案。

目前,由中科曙光參與建設的眾多液冷數據中心,一年節省電能達2億度,節省的這些電能可滿足12.5萬個中國家庭全年用電,相當於減少66157噸二氧化碳的排放。

數據中心究竟有多耗電?

國家「東數西算」工程啟動已有一年,全國各地的數據中心項目正在緊鑼密鼓地建設中,以滿足數字經濟時代日益增長的算力需求。作為新基建的重要組成部分,算力已經成為拉動數字經濟增長的一輛重要馬車,是新的生產力。

但與此同時,數據中心也被業內稱為耗電大戶。中國電子技術標準化研究院數據顯示,2021年全國數據中心能源消耗達到2166億千瓦時,這相當於超1億個中國家庭的全年用電量。在「雙碳」戰略目標的背景下,如何在保障數據中心穩定高效運營的前提下節能減排,成為業界和學界研究的重點。

數據中心為何耗電量大?在曙光雲計算集團首席戰略架構師王建波看來,數據中心的耗電體現在兩個方面,一方面是數據中心所承載的提供算力服務的IT設備,另一方面則是保障IT設備穩定運行的製冷設備。

伺服器、存儲、網絡被稱為數據中心基礎設施的三大件。在一座超大型數據中心裡,數層高樓,數千平方米的土地上,僅密密麻麻排列著的伺服器就數以萬計,這些設備24小時不停歇運行,以支撐上游應用場景,其中一張提供算力的GPU卡的功率都有幾百瓦,可想而知一座數據中心的能耗量是一個天文數字。

隨著應用場景對算力的種類數量和質量精度等要求越來越高,伺服器的耗電量將越來越大。王建波告訴記者,(伺服器)處理性能越強,集成度越高,耗電量同樣也就越大,這是一種相輔相成的關係。「例如一塊單晶矽片上集成的數字電路越密集,其處理能力越強,但耗電量也越大。」

保障IT設備穩定運行的其他設備則包括除濕、散熱等設備。在業內,為了精準計算數據中心的能源利用率,將數據中心消耗的所有能源與IT負載消耗的能源的比值稱為PUE(Power Usage Effectiveness),PUE值越低,意味著能源利用率越高。

要實現數據中心的節能減排,則要從降低PUE值來入手。工信部印發的《新型數據中心發展三年行動計劃(2021-2023年)》中,明確指出到2023年底,新建大型及以上數據中心PUE降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下。

如何給伺服器「降溫」?

那麼如何降低數據中心PUE值?耗電量最大的伺服器是節能降碳的重點,冷卻則是關鍵一環,一方面高溫可能會使伺服器停止運行,另一方面溫度越高則意味著降溫需要消耗的電量越大。「數據中心製冷主要有幾種方式,如風冷、液冷等,其中PUE達到1.1以下的基本依靠液冷。」王建波告訴記者。

所謂液冷,是指用流動液體將計算機內部元器件產生的熱量傳遞到計算機外,以保證計算機工作在安全溫度範圍內的一種冷卻方法,目前液冷技術分為冷板式、噴灑式和浸沒式。

早在2011年,中科曙光便開始節能液冷技術的探索與研究,其浸沒式相變液體方案被應用於全國多個數據中心。

在成都中科曙光參建的一座「綠色數據中心」,機房的伺服器就採用了曙光數創的浸沒式相變液冷方案。記者了解到,包含CPU(中央處理器)、GPU(圖形處理器)等元器件在內的伺服器被直接浸沒在一種電子氟化液中,不斷冒出沸騰的小氣泡,這些小氣泡帶著熱量進入裝有冷水的冷卻裝置,待溫度下降後再循環回到伺服器,而吸收了熱量的熱水則隨著管道進入外部的冷卻塔。

所謂浸沒式相變液冷方案,關鍵詞是「浸沒」和「相變」。王建波告訴記者,區別於冷板式液冷,浸沒式相變液冷方案不是將散熱最多的關鍵元器件放入液體中,而是將伺服器整體浸沒在液體中。相變則是指物質狀態發生改變,高溫使上述電子氟化液在50攝氏度左右便沸騰轉化為氣體,繼而與冷水進行熱交換。

上述散熱方式能帶來哪些益處呢?一方面由於上述液態高分子材料沸點較低,該解決方案可使CPU等主要晶片運行溫度下降10攝氏度左右,從而額外帶來10%~30%的應用性能提升,同時溫度變化幅度減小,也提升了數據中心運行的穩定可靠性;另一方面該解決方案去掉了空調系統以及對應的風冷基礎設施,建設成本降低,使數據中心實現全年自然冷卻,風扇風機能耗降低接近100%,相較於風冷總能耗降低約30%。

另外,區別於其他液冷技術,由於將伺服器整體浸沒,以及採用氣體的形式帶走熱量,浸沒式相變液冷方案採用高密度部署,可為機房節省85%左右的空間。這也就意味著同樣面積的機房內能夠放置更多的伺服器,從而提高運算效率,同樣數量的伺服器則可以放置在更小的空間內,從而降低能耗。

王建波舉例說,例如原來(一定數量的伺服器)需要放在五層樓里,每層樓需要放置照明燈、空調等,採用上述方案現在可以放在兩層樓里,就可以節約三層樓的電力開銷。

如何給存儲系統「降溫」、給生產節能降耗?

除了伺服器,存儲系統同樣是數據中心耗電量較大的設備。中國數據中心節能委員會的一項研究表明,數據中心IT設備系統所產生的功耗中,伺服器系統約占50%,存儲系統約占35%。因此,存算一棧式液冷方案成為實現數據中心「深度綠色化」的關鍵一環。

為此,中科曙光在去年推出了曙光ParaStor液冷存儲系統,這也是業內首個液冷存儲系統,其將冷板液冷方案與存儲技術結合。相比風冷模式,液冷存儲系統性能提升超過20%,以EB級單位存儲設施的耗電量為例,相比風冷模式,採用液冷存儲一年可節電450萬千瓦時,減少1493噸二氧化碳排放。

相較於伺服器,內存、機械硬碟等存儲關鍵部件採用液冷方案的難點在哪兒?王建波告訴記者,通用的電子元器件要放到一種液體裡,而且要支持熱插拔(帶電插拔),其中有很多技術性的突破。「比如我把CPU內存儲器取下來,取下來之後口要儘快封閉,否則就連電了,在插拔一瞬間還不能讓液體進去,這裡面都有很多突破性的設計。」

例如,中科曙光所設計的液冷存儲方案中,在硬體設計時,保證硬碟盤盒與液冷箱體的接觸面積滿足機械硬碟的散熱需求,並且硬碟的插拔操作不會帶來散熱接觸面的變化,增加了液冷循環系統後,仍能保持硬碟的獨立熱插拔。

從計算與存儲兩個維度助力數據中心行業綠色低碳、節能減排的同時,中科曙光在自身產品的生產方面同樣注重綠色節能。

據悉,曙光智能製造基地從產品設計開發、原材料選用、生產工藝驗證、包裝優化到回收利用全面貫徹綠色製造理念,不良品率、運營成本較早先生產線分別下降了20%、33%,單位產值能耗降低30%。

王建波告訴記者,基地全部採用無燈工廠,機器人生產作業,生產可靠性提升。據了解,基地採用先進的國產機器人和數字孿生技術實現自動化生產和智能監控,工廠自動化率達95%以上,平均每90秒便可組裝一台高端伺服器產品。

(實習生羅藝對本文亦有貢獻)

每日經濟新聞

關鍵字: