智算中心跨越「山丘」:怎樣才能建好、用好?

特大號 發佈 2023-01-17T21:13:05.641710+00:00

前不久,OpenAI 的聊天機器人ChatGPT霸屏AI圈,上知天文,下知地理,還能替人編程寫代碼。其強大的「腦力」,再度刷新了人們對於人工智慧的認知。實際上, ChatGPT是微調後的GPT-3.

前不久,OpenAI 的聊天機器人ChatGPT霸屏AI圈,上知天文,下知地理,還能替人編程寫代碼。其強大的「腦力」,再度刷新了人們對於人工智慧的認知。

實際上, ChatGPT是微調後的GPT-3.5系列模型,有著多達1750億個模型參數,其訓練的總算力消耗約3640PF-days,即每秒進行一千萬億次計算,不間斷運行3640天。

可見ChatGPT的出圈,與「大算力」支撐密不可分。

根據羅蘭貝格報告顯示,2030年人工智慧的算力需求將是2018年的算力需求的390倍。

而承載這種需求的主要「發電機」就是智算中心……

1月10日,國家工業信息安全發展研究中心舉辦研討會,並發布《智能計算中心2.0時代展望報告》(以下簡稱報告)。

這份帶有「國」字含義的報告,重點揭示了智算中心在不同時期的發展特徵、挑戰和趨勢,

為後續智能算力基礎設施的建設給出清晰指南。

智算中心如何越過眼前的「山丘」

當前包括長沙、南京、合肥等一共全國30多個城市業已加入智算中心建設的浪潮,動輒超百P的AI算力,不斷刷新著城市級計算中心的算力規模。

這也印證了,智算中心愈發成為面向未來的「護城河」。

《報告》以2022年「十四五」規劃及行業政策的陸續出台為分界點,將智算中心的發展劃分為高速擴張1.0 階段與行業引導2.0 階段。

在智算中心「下餃子」的1.0時代,很多問題都暴露了出來,比如,作為一項基礎的公共產品還遠未達到行行能用、行行通用的地步,部分存在「算力偏科」的問題,體現為算力類型、精度單一,不能滿足多產業、多領域對融合算力的需求。

此外,不同晶片平台、算法模型、資料庫、應用層面的垂直一體化孤島現象也時有發生,軟硬體兼容性問題亟待改進。

下一步,智算中心的發展如何能越過擺在面前的這些檻?

對照這些亟待解決的課題,《報告》從需求端倒推,給出了智算中心「有序發展」2.0階段的一系列新內涵。除強調了普惠、綠色、安全等重要性外,還有兩個更為矚目的關鍵點:算力多元化、產業協同化。

算力多元化:隨著AI應用越來越普及,產業逐漸發現自己的算力需求無法被「AI計算」四個字一言以蔽之。模型訓練、邊緣推理、數值模擬,不同的場景需要智算中心提供不同的算力。智算中心需要利用CPU與GPU等加速晶片的異構重合,實現「高精度通用算力+低精度專用算力」的全精度融合供應。

產業協同化:在AI模型、AI開發平台和AI框架層出不窮的當下,應用AI的企業在軟硬體上也擁有了更多選擇。面對AI生態的百花齊放,智算中心也需要有足夠的適用性,才能降低遷移應用門檻。這就要求產業上下游的緊密協同,使不同品類、不同技術路線的晶片、算法、模型、應用等要素實現「橫向」兼容、「縱向」耦合。

以範本推動行業進程,為什麼是曙光?

為讓智算中心建好、用好,《報告》中還給出了一些在當下智算中心建設方面比較領先的示範性案例。

其中,曙光、騰訊、聯想等都有領先的實踐被寫入報告,但相較而言,曙光是被點名最高頻的企業。像是曙光5A級智算中心、浸沒式相變液冷技術、全國一體化算力服務平台等,都被收錄進報告,成為智算中心2.0時代的先鋒實踐和示範樣板。

為什麼是曙光呢?我們從以下幾個方面來看:

首先是技術前瞻

曙光脫身與中科院計算所,一直專注深耕計算領域,是智算中心建設早期入局者,覆蓋了從硬體到軟體、從建設模式到應用服務、從先進理念到實踐經驗。

2021年,其提出的「開放、融合、綠色、普惠、服務」的5A智算中心建設方案,與《報告》給出的2.0階段發展理念不謀而合,領先於行業一個身位。

拿其中的綠色來說,5A智算中心應用了浸沒式相變液冷卻技術,可使核心系統PUE降至1.04,這也是目前業內最高水平。

其實,曙光早在2011年便開始布局液冷技術。作為國內該項技術的開創者,曙光冷板式、浸沒式液冷伺服器技術及其產業化水平在國內乃至全球處於領先水平。

其次是理念開放

智算中心的可用、好用歸根結底來自於架構的開放,基礎層、框架層、應用層多品類、多技術路線的並行耦合,有利於降低遷移適配門檻,增強算力底座易用性。

在這點上,相較同類廠商,曙光也是不折不扣的倡導者和踐行者。報告中也提到,中科曙光5A級智算中心通過硬體、算法、框架、模型的全面開放、兼容,實現多技術路線並存,支持業內主流的框架、模型,滿足科學計算、工程計算等多元場景需求。

並且在過去幾年,曙光還籌建一個足夠大的產業生態,充分調動起政、產、學、研、用各方力量。

與百度、深勢科技、復旦大學等業內頂尖企業及科研院所深度合作,形成了諸多聯合解決方案,攻克類腦智能、基因技術、自動駕駛多個前沿課題,加速 AI 走向規模化應用。

最後是算力多樣

眾所周知,曙光在計算領域頗有建樹。基於此,其對計算需求的感知度更為敏感。5A智算中心在早期便通過異構體系,實現全精度多樣性算力供應,滿足不同應用場景和多類型用戶的需求。

在將多元化算力的價值釋放給產業的同時,也成為率先攻克「算力偏科」難題的範本。

目前,在運營中的合肥、長沙等地中心,已為科學研究、工業製造、政務服務等諸多領域提供重要支撐,助力藥物研發、材料解析等近百項突破成果登上《Science》雜誌。

通過三方面的拆解,不難發現,曙光抓住的,不僅是對智算中心發展的精準預判,更是各個城市渴望發展數字經濟、推動產業智能化升級的機會……

關鍵字: