獨家對話黃仁勛:關於生成式AI、算力能耗的一些追問

與非網 發佈 2024-03-02T02:18:55.799703+00:00

過去大約每15年一波的科技潮流中,不論是PC革命、網際網路革命、雲計算、移動雲等等,每一波潮流都創建出了一個新的計算平台,新的應用程式由此產生,業界用一種新的方式對計算機進行編程。

隨著ChatGPT的爆火,黃仁勛最近頻頻強調:「我們正處於AI的iPhone時刻」。GTC上,他對媒體詳解了這一觀點的由來,在他看來——一個新的計算平台已經開發出來了。 過去大約每15年一波的科技潮流中,不論是PC革命、網際網路革命、雲計算、移動雲等等,每一波潮流都創建出了一個新的計算平台,新的應用程式由此產生,業界用一種新的方式對計算機進行編程。而這一次,ChatGPT劃時代地「使人類語言成為新的編程方式」。 「我們只需要告訴ChatGPT想要什麼,它就可以理解我們的意圖,給出令人驚嘆的結果」,黃仁勛說道,「這意味著,人們可以用任何語言『編程』,不論是英語、中文、法語、日語……人工智慧的發展正因此而變得更加通用——這是一個臨界點的時刻,也是非常重要的過渡。」

ChatGPT背後的AI超級計算機

毫無疑問,NVIDIA技術是這一波生成式 AI發展的基礎,黃仁勛講述了NVIDIA如何在變革初期就已參與進來。早在2016年,他就向OpenAI親手交付了第一台NVIDIA DGX AI超級計算機,這也是支持ChatGPT大型語言模型突破背後的引擎。

黃仁勛表示:「如果把加速計算比作曲速引擎,那麼AI就是動力來源。生成式AI的非凡能力,使得企業產生了緊迫感,他們需要重新構思產品和商業模式。」 值得一提的是,最初作為 AI 研究儀器使用的NVIDIA DGX超級計算機現已在世界各地的企業中全天候運行,用於完善數據和處理 AI。《財富》100 強企業中有一半都安裝了DGX AI超級計算機。 而隨著ChatGPT大型語言模型連接到辦公自動化、辦公應用程式和生產力應用程式等,AI將無所不在,而DGX 超級計算機將有望成為「現代AI工廠」。

無止境的算力需求下,如何實現「可持續」計算?

伴隨生成式AI的爆發式應用,一個可預見的趨勢是:AI模型、數據量將越來越大,導致所需的算力規模也越來越大。與傳統計算相比,GPU的耗電量也是業界的「吐槽點」。那麼,在這樣的趨勢下,NVIDIA如何應對能耗問題,從而符合綠色節能的可持續發展方向? 黃仁勛告訴,可持續非常重要,也是NVIDIA的關注重點。他指出,AI加速計算在當今世界的計算中只占很小一部分。事實上,在過去40年的發展中,世界上絕大多數計算都是由摩爾定律驅動的。但是,在過去5年左右,摩爾定律開始急劇放緩,這是因為我們在逼近物理學的極限,我們可以縮小電晶體,但不能縮小原子。一個隨之而來的挑戰就是:如果摩爾定律結束,世界會發生什麼? 「現在,我們需要的計算量更大了。但是,性能每提高10倍,或吞吐量提高10倍,功耗就增加10倍、成本增加10倍,這是不可持續的」,黃仁勛表示,「因此,我們首要做的一件事就是加快每一個可能的工作量。」 加速計算之所以有效,就因為它是全棧的。它發明了新的軟體、新的算法、新的晶片、新的系統,對於每個應用程式域,通過執行這樣全棧的操作,可以將計算性能顯著提升。例如在計算光刻領域,作為EDA工作中計算最密集的應用程式,加速計算可以將其性能提高50倍、功耗和成本降低近10倍。 「這就是加速計算要做的事情,一項接一項工作負載、一個接一個應用程式域」,黃仁勛表示。比如在數據中心,通過加速工作負載,就可以減少電力使用,從而可以將其轉移到新的增長中。「如果通過加速回收10倍的動力,想像一下我們有多少增長機會?」,他強調。 至於實現可持續發展的具體手段是什麼?黃仁勛強調,「第一,我們必須加快應用程式的速度;第二就是AI。」他解釋說,我們今天用於仿真模擬的方法是所謂的第一原理,它基本適用於物理定律。(註:在物理中,第一原理(First Principle)是指不需要任何經驗設定與擬合參數,只從最基本的物理定律出發,就可以推出系統的基本性質。) 就像小狗能夠跳起來接住拋到空中的球一樣,它能夠僅憑經驗就預測到球的飛行位置,訓練AI也是如此,「我們通過教AI物理定律,可以讓AI有能力將計算量減少1萬或10萬倍。一旦AI可以利用知識、利用技能來預測物理,就可以有效節省計算量,從而節約能源」,黃仁勛指出。

加速計算光刻的「iPhone時刻」

正如上文中黃仁勛提到的計算光刻應用,隨著當前生產工藝接近物理學極限,NVIDIA將加速計算引入到計算光刻領域,通過cuLitho助力ASML、TSMC和Synopsys等半導體頭部企業加速新一代晶片的設計和製造。 據了解,TSMC、Synopsys 正在將NVIDIA cuLitho 計算光刻技術軟體庫整合到最新一代 NVIDIA Hopper架構GPU的軟體、製造工藝和系統中。ASML也正在就GPU和cuLitho與NVIDIA 展開合作,並計劃在其所有計算光刻軟體產品中加入對 GPU 的支持。 在計算光刻領域引入加速計算的意義究竟是什麼? 毋庸置疑,晶片產業幾乎是每一個行業的基礎。而在半導體製造過程中,光刻技術決定著晶片電晶體的尺寸,NVIDIA cuLitho 計算光刻技術軟體庫可為2納米及更高工藝奠定基礎。 類似於在攝影中將底片上的圖像曝光到相紙上一樣,光刻工藝利用光在矽晶圓上生成表示晶片設計的圖案。計算光刻的作用就是補償因衍射或光學、抗蝕劑和蝕刻鄰近效應而導致的任何圖像誤差。藉助OPC軟體,開發者可以利用算法和數學方法以及大量仿真工作來操控光線,從而實現計算光刻過程。 這個過程涉及到利用各種各樣的「假設」場景來找到正確的配置,以儘可能地提高轉印圖案的準確性。例如,在光線周圍投射一些精心挑選的合適偽影,比如可以操控光線的襯線,可以在晶圓上生成更接近原始掩模的圖案。 計算光刻作為一項資源密集型工作,通常需要大量數據中心來處理相關計算和仿真運行。這一過程可能需要很長的時間,即使是使用最強大的計算機也是如此。與此同時,開發者希望在晶片上封裝更多的電晶體,這進一步增加了光刻的挑戰,此外,計算工作負荷也是只增不減。計算光刻的仿真環節成為該過程最耗時的部分之一,因為光刻過程中每個步驟的詳細模型都需要進行仿真。全晶片應用中可能有數百萬個Tile,因此必須具有超快的掩模合成計算速度。 為了實現所需的性能提升,將cuLitho集成到Synopsys全晶片掩模合成解決方案和Proteus ILT逆光刻技術中並進行優化,可在新一代NVIDIA Hopper架構GPU上運行。如此一來,傳統配置上需要40000個CPU的系統,僅需要500個NVIDIA DGX H100節能型GPU系統。計算光刻工藝的所有部分都可以並行運行,減少所需功耗並且運行時間從數周縮短到數天。

生成式AI需要充分的供應鏈準備

在生成式AI需求爆發式增長的背景下,黃仁勛認為,行業需要進行充分的供應鏈準備,以滿足全球對AI的需求。 為了幫助企業部署處於快速發展的生成式 AI 模型,黃仁勛發布了用於 AI 視頻、圖像生成、大型語言模型部署和推薦器推理的推理平台。這些平台將NVIDIA的全套推理軟體與最新的 NVIDIA Ada、Hopper和Grace Hopper處理器相結合,包括用於AI視頻的NVIDIA L4 Tensor Core GPU和用於大型語言模型部署的NVIDIA H100 NVL GPU。 同時,NVIDIA AI Foundations雲服務系列,也可以為需要構建、完善和運行自定義大型語言模型及生成式 AI 的客戶提供服務,加速企業使用生成式 AI 的工作。 據黃仁勛透露,會將由八塊旗艦版A100或H100晶片集成的DGX超級AI計算系統通過租賃的方式開放給企業,每月租金37000美元,以加速這輪大語言模型引領的AI浪潮。 據了解,通過與雲服務供應商合作,NVIDIA在歐美提供DGX系統AI超級計算機的能力;在中國,也有特別定製的Ampere和Hopper晶片(A800和H800),通過中國的雲服務供應商,比如阿里巴巴、騰訊、百度等企業提供落地能力。「我完全相信他們有能力去提供頂級的系統服務,對於中國初創企業來說,也一定有機會來開發自己的大語言模型」,黃仁勛表示。

寫在最後

GTC期間,黃仁勛和OpenAI聯合創始人、首席科學家Ilya Sutskever 進行了一場爐邊對話。Ilya Sutskeve感慨自己從業20餘年,看著AI從「小透明」到震驚人類:「它還是那個神經網絡,只是變得更大,在更大的數據集上以不同的方式訓練,但是訓練的基礎算法都是一樣的,這是最令我驚訝的!」 黃仁勛也感慨,「在我們相識的十多年時間裡,關於訓練的模型和數據(從AlexNet訓練到現在),已經擴大到100萬倍。在計算機科學界,當時沒有人會相信這十年間,計算量會擴大到100萬倍。」 但這就是一個正在發生的事實——由於生成式AI,訓練的規模增大了很多。而業界對於生成式AI的大量推理運用,正導致AI處於拐點。
關鍵字: