獨家對話黃仁勛：關於生成式AI、算力能耗的一些追問

隨著ChatGPT的爆火，黃仁勛最近頻頻強調：「我們正處於AI的iPhone時刻」。GTC上，他對媒體詳解了這一觀點的由來，在他看來——一個新的計算平台已經開發出來了。過去大約每15年一波的科技潮流中，不論是PC革命、網際網路革命、雲計算、移動雲等等，每一波潮流都創建出了一個新的計算平台，新的應用程式由此產生，業界用一種新的方式對計算機進行編程。而這一次，ChatGPT劃時代地「使人類語言成為新的編程方式」。「我們只需要告訴ChatGPT想要什麼，它就可以理解我們的意圖，給出令人驚嘆的結果」，黃仁勛說道，「這意味著，人們可以用任何語言『編程』，不論是英語、中文、法語、日語……人工智慧的發展正因此而變得更加通用——這是一個臨界點的時刻，也是非常重要的過渡。」

ChatGPT背後的AI超級計算機

毫無疑問，NVIDIA技術是這一波生成式 AI發展的基礎，黃仁勛講述了NVIDIA如何在變革初期就已參與進來。早在2016年，他就向OpenAI親手交付了第一台NVIDIA DGX AI超級計算機，這也是支持ChatGPT大型語言模型突破背後的引擎。

黃仁勛表示：「如果把加速計算比作曲速引擎，那麼AI就是動力來源。生成式AI的非凡能力，使得企業產生了緊迫感，他們需要重新構思產品和商業模式。」值得一提的是，最初作為 AI 研究儀器使用的NVIDIA DGX超級計算機現已在世界各地的企業中全天候運行，用於完善數據和處理 AI。《財富》100 強企業中有一半都安裝了DGX AI超級計算機。而隨著ChatGPT大型語言模型連接到辦公自動化、辦公應用程式和生產力應用程式等，AI將無所不在，而DGX 超級計算機將有望成為「現代AI工廠」。

無止境的算力需求下，如何實現「可持續」計算？

伴隨生成式AI的爆發式應用，一個可預見的趨勢是：AI模型、數據量將越來越大，導致所需的算力規模也越來越大。與傳統計算相比，GPU的耗電量也是業界的「吐槽點」。那麼，在這樣的趨勢下，NVIDIA如何應對能耗問題，從而符合綠色節能的可持續發展方向？黃仁勛告訴，可持續非常重要，也是NVIDIA的關注重點。他指出，AI加速計算在當今世界的計算中只占很小一部分。事實上，在過去40年的發展中，世界上絕大多數計算都是由摩爾定律驅動的。但是，在過去5年左右，摩爾定律開始急劇放緩，這是因為我們在逼近物理學的極限，我們可以縮小電晶體，但不能縮小原子。一個隨之而來的挑戰就是：如果摩爾定律結束，世界會發生什麼？「現在，我們需要的計算量更大了。但是，性能每提高10倍，或吞吐量提高10倍，功耗就增加10倍、成本增加10倍，這是不可持續的」，黃仁勛表示，「因此，我們首要做的一件事就是加快每一個可能的工作量。」加速計算之所以有效，就因為它是全棧的。它發明了新的軟體、新的算法、新的晶片、新的系統，對於每個應用程式域，通過執行這樣全棧的操作，可以將計算性能顯著提升。例如在計算光刻領域，作為EDA工作中計算最密集的應用程式，加速計算可以將其性能提高50倍、功耗和成本降低近10倍。「這就是加速計算要做的事情，一項接一項工作負載、一個接一個應用程式域」，黃仁勛表示。比如在數據中心，通過加速工作負載，就可以減少電力使用，從而可以將其轉移到新的增長中。「如果通過加速回收10倍的動力，想像一下我們有多少增長機會？」，他強調。至於實現可持續發展的具體手段是什麼？黃仁勛強調，「第一，我們必須加快應用程式的速度；第二就是AI。」他解釋說，我們今天用於仿真模擬的方法是所謂的第一原理，它基本適用於物理定律。（註：在物理中，第一原理(First Principle)是指不需要任何經驗設定與擬合參數，只從最基本的物理定律出發，就可以推出系統的基本性質。）就像小狗能夠跳起來接住拋到空中的球一樣，它能夠僅憑經驗就預測到球的飛行位置，訓練AI也是如此，「我們通過教AI物理定律，可以讓AI有能力將計算量減少1萬或10萬倍。一旦AI可以利用知識、利用技能來預測物理，就可以有效節省計算量，從而節約能源」，黃仁勛指出。

加速計算光刻的「iPhone時刻」

正如上文中黃仁勛提到的計算光刻應用，隨著當前生產工藝接近物理學極限，NVIDIA將加速計算引入到計算光刻領域，通過cuLitho助力ASML、TSMC和Synopsys等半導體頭部企業加速新一代晶片的設計和製造。據了解，TSMC、Synopsys 正在將NVIDIA cuLitho 計算光刻技術軟體庫整合到最新一代 NVIDIA Hopper架構GPU的軟體、製造工藝和系統中。ASML也正在就GPU和cuLitho與NVIDIA 展開合作，並計劃在其所有計算光刻軟體產品中加入對 GPU 的支持。在計算光刻領域引入加速計算的意義究竟是什麼？毋庸置疑，晶片產業幾乎是每一個行業的基礎。而在半導體製造過程中，光刻技術決定著晶片電晶體的尺寸，NVIDIA cuLitho 計算光刻技術軟體庫可為2納米及更高工藝奠定基礎。類似於在攝影中將底片上的圖像曝光到相紙上一樣，光刻工藝利用光在矽晶圓上生成表示晶片設計的圖案。計算光刻的作用就是補償因衍射或光學、抗蝕劑和蝕刻鄰近效應而導致的任何圖像誤差。藉助OPC軟體，開發者可以利用算法和數學方法以及大量仿真工作來操控光線，從而實現計算光刻過程。這個過程涉及到利用各種各樣的「假設」場景來找到正確的配置，以儘可能地提高轉印圖案的準確性。例如，在光線周圍投射一些精心挑選的合適偽影，比如可以操控光線的襯線，可以在晶圓上生成更接近原始掩模的圖案。計算光刻作為一項資源密集型工作，通常需要大量數據中心來處理相關計算和仿真運行。這一過程可能需要很長的時間，即使是使用最強大的計算機也是如此。與此同時，開發者希望在晶片上封裝更多的電晶體，這進一步增加了光刻的挑戰，此外，計算工作負荷也是只增不減。計算光刻的仿真環節成為該過程最耗時的部分之一，因為光刻過程中每個步驟的詳細模型都需要進行仿真。全晶片應用中可能有數百萬個Tile，因此必須具有超快的掩模合成計算速度。為了實現所需的性能提升，將cuLitho集成到Synopsys全晶片掩模合成解決方案和Proteus ILT逆光刻技術中並進行優化，可在新一代NVIDIA Hopper架構GPU上運行。如此一來，傳統配置上需要40000個CPU的系統，僅需要500個NVIDIA DGX H100節能型GPU系統。計算光刻工藝的所有部分都可以並行運行，減少所需功耗並且運行時間從數周縮短到數天。

生成式AI需要充分的供應鏈準備

在生成式AI需求爆發式增長的背景下，黃仁勛認為，行業需要進行充分的供應鏈準備，以滿足全球對AI的需求。為了幫助企業部署處於快速發展的生成式 AI 模型，黃仁勛發布了用於 AI 視頻、圖像生成、大型語言模型部署和推薦器推理的推理平台。這些平台將NVIDIA的全套推理軟體與最新的 NVIDIA Ada、Hopper和Grace Hopper處理器相結合，包括用於AI視頻的NVIDIA L4 Tensor Core GPU和用於大型語言模型部署的NVIDIA H100 NVL GPU。同時，NVIDIA AI Foundations雲服務系列，也可以為需要構建、完善和運行自定義大型語言模型及生成式 AI 的客戶提供服務，加速企業使用生成式 AI 的工作。據黃仁勛透露，會將由八塊旗艦版A100或H100晶片集成的DGX超級AI計算系統通過租賃的方式開放給企業，每月租金37000美元，以加速這輪大語言模型引領的AI浪潮。據了解，通過與雲服務供應商合作，NVIDIA在歐美提供DGX系統AI超級計算機的能力；在中國，也有特別定製的Ampere和Hopper晶片（A800和H800），通過中國的雲服務供應商，比如阿里巴巴、騰訊、百度等企業提供落地能力。「我完全相信他們有能力去提供頂級的系統服務，對於中國初創企業來說，也一定有機會來開發自己的大語言模型」，黃仁勛表示。

寫在最後

GTC期間，黃仁勛和OpenAI聯合創始人、首席科學家Ilya Sutskever 進行了一場爐邊對話。Ilya Sutskeve感慨自己從業20餘年，看著AI從「小透明」到震驚人類：「它還是那個神經網絡，只是變得更大，在更大的數據集上以不同的方式訓練，但是訓練的基礎算法都是一樣的，這是最令我驚訝的！」黃仁勛也感慨，「在我們相識的十多年時間裡，關於訓練的模型和數據（從AlexNet訓練到現在），已經擴大到100萬倍。在計算機科學界，當時沒有人會相信這十年間，計算量會擴大到100萬倍。」但這就是一個正在發生的事實——由於生成式AI，訓練的規模增大了很多。而業界對於生成式AI的大量推理運用，正導致AI處於拐點。