黃仁勛向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

芯東西 發佈 2024-03-05T14:51:04.493037+00:00

「亮點」是英偉達秘密研發四年,向晶片製造業甩出一枚技術「核彈」——通過突破性的光刻計算庫cuLitho,將計算光刻加速40倍以上,使得2nm及更先進晶片的生產成為可能。


作者 | ZeR0 程茜
編輯 | 漠影

芯東西3月22日報導,全球AI計算技術盛會、一年一度的英偉達GTC大會如期而至!

英偉達CEO黃仁勛(暱稱「老黃」)一如既往穿著標誌性的皮衣進行了78分鐘演講,滿面笑容地分享英偉達又悶聲幹了哪些大事。

總體來看,此次演講可總結成一大「亮點」和一大「重點」。

「亮點」是英偉達秘密研發四年,向晶片製造業甩出一枚技術「核彈」——通過突破性的光刻計算庫cuLitho將計算光刻加速40倍以上,使得2nm及更先進晶片的生產成為可能。全球最大晶圓廠台積電、全球光刻機霸主阿斯麥、全球最大EDA巨頭新思科技均參與合作並引入這項技術。

老黃還直接上了一堂光刻機小課堂,配合動畫講解晶片製造的最關鍵設備光刻機是如何運作的。

「重點」毫無疑問是生成式AI

老黃對OpenAI的ChatGPT讚不絕口,夸它「震驚世界」,代表著「嶄新的計算平台已經誕生,AI的「iPhone時刻」已經到來」。

據英偉達透露,OpenAI將在微軟Azure超級計算機上使用英偉達H100 GPU,AI文生圖明星創企Stability.ai是H100 GPU的早期訪問客戶。

為了加速生成式AI開發及部署,老黃宣布推出3款全新推理GPU,分別擅長AI視頻、圖像生成、ChatGPT等大型語言模型的推理加速。

此外,英偉達還發布了AI超級計算服務DGX Cloud加速企業創建大模型和生成式AI的雲服務NVIDIA AI Foundations等,並宣布與日本三菱聯合打造了日本第一台用於加速藥研的生成式AI超級計算機

英偉達也發布了一系列面向元宇宙、汽車、量子計算領域的新進展,包括PaaS服務NVIDIA Omniverse Cloud現已向特定企業開放、與寶馬集團擴大合作建設虛擬工廠、比亞迪更多車型將採用NVIDIA DRIVE Orin平台,以及與Quantum Machines合作推出了全球首個GPU加速量子計算系統

老黃宣布,英偉達已經更新了100個加速庫,目前英偉達全球生態系統已覆蓋400萬開發人員、4萬家公司和1.4萬家初創公司。

一、晶片製造炸場!將計算光刻提速40倍,三大半導體巨頭站台

我們先來看看今天的「驚喜彈」:英偉達發布了一個造福先進晶片製造的突破性技術——NVIDIA cuLitho計算光刻庫

光刻是晶片製造過程中最複雜、最昂貴、最關鍵的環節,其成本約占整個矽片加工成本的1/3甚至更多。計算光刻模擬了光通過光學元件並與光刻膠相互作用時的行為,應用逆物理算法來預測掩膜板上的圖案,以便在晶圓上生成最終圖案。

簡而言之,計算光刻是提高光刻解析度、推動晶片製造達到2nm及更先進節點的關鍵手段。

「計算光刻是晶片設計和製造領域中最大的計算工作負載,每年消耗數百億CPU小時。」黃仁勛講解道,「大型數據中心24×7全天候運行,以便創建用於光刻系統的掩膜板。這些數據中心是晶片製造商每年投資近2000億美元的資本支出的一部分。」

而cuLitho能夠將計算光刻的速度提高到原來的40倍老黃說,英偉達H100 GPU需要89塊掩膜板,在CPU上運行時,處理單個掩膜板需要兩周時間,而在GPU上運行cuLitho只需8小時

此外,台積電可通過在500個DGX H100系統上使用cuLitho加速,將功率從35MW降至5MW,替代此前用於計算光刻的40000台CPU伺服器 使用cuLitho的晶圓廠,每天可以生產3-5倍多的光掩膜,僅使用當前配置電力的1/9

全球最大晶圓廠台積電、全球最大光刻機製造商阿斯麥(ASML)、全球最大EDA公司新思科技(Synopsys)都為這項新技術站台。老黃透露道,cuLitho歷時四年研發,與這三家晶片大廠進行了密切合作。台積電將於6月開始對cuLitho進行生產資格認證。

台積電CEO魏哲家誇讚它為台積電在晶片製造中廣泛地部署光刻解決方案開闢了新的可能性,為半導體規模化做出重要貢獻。阿斯麥CEO Peter Wennink說阿斯麥計劃將對GPU的支持集成到其所有的計算光刻軟體產品中。

新思科技董事長兼CEO Aart de Geus稱,在英偉達的cuLitho平台上運行新思科技的光學鄰近校正(OPC)軟體,將性能從幾周加速到幾天

cuLitho將有助於晶圓廠縮短原型周期時間、提高產量、減少碳排放,為2nm及更先進的工藝奠定基礎,並使得曲線掩模、high NA EUV、亞原子級光刻膠模型等新技術節點所需的新型解決方案和創新技術成為可能。

二、發布ChatGPT專用推理GPU,登瀏覽器即可訪問AI超級計算機

圍繞生成式AI,英偉達發布了一系列加速模型訓練和推理的軟硬體新品及服務。

老黃首先講述了英偉達在生成式AI革命之初是如何進入AI領域的。

「英偉達加速計算始於DGX(AI超級計算機),這是大型語言模型實現突破背後的引擎。」他談道,「(2016年)我親手將全球首款DGX交給了OpenAI,自此以後,《財富》100強企業中有一半安裝了DGX AI超級計算機。DGX已成為AI領域的必備工具。」

生成式AI將重塑幾乎所有行業。」老黃說,ChatGPT、Stable Diffusion、DALL-E和Midjourney喚醒了世界對生成式AI的認知。

在他看來,生成式AI是一種新型計算機、一種可以用人類語言進行編程的計算機,與個人電腦(PC)、網際網路、行動裝置和雲類似,這種能力影響深遠,每個人都可以命令計算機來解決問題,現在每個人都可以是程式設計師

1、訓練:生成式AI明星企業都在用,AI超級計算機已全面投產

訓練方面,英偉達H100 GPU基於Hopper架構及其內置Transformer Engine,針對生成式AI、大型語言模型和推薦系統的開發、訓練和部署進行了優化,利用FP8精度在大型語言模型上比上一代A100提供了快9倍的AI訓練和快30倍的AI推理。

DGX H100擁有8個H100 GPU模組,在FP8精度下可提供32PetaFLOPS的算力,並提供完整的英偉達AI軟體堆棧,助力簡化AI開發。黃仁勛宣布,NVIDIA DGX H100 AI超級計算機已全面投入生產,很快將面向全球企業微軟宣布Azure將向其H100 AI超級計算機開放私人預覽版。

黃仁勛說,雲計算巨頭現在正在提供英偉達H100 GPU,生成式AI領域的多家明星企業都在用H100加速工作

比如,OpenAI用H100的上一代A100訓練和運行AI聊天機器人ChatGPT,並將在微軟Azure超級計算機上使用H100;AI文生圖明星創企Stability.ai是AWS上的H100早期訪問客戶。

最近剛推出開源大模型的社交軟體巨頭Meta開發了基於Hopper架構的AI超級計算機Grand Teton系統。相比其前代Zion,該系統的算力大幅提升,可同時支持推薦模型和內容理解的訓練和推理。

英偉達與其主要合作夥伴宣布推出強大的GPU NVIDIA H100 Tensor Core GPU新產品和服務,以滿足生成式AI訓練和推理需求。

AWS宣布即將推出的EC2超級集群(EC2 P5實例)可擴展至20000個互連的H100Oracle Cloud Infrastructure(OCI)宣布限量推出採用H100的全新OCI Compute裸金屬GPU實例。

為企業和開發者提供多模態視頻理解的平台Twelve Labs計劃在OCI Supercluster上使用H100實例來即時、智能和容易搜索視頻。

2、推理:發布3款GPU、3類雲服務

推理方面,英偉達推出全新GPU推理平台:4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級晶片)、一個體系架構、一個軟體棧,分別用於加速AI視頻、圖像生成、大型語言模型部署和推薦系統。

(1)L4:針對AI視頻設計的通用GPU,可提供CPU高120倍的AI視頻性能能效提高99%;優化了視頻解碼與轉碼、視頻內容審核、視頻通話等功能,如背景替換、重新打光、眼神交流、轉錄和實時翻譯等。一台8-GPU L4伺服器將取代100多台用於處理AI視頻的雙插槽CPU伺服器

(2)L40:用於圖像生成,針對圖形和AI支持的2D、視頻和3D圖像生成進行了優化,推理性能是英偉達最受歡迎的雲推理GPU T4的10倍

(3)H100 NVL:針對ChatGPT等大型語言模型的大規模部署,配備雙GPU NVLink,將兩張擁有94GB HBM3顯存的PCIe H100 GPU拼接在一起,可處理擁有1750億參數的GPT-3大模型,同時支持商用PCIe伺服器輕鬆擴展。

老黃說,目前在雲上唯一可以實際處理ChatGPT的GPU是HGX A100。與適用於GPT-3處理的HGX A100相比,一台搭載4對H100及雙GPU NVLink的標準伺服器的速度要快10倍,H100可將大型語言模型的處理成本降低一個數量級

(4)Grace Hopper超級晶片:適用於推薦系統和大型語言模型的AI資料庫,圖推薦模型、向量資料庫和圖神經網絡的理想選擇,通過900GB/s的高速一致性晶片到晶片接口連接英偉達Grace CPU和Hopper GPU。

谷歌雲是第一個向客戶提供英偉達L4推理GPU的雲服務提供商。谷歌還將L4集成到其Vertex AI模型商店中。

3、雲服務:登瀏覽器即可訪問AI超級計算機

英偉達推出了一項名為DGX Cloud的AI超級計算服務,與微軟Azure、谷歌OCP、Oracle OCI合作,通過一個Web瀏覽器就能訪問,以便企業為生成式AI和其他開創性應用訓練先進的模型。

DGX Cloud實例的起價為每個實例每月36999美元。其每個實例都具有8個NVIDIA H100或A100 80GB Tensor Core GPU,每個節點共有640GB的GPU內存。DGX Cloud提供了專用的NVIDIA DGX AI超級計算集群,並配備了NVIDIA AI軟體。

英偉達還推出了全新雲服務及代工廠NVIDIA AI Foundations,使企業能夠構建、改進、運營使用其專有數據訓練的、用於特定領域任務的定製大模型和生成式AI模型:

(1)NeMo:文本生成模型構建服務,提供從80億到5300億個參數的模型,會定期更新額外的訓練數據,幫助企業為客服、企業搜索、聊天機器人、市場情報等生成式AI應用進行模型定製。

(2)Picasso:視覺語言模型構建服務,具有先進的文生圖、文本轉視頻、文本轉3D功能,可為產品設計、數字孿生、角色創建等使用自然文本提示的應用快速創建和定製視覺內容。

(3)BioNeMo:生命科學服務,提供AI模型訓練和推理,加速藥物研發中最耗時和成本最高的階段,可加速新蛋白質和治療方法的創建以及基因組學、化學、生物學和分子動力學研究。

直接在瀏覽器上或通過API,均可訪問這些運行在NVIDIA DGX Cloud上的雲服務。NeMo、BioNeMo雲服務已開放早期訪問,Picasso雲服務正在私人預覽中。

英偉達也宣布了一系列跟生成式AI相關的合作進展,包括與Adobe合作開發新一代先進的生成式AI模型;與Getty Images合作訓練負責任的文生圖、文本轉視頻基礎模型;與Shutterstock合作,訓練從簡單文本提示中創建生成式3D模型,將創作時間從幾小時減少到幾分鐘。

此外,英偉達與三菱聯合發布了將用於加速藥物研發的日本第一台生成式AI超級計算機Tokyo-1。通過在Tokyo-1上使用NVIDIA BioNeMo軟體,研究人員能運行高達數十億參數的先進AI模型,包括蛋白質結構預測、小分子生成、姿態估計等。

三、BlueField-3 DPU已投產,打造全球首個GPU加速量子計算系統

數據處理單元(DPU)方面,黃仁勛宣布英偉達BlueField-3 DPU已投入生產,並被百度、CoreWeave、京東、微軟Azure、Oracle OCI、騰訊遊戲等領先的雲服務提供商所採用,以加速其雲計算平台。

面向量子計算,要從量子噪聲和退相干中恢復數據,需要對大量量子比特進行糾錯。對此,英偉達與Quantum Machines合作推出了一個量子控制鏈路,它可將英偉達GPU連接到量子計算機,以極快的速度進行糾錯。

雙方合作研發的全球首個GPU加速量子計算系統NVIDIA DGX Quantum,將強大的加速計算平台(由NVIDIA Grace Hopper超級晶片和CUDA量子開源編程模型支持)與全球最先進的量子控制平台OPX結合在一起,使研究人員能夠構建強大的應用,將量子計算與最先進的經典計算結合起來,實現校準、控制、量子糾錯和混合算法。

NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系統,通過PCIe連接到通用量子控制系統Quantum Machines OPX+,實現QPU和量子之間的亞微秒延遲處理單元(QPU)。

DGX Quantum還為開發人員配備了一款強大的混合GPU-Quantum編程模型NVIDIA CUDA Quantum,可以在一個系統中集成QPU、GPU、CPU並進行編程。多家量子硬體公司將CUDA Quantum集成到他們的平台中。

美國通信巨頭AT&T宣布與英偉達合作,使用英偉達全套AI平台改進運營並提高可持續性。AT&T將使用英偉達AI平台進行數據處理、優化服務排隊、創建員工支持和培訓的對話式AI數位化形象。

四、推出新一代元宇宙伺服器,引入生成式AI和模擬仿真更新

面向元宇宙領域,英偉達推出了第三代OVX計算系統新一代工作站,為基於NVIDIA Omniverse Enterprise的大規模數字孿生提供動力。

第三代OVX伺服器通過組合雙CPU平台、BlueField-3 DPU、L40 GPU、兩個ConnectX-7 SmartNIC和NVIDIA Spectrum乙太網平台,提供了突破性的圖形和AI性能,可加速大規模數字孿生模擬等應用,進而提高運營效率和預測性規劃功能。

企業可以利用OVX性能在可視化、虛擬工作站和數據中心處理工作流程等方面進行協作。

此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation採用英偉達Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特爾至強處理器。最新發布的RTX 5000 Ada一代筆記本電腦GPU使專業人士能隨時隨地訪問Omniverse和工業元宇宙工作負載。

黃仁勛還宣布了英偉達用於構建和操作元宇宙應用的平台NVIDIA Omniverse的相關更新,增加了一系列生成式AI、模擬仿真相關功能,讓開發者能夠更輕鬆地部署工業元宇宙應用。

平台即服務(PaaS)NVIDIA Omniverse Cloud現已面向特定企業開放,使企業能夠在其核心產品和業務流程中統一數位化。

「從大型物理設施到手持消費品,每一個人造物體都有一天會擁有一個數字孿生,用來建造、操作和優化物體。」黃仁勛說,「Omniverse Cloud是用於工業數位化的從數字到物理的作業系統,它的出現正好趕上了正在建設的價值數萬億美元的新電動汽車、電池和晶片工廠。」

英偉達選擇微軟Azure作為Omniverse Cloud的首個雲服務提供商。由NVIDIA OVX計算系統提供支持的Omniverse Cloud將於今年下半年與微軟Azure一起推出。企業可訪問Omniverse軟體應用程式的全堆棧套件和NVIDIA OVX基礎設施,並享有Azure雲服務的規模和安全性。

Azure上Omniverse Cloud的新訂閱服務使汽車團隊可輕鬆實現工作流程的數位化,無論是連接3D設計工具以加速汽車開發,還是構建汽車的數字孿生工廠或運行閉環模擬來測試車輛性能。

老黃在演講期間分享了一個視頻,展示亞馬遜如何用英偉達Omniverse平台構建完全逼真的數字孿生機器人倉庫,以節省時間和金錢。

英偉達與寶馬集團宣布擴大合作,為汽車製造商開設了第一個完全虛擬工廠寶馬集團將英偉達Omniverse平台用在其全球生產網絡中構建和運行工業元宇宙應用。

此外,英偉達與其合作夥伴發布了全新的Omniverse Connections,通過通用場景描述(USD)框架連接更多世界更多先進應用。

結語:生成式AI引發了全球企業緊迫感

「生成式AI正在推動AI的快速應用,並重塑無數行業。」老黃說,「我們正處於AI的「iPhone時刻」,初創公司競相構建具有顛覆性的產品和商業模式,老牌公司則在尋求應對之策,生成式AI引發了全球企業制定AI戰略的緊迫感。」

從今日英偉達的一系列軟硬體發布,可以看到英偉達對先進AI計算的支撐已經覆蓋到從GPU、DPU等硬體到幫助企業加速構建定製生成式AI模型的雲服務,進而推動釋放人類的創造力。

這已經不是老黃第一次「跳預言家」了。英偉達的加速計算產品可以說是與AI產業的發展共生共榮。英偉達不斷為更大規模的AI模型訓練提供更強大的算力基座,對AI訓練和推理的前沿發展起到了重要推動力,蓬勃而生的AI熱潮又為英偉達帶來了更廣闊的市場和機遇。

如今,生成式AI所展現出的商用前景幾乎激勵著每個行業重新設想其商業戰略和實現這些戰略所需的技術。英偉達正與其合作夥伴迅速行動,為AI應用提供更強大的計算平台,讓更多人從生成式AI等前沿應用的變革性力量中受益。

關鍵字: