RTX 40系Ada Lovelace架構詳解 4倍提升哪來的?

中關村在線 發佈 2022-10-04T01:20:46.861985+00:00

本次RTX 4090和RTX 4080的發布網上已經有不少信息,除了已經公布的規格參數和售價外,NVIDIA還召開了特別的媒體培訓會,詳細講了關於架構、Omniverse以及一些測試工具的使用方法。

本次RTX 4090和RTX 4080的發布網上已經有不少信息,除了已經公布的規格參數和售價外,NVIDIA還召開了特別的媒體培訓會,詳細講了關於架構、Omniverse以及一些測試工具的使用方法。

首先按照慣例科普一下架構,我們先從Ada Lovelace這個人講起,相較於Ampere,這位似乎大家更陌生一些。

01 Ada Lovelace(1815-1852)

Ada Lovelace是英國數學家、電腦程式創始人,建立了循環和子程序概念,被稱為世界上第一位程式設計師

Ada從小對數學有極高天賦,其父稱她為「平行四邊形公主」,後來的合作夥伴Charles Babbage稱她為「數字女巫」。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚後的她對數學熱情不減。

1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多註記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程式設計師。

而以她名字命名的語言——ada語言,已經成為了美國軍方開發戰鬥機等尖端武器的語言。

從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被後人銘記。

這也是為什麼此次NVIDIA RTX 40的先行宣傳中,用到了「以未來敬傳奇」的slogan,下面我們詳細剖析一下,這次的Ada Lovelace除了性能,還有哪些創新和超越。

02 Shader

NVIDIA Ada Lovelace架構採用了定製的TSMC 4N工藝,完整的核心擁有760億的電晶體,而NVIDIA Ampere架構為280億個。

與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升。最高可達到90-TFLOPS的著色器數據吞吐量,而本次發布的GeForce RTX 4090則達到83-TFLOPs,相比上一代NVIDIA Ampere則只有40-TFOPs。

Shader Execution Reordering (SER)著色器執行重排序

SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。

簡單地說,GPU在執行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的,效率低下的工作負載。

SER則可以將這些雜亂的指令重新分門別類,動態重組為更高效的工作負載。根據NVIDIA的說法,SER可將著色器性能最多提升2倍,並將遊戲幀率最高提升25%。

不過好在SER並不是RTX 40系的專利,它是一個易於集成的SDK,目前需要遊戲開發商集成在遊戲中。不過由於它是一個通用的邏輯,後續也有可能直接集成在Windows的API中,這樣遊戲開發者就無需特意引用,直接調用系統API即可。

可以說SER對於手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。

03 第三代RT Cores

RT Core的作用在於更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率遊戲有點吃力,那麼RTX 40系顯卡中,將顯得輕而易舉。

在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。並且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比於前代提高了2.8倍。而這只能說明,這張4090並非Ada Lovelace架構的最終形態。

Opacity Micro-Map Engines

另外在第三代RT Cores中引入了兩個重要的硬體單元,首先是Opacity Micro-Map Engines,可以譯為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕著色器的工作負擔。

比如樹葉之類的複雜物體,不同的光線都會影響它的表現狀態,以及樹葉之間的光線反彈,所以對於光線追蹤的計算量是巨大的。

不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。

Displaced Micro-Mesh Engines(DMM)

Displaced Micro-Mesh Engines可譯為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!

DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染複雜幾何圖形,極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的複雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。

通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化後,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。

而這還不是最誇張的,越複雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大於15倍的速度,容量簡化20倍的模型。

04 第四代Tensor Cores

除了光追單元的升級外,第四代張量核心的升級更加恐怖。它採用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。

注意這裡的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了3.0版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超解析度的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。

DLSS 3結合了DLSS超解析度、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。

在GPU受限的遊戲中,比如2K解析度及以上的更高解析度,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。

光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。並分別計算運動矢量和光流來獲得精準的陰影重建效果。

以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。並在第二幀中查找匹配的像素區域,計算幀之間的差值。

如果說原來DLSS 2能夠「猜」出一張圖剩下的像素,那麼DLSS 3除了這些,還能夠「猜」出下一幀的畫面。

另外由於DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的遊戲,AI同樣能夠提升幀率。這也是為什麼在此次發布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。

05 In total

總之,本文介紹的也只是Ada Lovelace架構中比較大的改變,第三代RTX架構還有很多升級,如雙AV1編碼器、RTX Remix以及Ada內核的變化等等,這些我們等到首測解禁會為大家一一奉上,詳情請關注10月11日晚9點的RTX 4090首測。

(8029758)

關鍵字: