NVIDIA GeForce RTX 4090 公版評測:遊戲體驗倍增,掀翻摩爾定律

愛極物 發佈 2022-10-12T02:42:43.681055+00:00

在AMD RDNA 2和英特爾Alchemist嘗試在GPU領域雄起,夾擊NVIDIA的時候,NVIDIA用旗艦級卡皇GeForce RTX 4090 Founders Edition予以回擊,台積電4N定製工藝,數量破萬的CUDA核心,第三代RT Core和第四代Tensor Core,光是把硬體參數細數一遍,就讓人興奮不已。



如果你也有加入iPhone 14 SoC擠牙膏的吐槽大軍,那麼肯定也意識到工藝製程進度放緩已經是不爭的事實。在晶片工藝提升隨著成本、材質限制的時候,NVIDIA執行長黃仁勛卻找了另一種性能逐年翻倍的途徑,從此AI性能逐年翻番。支撐著AI性能提升背後,正是全新的GPU架構,以至於全新旗艦GeForce RTX 4090尚未公布之時便備受期待。



在AMD RDNA 2和英特爾Alchemist嘗試在GPU領域雄起,夾擊NVIDIA的時候,NVIDIA用旗艦級卡皇GeForce RTX 4090 Founders Edition予以回擊,台積電4N定製工藝,數量破萬的CUDA核心,第三代RT Core和第四代Tensor Core,光是把硬體參數細數一遍,就讓人興奮不已。


更重要的是,這不是一款只堆料的產品,在向競爭對手們秀著肌肉的同時,也巧妙的利用了AI性能,將3A遊戲最高畫質開啟光追,也能輕鬆享受4K流暢度倍增 。是的,就是這麼離譜。隨著今晚性能解禁,就讓我們奉上NVIDIA GeForce RTX 4090 Founders Edition首發評測,一窺新卡皇的真正實力。



動力之源:Ada Lovelace架構


NVIDIA在今年其實推出了兩款較為重要的GPU架構,兩個GPU架構均以計算機領域中的重要女性命名,一個是面向商用計算領域的Hopper,另外一個就是我們眼前的Ada Lovelace。


其中格蕾絲·赫柏Grace Hopper是世界上第一個編譯器發明者,耶魯大學第一位女博士。阿達·洛芙萊斯伯爵夫人Ada Lovelace則是英國數學家,以及拜倫之女,在整理了義大利軍事工程師費德里科·路易吉闡述分析機的文章,建立了沿用至今循環和子程序概念,並在180年前預言了計算機用途將不限於計算。


Sylvie Briggs在《神秘博士》中飾演的Ada Lovelace


代號Ada Lovelace,型號AD102-300-A1就是GeForce RTX 4090的核心,NVIDIA利用台積電4N定製工藝和改良的電路設計進一步擴大了晶片規模,時鐘頻率為2.52GHz,而我們經過實測運行頻率可以輕鬆突破2.7GHz甚至2.8GHz以上,是以往NVIDIA GPU都未曾達到的高度。但同時TGP功耗則可以做到與GeForce RTX 3090 Ti相當,同樣為450W,相當於GeForce RTX 4090的每瓦性能是GeForce RTX 3090 Ti的2倍。


從整體上看,完整的AD102包含了12個圖形處理集群(Graphics Processing Clusters,GPC),72個紋理處理簇(Texture Processing Clusters,TPC),144個流式多處理器(Streaming Multiprocessors,SM),以及搭配了12個32-bit控制器的顯存接口,共計384-bit。



同時每個GPC獨立使用1個光柵引擎(Raster Engine,RE),6個TPC,2個光柵處理分區(Raster Operations partitions)。其中每個光柵處理分區包含8個光柵處理單元(Raster Operations,ROP),因此總共16個ROP。


每個TPC下包含2個流式多處理器(Streaming Multiprocessors,SM)。從Maxwell架構開始,SM之下細分出了處理塊(Sub-Core)概念,AD102中每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。包含16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core,因此共計32個CUDA。



此外每個SM還包含1個第三代RT Core,4個第四代Tensor Core,4個紋理單元(Texture Units),256KB寄存器堆,以及可根據需求進行配置的128KB L1共享緩存。第三代RT Core和第四代Tensor Core的更新,則是本篇文章加速遊戲與創作體驗的關鍵。


事實上GeForce RTX 4090並非完整的AD102核心,由于禁用了一個GPC,GeForce RTX 4090的AD102-300-A1實際上有11個GPC,因此最終的參數與AD102有所區別,可以理解為NVIDIA為後面競爭對手的反應留足後手。因此GeForce RTX 4090總共包含11個GPC,64個TPC,128個SM,16384個CUDA Core,512個第四代Tensor Core,128個第三代RT Core。


這裡不妨讓我們放出GeForce RTX 4090與GeForce RTX 3090 Ti,GeForce RTX 3090的規格進行對比:



FE裝甲升級


在核心升級的同時,Founders Edition的散熱模塊也進行了同步升級。從RTX 30系列開始,Founders Edition開始使用了一種全新的錯位風扇搭配異性PCB的對稱設計,希望使用更少的風扇改善GPU的散熱情況。



在散熱材質的選擇上,NVIDIA團隊認為只有金屬本身才能更好的體現金屬的質感,Founders Edition講究一體成型,散熱鰭片由99%鋁合金打造,結合重量輕、剛性可靠、導熱性好的特點。


同時散熱鰭片再度加厚,變成了三槽位設計,通過顏色更鮮明的金屬CNC框架包裹,在色調上相對上一代RTX 3090 FE更為明亮一些。邊框末端的支架孔被隱藏在磁吸的擋板下,需要螺絲刀輔助摳開。復原的時候只需要將貼片放回,磁力會迅速將其復原。



從外觀上看GeForce RTX 4090 Founders Edition似乎與上一代外觀相當。但實際上增厚的散熱鰭片也增加了20%的氣流速度,風扇直徑由110mm提升到116mm。用NVIDIA官方的說法是,GeForce RTX 4090 Founders Edition每分鐘產生的氣流足以充滿3.5個籃球。並且風扇葉片由增強型玻璃纖維組成,具有彈性,搭配動態軸承可以獲得更好的靜謐性。RTX 4090 Founders Edition的核心溫度控制在了72℃。



值得說明是GeForce RTX 4090 Founders Edition使用了16pin(12VHPWR)接口,GPU晶片布局有所調整以配合電源相位由16個增加到20個,同時還增加了2層PCB提升供電效率和隔離供電噪聲,確保了GDDR6X信號完整性。



從實際供電來看,GeForce RTX 4090 Founders Edition的通道功率最高可以達到511W,GPU功率超過450W,距離650W的最大值還有一些距離,應該是為後續版本的性能釋放做準備的。


追尋光與影


如何定義優秀的遊戲體驗,NVIDIA認為從三個方向著手,分別是流暢度、響應速度、畫面質量 ,在GeForce RTX 4090的升級中,也著重圍繞這三方面進行。GeForce RTX 4090也因此成為首款用上第三代RT Core和第四代Tensor Core的消費級GPU。


第三代RT Core在第二代RT Core的基礎上,再次將射線/三角形求交測試吞吐量。意味著射線/三角形求交測試模塊由原來的2個再次增加到4個,相對Turing架構的1個射線/三角形求交測試模塊翻了4倍,並額外增加了下圖左下角的透明度微圖引擎(Opacity Micro-Map,OMM)和右下角的位移式微型網面引擎(Displaced Micro-Mesh,DMM)。



其中透明度微圖引擎(Opacity Micro-Map,OMM)讓第三代RT Core擁有2倍速度的透明度遍歷(Alpha Traversal),OMM通過減少幾何圖形透明度(Alpha)測試數量,最終減少著色器的透明度計算。這個新功能可以讓開發人員緊湊的描述不規則形狀,或者半透明物體,比如蕨類植物、柵欄等等。如果用下圖舉例,OMM可以讓RT Core有效避免第二張圖藍色部分的的計算,從而更有效的執行光線追蹤效率。



位移式微型網面引擎(Displaced Micro-Mesh,DMM)則可以用10倍的速度執行BVH。DMM也是全新的單元,它用來處理RT Core本地微求交結構網格,通過使用較少的基本求交三角形來描述比以往更複雜的幾何形狀。



最後第三代RT Core還引入了著色器執行重排序(Shader Execution Reordering,SER)技術,通過與遊戲設計團隊配合,更有效的分配次級射線的排序權重,從而獲得更高效的線程排序執行,避免光追運算陷入無意義的次級射線運算的等待中。



本著實踐出真知的原則,這裡又到了我們喜聞樂見的跑分環節,為了不拖GeForce RTX 4090的後腿,我們組件了一套剛好夠用的測試平台,包括Core i9-12900K,64GB DDR5-4800,2TB PCIe SSD,1250W電源,ROG MAXIMUS Z690 EXTREME主板等,具體如下:



除此之外,作為對比我們使用GeForce RTX 3090、GeForce RTX 3090 Ti進行陪跑。



在基礎性能測試中,慣例引入檢測DirectX 11和DirectX 12的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal和VRMark Blue Room進行檢測。


可以看到,相比GeForce RTX 3090 Ti,GeForce RTX 4090能夠輕鬆提升50%到80%,特別是4K性能和光線追蹤性能差距明顯,第三代RT Core以及更多的CUDA Core、GPU緩存起到了顯著的作用。



同時我們也搬出了幾個喜聞樂見的3A遊戲進行幀數參考,這裡除了《地鐵:離鄉》為1080p開啟光線追蹤最高畫質之外,其他的遊戲均使用4K解析度光線最高畫質。能夠看到如果在1080p解析度下,差距不大,RTX 30系列已經能夠發揮《地鐵:離鄉》的最佳效果。


當解析度一旦提升至4K,情況就不一樣了,GeForce RTX 4090性能提升性能提升從45%到96%,幀率輕鬆跨越4K 100FPS大關,4K最高畫質拉滿光追對於GeForce RTX 4090不再是問題。



如果這只是NVIDIA GPU的常規升級,那麼故事到這裡可能就結束了。但對於GeForce RTX 4090而言故事才剛剛開始。在遊戲性能提升幾乎100%之後,GeForce RTX 4090的殺手鐧才剛剛放出,那就是第四代Tensor Core,以及其支撐起的DLSS 3技術。



DLSS 3:一步跨入4K高刷


從RTX 30系列的DLSS 2 進化到DLSS 3,變化是巨大的。因為DLSS 3並非傳統意義上的單一技術,事實上它是一個軟體與硬體協同的技術合集 。


在軟體層面,DLSS 3包括:DLSS 2超解析度技術,AI生成幀,加入對NVIDIA Reflex支持。在硬體層面,DLSS 3需要在第四代Tensor Core上運行,並利用改進的光流加速器幫助DLSS 3像素級的測量場景,最後雲端的NVIDIA超級計算機則夜以繼日的尋找提升高質量圖像的途徑。



通過新光流加速器與DLSS 3搭配,能夠計算出場景中的所有像素是如何從一個像素移動到另一個像素的,其中就包括陰影、光反射和粒子等光流場信息。同時通過神經網絡分析,分析之前幀與當前幀,最終獲得一個高清且自然的效果。



DLSS 3在光流加速器的搭配下實現了超越 GPU渲染重建高解析度方法,讓GPU渲染的部分大幅減少,以兩幀為例,DLSS 3會承擔起重建第一幀的3/4的工作和全新第二幀的所有工作,實際上GPU只需要使用傳統的渲染法完成其中的1/8的渲染即可,從而節省了大量的計算資源。



由此可見DLSS 3帶來的變化是巨大的,這裡將GeForce RTX 3090的DLSS 2 與GeForce RTX 4090的DLSS 3進行對比。在傳統的3DMark DLSS 2 2K解析度測試中,能夠看到GeForce RTX 4090性能提升70%以上,似乎在情理之中。



可一旦切換成,3DMark DLSS 3 4K測試和3DMark DLSS 3測試,畫風就完全不一樣了。其中GeForce RTX 3090僅能以DLSS 2.3運行,GeForce RTX 4090則開啟了DLSS 3。能夠看到

GeForce RTX 4090通過DLSS 3性能分別提升了126%和170%,就算是8K解析度,也能輕鬆達到92FPS相當流暢的畫面,4K解析度更是達到172FPS以上,GeForce RTX 3090完全不是一個量級。



為了更好的幫助開發團隊集成DLSS 3, NVIDIA開發了Streamline工具,開發者可以在Streamline中快速集成DLSS 3, 這其中包括DLSS 2超解析度,AI幀生成以及NVIDIA Reflex。


包括《賽博朋克2077》、《微軟飛行模擬》、《瘟疫傳說:安魂曲》、《逆水寒》、《F1 22》以及《Unity Enemies》《Unreal Engine 5: Lyra》兩款DEMO進行了支持,我們也先行拿到了測試版本。在4K解析度中,GeForce RTX 4090能夠比GeForce RTX 3090提升100%到200%的幀率,而如果與開啟與關閉對比,最高幀率甚至能提升420%。



值得說明《逆水寒》DLSS 3版本首次使用了路徑 追蹤也就是全景光線追蹤作為測試場景,因此最終導致了GeForce RTX 3090原始幀率只有7FPS,而GeForce RTX 4090在開啟DLSS 3之後能夠達到79FPS,差距可見非常大。這裡不妨也讓我們奉上一段ICAT截取的畫質作為對比,DLSS 3不僅流暢度更有保障,光影效果也處理得更為自然。



給創意踩下油門


與前輩們一樣,GeForce RTX 4090不局限於遊戲,第三代RT Core和第四代Tensor Core都會伴隨著NVIDIA Studio平台發揮出更多的用途。不僅如此,GeForce RTX 4090也首次加入AV1雙編碼器。


AV1編碼是由英特爾、微軟、亞馬遜、谷歌、網飛等網絡巨頭組成的開放多媒體聯盟AOMedia所推出的免費編碼格式,在國內已經獲得了嗶哩嗶哩、愛奇藝支持。它的特點是能在相同文件體積下擁有更高清的畫質,或者相同清晰度的畫質下擁有更小的體積。



如果與GeForce RTX 30系列進行對比,GeForce RTX 40系列的AV1編碼器能比H.264編碼器效率高出40%。這意味著AV1編碼器能夠利用現階段可以進行1080p串流視頻的帶寬,實現1440p甚至更好的畫質。 如果視頻平台支持AV1實時直播推流,在 同樣的帶寬占用下, 可以輕鬆播放2K或者4K的視頻,而播放4K的帶寬也將可以用來播放更高解析度的內容 。


如果說這個月初新推出的Intel ARC顯卡特點就是集成AV1編碼器加速創意內容製作,那麼GeForce RTX 4090現在就加入了2個AV1編碼器,實現同時處理4個4K 60FPS視頻,一台電腦完成多路4K畫質60FPS輸出等以前不敢想像的玩法,GeForce RTX 4090僅用了不到一周的時間就接管了視頻編碼、直播、內容製作相關的王者地位,讓初來乍到Intel ARC直接哭暈在廁所。



在實際測試中亦是如此,這裡我們先使用了Resolve 18對4K 30FPS和8K 30FPS的視頻進行編碼,由於GeForce RTX 3090不支持AV1編碼,這裡使用H.265替代。能夠看到,GeForce RTX 4090的效率加速了將近60%。



而在渲染能力上,GeForce RTX 4090的表現自然不在話下,在Blender Benchmark主要測試了GPU的渲染輸出能力,在Moster、Junkshop、Classroom按個場景中,GeForce RTX 4090相對GeForce RTX 3090最高提升了102%的性能。



同樣在V-Ray 5 Benchmark中會分別考驗CUDA和光線追蹤性能,GeForce RTX 4090相對GeForce RTX 3090性能同樣提升了100%。



Octane Render RTX是同樣是測試GPU的光線追蹤性能表現,在一個複雜場景下考驗GPU每秒產生的樣本率,這裡能夠GeForce RTX 4090相對GeForce RTX 3090提升64%到119%。



在讓我們用上AI,使用圖像縮放軟體ON1 Resize AI 2022對低解析度圖片無損提升到高解析度圖片,軟體同樣依賴於GPU的AI性能,放大後圖片解析度翻倍,但細節仍然得以保留。



這裡GeForce RTX 4090相對GeForce RTX 3090縮短了40%以上的時間。



最後是常規的專業軟體,這裡引用了SPECviewperf 2020作為參考,其中包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks,涵蓋了行業領域諸多主流專業軟體,這一環則主要考驗GPU的CUDA核心已經頻率表現,能夠看到GeForce RTX 4090相對GeForce RTX 3090提升36%到130%以上。



寫在最後:用DLSS 3掀翻摩爾定律


在進行無數輪GPU之間的近身肉搏之後,我們發現即便是昔日卡皇GeForce RTX 3090 Ti,對GeForce RTX 4090也難以望其項背。這是一款不僅利用了硬體、工藝優勢,還巧妙發揮AI性能,使其表現巨幅提升的GPU。NVIDIA正在以GeForce RTX 4090為中心,把硬體、軟體、遊戲、驅動組成一套生態系統,而DLSS 3正是其中那把關鍵鑰匙。



對於幀率至上的高端玩家而言,DLSS 3搭配讓遊戲體驗成倍提升的效果,也註定讓其開始關注更高解析度的顯示器,因為即使是4K解析度最高畫質,GeForce RTX 4090 Founders Edition也足夠發揮出4K 144Hz旗艦級顯示器的性能,現在真的是時候將1080p高刷屏顯示器扔進垃圾桶了,8K顯示器可以裝進購物車了。


而對於內容創作者而言,AI的加持也讓創作效率再次翻倍,哪怕是最習以為常的視頻輸出和渲染,GeForce RTX 4090也能幫你節省一倍以上的時間,特別是AV1雙編碼器的加持,也終於不再讓我們過分關心CPU的核心數量以及軟體編碼的支持情況。


是的,無論是玩家還是內容創作者,GeForce RTX 4090都給足了升級的理由。只要想讓PC性能一步到位,那麼它將是未來一段時間內,你唯一的選擇。



現在GeForce RTX 4090 Founders Edition也將在北京時間10月12日晚上在京東首發,猛戳下方連結,就能選購來自NVIDIA Founders Edition和顯卡供應商提供的GeForce RTX 4090 GPU標頻版和超頻版。嗯,又是驗證自己錢包厚度的時刻了。

關鍵字: