影馳RTX 4070星曜OC首測 支持DIY外觀的高端非公顯卡

中關村在線 發佈 2024-01-15T15:03:53.716960+00:00

記得星曜系列在20系顯卡時期亮相,透明水晶打造的外殼首次登場驚艷了所有人,並且支持DIY更換外殼設計。

RTX 4070顯卡在昨天正式解禁性能,今天我們評測是型號是來自影馳的非公 RTX 4070顯卡:影馳 RTX 4070星曜 OC。記得星曜系列在20系顯卡時期亮相,透明水晶打造的外殼首次登場驚艷了所有人,並且支持DIY更換外殼設計。到了這次影馳 RTX 4070星曜 OC,影馳星曜系列這些特色始終不渝,並且通過更出色用料細節設計讓星曜顯卡繼續成為影馳招牌顯卡系列。

這次RTX 4070顯卡性能相較於RTX 4070Ti相差20%左右,但價格卻降到了5000元左右,公版首發售價4799元,各家非公型號根據規格用料價格會有些許變化,影馳的大將和金屬大師售價與公版一樣都是4799元,這次評測影馳 RTX 4070星曜 OC因為是提頻版,加上散熱、供電、PCB以及外觀等用料設計更加高級,所以價格來到了5299元,下面就一起來看看這款顯卡的真實表現。

1 影馳 RTX 4070星曜 OC顯卡介紹

先來看一下影馳 RTX 4070星曜 OC顯卡的外觀用料。影馳 RTX 4070星曜OC顯卡整個顯卡大小為351*154*56mm(含擋板),相較於之前的40系,因為功耗降低,散熱模塊減少讓整體看著清爽了很多,對於機箱要求也不在苛刻。

這款顯卡採用了純白設計,透明外殼用鑽石切割工藝設計,外殼上蓋還切割了不規則稜鏡,當燈光透過時,會像鑽石般閃耀著耀眼光芒。這個透明外殼可拆卸,不僅方便後續清理,還支持更換外殼設計,目前有5種風格外觀可以替換,下面就是更換後的外殼。

影馳 RTX 4070星曜 OC顯卡這次在燈效上下了功夫,內置了一個5V ARGB接口,支持與主板連接,更容易實現整機燈效聯動。燈光結合稜鏡般的透明外殼,明亮且繁華,但又不會讓人感覺到光污染。

影馳 RTX 4070星曜 OC顯卡採用了三風扇設計,每個風扇特製直徑102mm、厚度20mm,擁有11片靜霜扇葉,通過對扇葉進行彎折,實現更強風力和更大風量,並且還支持智能啟停,高負載時啟動,低負載時靜止,保證靜音與能效的平衡。

顯卡內部配備大面積高效能均熱板和散熱鰭片,並且搭載5個6mm鍍鎳複合熱管,可將熱量快速傳導。內部各個散熱部件使用回流焊接工藝,散熱性能更進一步,同時更加堅固耐用。

影馳 RTX 4070星曜 OC顯卡背板採用金屬設計,純白配色結合星曜絲印LOGO,鰭片附近背板採用大面積鏤空設計,風扇組建更合理,8層PCB板的設計也擁有更高的抗干擾和可靠性。

接口方面,這款顯卡採用標準設計,提供3個DP接口和一個HDMI接口。

供電接口為40系標配的16Pin電源接口。

非ATX 3.0的用戶也不要慌,影馳在配件中準備了16Pin電源轉接線,因為是RTX 4070,雙8Pin就可以實現轉接。

配件除了轉接線,還提供一個ARGB顯卡支撐杆套件,炫彩光效並也可自由調節高度,避免阻擋主板跳線。

2 NVIDIA GeForce RTX 4070 架構淺析

下面簡單介紹一下RTX 4070 架構,本次發布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,採用TSMC 4N NVIDIA定製工藝,旗艦核心AD102達到了恐怖的760億個電晶體,而在RTX 30系顯卡中為280億個。

與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著色器數據吞吐量。

本次發布的RTX 4070共有5888個CUDA核心,提供了29-TFLOPS算力;46個第三代Ada RT core擁有67 RT-TFLOPS;184個第四代Tensor Core可提供466 Tensor-TFLOPs

其實如果只對比傳統的光柵性能,RTX 4070的進步並沒有很大,但在AI逐漸發展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到2.7倍的提升。

完整的AD102核心

RTX 4070 Ti使用的AD104核心

RTX 4070使用的AD104核心

本次RTX 4070使用了AD104晶片,採用了4組GPC,其中1組少了1組TPC,並且NVENC單元變為2個。

另外可以看到本次RTX 40系顯卡的L2緩存都占比較大,其實也是有意為之。

這張RTX 4070的L2緩存為36MB,而上一代RTX 3070 Ti為4MB,達到了9倍的差距。增加L2緩存的大小可以提高性能,降低延遲,並提高續航時長,數據訪問在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過分依賴顯存帶寬)。所以,這也是為什麼在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。

其實根據完整的架構圖就能看出,此次Ada架構整體結構性的改動並不大,這一點從SM單元便能清晰印證,同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個SM單元內部的Tensor Core升級為第四代。

不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。

而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)Displaced Micro-Mesh Engines(DMM),這兩個新的硬體單元可以極大地提升光追性能(具體原理後文詳細介紹)。

至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現5組TPC組成一個GPC單元的情況)。

而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區(每組包含8個ROP單元)。

由於整體架構分析篇幅較長,關於NVIDIA Ada架構的其他新特性就不在這裡介紹了,將在文章末尾以附錄的形式展開說明,有興趣的用戶可翻至最後。

3 測試平台介紹

測試平台如下:

本次測試平台的處理器採用了Intel最新的13代i9-13900K,性能絕對強悍,電源採用了XPG 魔核金牌全模組750W 冰雪白,這款電源經過了80PLUS金牌認證,高效轉化輸出完美支持30系列和40系列顯卡穩定運作,電源全模組化,體積小巧,14cm短機身設計, RTX 4070功耗不高,750W的電源完全夠用。這款電源採用全日系電容高品質保障,擁有多接口線材,支持雙顯卡/雙CPU 運作,適用各類極客玩家,全殼和線材採用白色設計,讓白色控玩家毫無抵抗力 ,與影馳 RTX 4070星曜 OC顯卡 純白配色相呼應。

NVIDIA GeForce RTX 4070公版採用AD104核心,擁有5888個CUDA,Boost頻率為2475MHz,顯存方面採用了12GB GDDR6X顯存,位寬為192bit,顯存帶寬達到了504 GB/s,光柵單元和紋理單元為64和184。

影馳 RTX 4070星曜 OC顯卡身為OC提頻版,相較於公版,Boost頻率提升到了2610MHz,TGP最大250W,性能上會比公版更強。

4 理論性能測試

下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:

在針對顯卡DX11性能的3DMARKFS套裝測試中,影馳 RTX 4070星曜 OC顯卡主要對比公版RTX 4070,其中FS提升了3%;FSE提升了2%;FSU提升了2%,相比RTX 3070 Ti綜合性能提升超過25%

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,影馳 RTX 4070星曜 OC顯卡相較RTX 3070 Ti的提升分別為:TS提升29%;TSE提升23%,相較於公版4070TS提升5%,TSE提升4%。

而對比剛剛發布的RTX 4070 Ti,光追測試綜合成績相差19%左右,不過相較於公版,影馳 RTX 4070星曜 OC顯卡提升3%

Speed Way測試是3DMARK最新更新的用於測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 並包含 6GB 及以上顯存。

這項測試結合了實時光線追蹤和傳統渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網格著色器、體積照明、粒子和後處理效果。並且有意思的是,Speed Way測試支持自由探索場景,可查看光照及攝像機設置的改變如何影響視覺效果。

對比RTX 3070 Ti顯卡,影馳 RTX 4070星曜 OC顯卡從1080p解析度到4K提升依次為:28%/22%/28%

另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。並且由於RTX 3070 Ti無法開啟,故不參與測試,僅對比RTX 4070 Ti和公版RTX 4070,影馳 RTX 4070星曜 OC顯卡也是全面超越公版。

5 遊戲測試

由於本次RTX 40系加入了DLSS 3新技術,所以後面會進行單獨測試,這裡依然選擇主流的幾款3A大作進行遊戲性能對比。

遊戲測試中,這幾款遊戲整體幀數表現趨勢基本都一樣,RTX 4070遠超RTX 3070Ti,而每款遊戲,影馳 RTX 4070星曜 OC顯卡的幀數表現也都要比公版顯卡強幾幀,提頻對於遊戲幀數的提升確實很有幫助。

6 DLSS 3性能測試

截止目前,已有超過280款遊戲和應用支持DLSS,其中超過30款遊戲已經支持最新的DLSS 3。

包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪迴》、《漫威蜘蛛俠:重製版》、《超級人類》、《極限競速:地平線5》、《賽博朋克2077》、《紅霞島》、《暗黑破壞神4》、《侏羅紀世界:進化2》等等。

下面就讓我們來實際測試,擁有全新的DLSS 3的遊戲,能達到何種幀率。

本次DLSS 3的測試圖表比較繁瑣,並且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那麼這個1% Low FPS是什麼意思。

首先,遊戲benchmark通常測試的FPS即為,一段時間內的遊戲平均幀。而1% Low FPS則是將一段時間內的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。

其實簡單來說,這兩個數值都不能代表我們在遊玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的裡面求平均,更謹慎一些。

看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的為延遲(越低越好),坐標軸右側的均為幀數(越高越好),並且由於牽扯到正負坐標,所以兩側的值有可能會不同。

在《侏羅紀世界:進化2》中,DLSS 3的表現非常亮眼,由於此類模擬經營遊戲的特點就是同屏單位多,更加占用CPU資源,而DLSS 3能夠進行幀生成,來突破CPU瓶頸限制。

不過幀生成並不是毫無弊端,這也是為什麼此次測試加入了延遲。並且在開啟DLSS 3後,NVIDIA Reflex是捆綁開啟的。但相對於絕大部分的非競技遊戲來說,25.4毫秒的延遲在實際體驗中的感受並不強。

在《賽博朋克2077》中的數據反映比較真實,可以看到在DLSS關的光線追蹤最高的情況下,即影馳 RTX 4070星曜 OC顯卡顯卡也只有41幀,並且延遲達到了106.1毫秒。

而在開啟DLSS 3後,幀數為107,提升了164%。雖然相比DLSS 2的延遲高了14毫秒左右,但依然維持在較低的水平。

《極限競速:地平線5》是最新加入DLSS 3的遊戲,可以看到,即便在開啟DLSS 2的情況下,幀數受到CPU瓶頸限制,幾乎與DLSS關閉幀數相同。而在開啟DLSS 3後,一下躍至163幀,提升約28%。

《暗影火炬城》在開啟光追後對於性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升約84%,DLSS 2的提升約60%。不過此次《暗影火炬城》對比剛剛發布時,1% Low幀數有明顯下降,預計可能是優化還沒有跟上。

在UE5提供的測試遊戲中,方便的給出了DLSS的快捷測試,這裡分為DLSS關(超解析度關+幀生成關+Reflex關);DLSS 2(超解析度性能+幀生成關+Reflex開);DLSS 3(超解析度性能+幀生成開+Reflex開)三檔測試。

另外,由於Lyra幀數均為靜態所得,1% Low的分數相比其他遊戲更高一些。

7 Stable Diffusion AI繪畫測試

除了遊戲之外,AI也是目前大火的領域,尤其以Stable Diffusion為最,現在很多AI生成的圖片完全能夠以假亂真,下面我們也來測試一下影馳 RTX 4070星曜 OC顯卡顯卡在這方面的表現。

Stable Diffusion可以說幾乎沒有門檻,但本地部署的繁瑣程度勸退了很多用戶。上圖為操作界面用戶可根據自己想要生成的圖片細節豐富關鍵詞。

按照NVIDIA提供的關鍵詞,我們生成了10批,共20張圖片,上面挑選了兩幅細節比較合理的進行了展示。

影馳 RTX 4070星曜 OC顯卡運算時間 2m19.69s 一張圖約合 6.98秒一張圖

RTX 3070 Ti運算時間2m54.34s 約合 8.7秒一張圖

Stable Diffusion對於顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。

另外它對於顯存的要求非常高,如果有條件的話儘量選擇大容量顯存的顯卡。

我們之前還對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時間,兩個級別顯卡在生成20張圖片的時間差距為30秒,差距還是比較大的。

另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時30分左右。

8 AV1編碼測試

本次AV1編碼測試選擇了剪映專業版,作為有一定剪輯基礎的人來說可能不屑一顧,但整體測試下來的感覺還是非常好用的。

日常剪輯會使用到PR、AE等Adobe全家桶軟體,剪映最大的感受就是更智能化,且預設更符合大眾使用,更有智能識別字幕等便捷工具。

如果要比喻的話,剪映和PR就好像美圖和PS,Adobe的優勢就是可操作空間更大。但我們日常使用的話,剪映這類軟體完全沒有問題,更易上手。

由於AV1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會更清晰。

我們通過NVIDIA ICAT來進行兩段視頻的畫面對比,圖中左側為AV1編碼,右側為H264編碼。通過200%的細節放大,幾乎看不出任何區別。

9 RTX VSR(RTX Video Super Resolution)測試

目前RTX VSR(RTX Video Super Resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到NVIDIA最新驅動,在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超解析度。

RTX VSR是 AI 圖像處理的突破,它超越了傳統的邊緣檢測和特徵銳化技術,極大地提升直播視頻內容的質量。

開啟RTX VSR不僅需要最新版驅動,還需要使用RTX 40或30系列GPU,並且幾乎適用於Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。

開啟後,目前已知的打開YouTube或者B站,都可以享受到RTX VSR效果的加成。

如果不確定,在全屏播放視頻時,可以打開任務管理器,看到GPU負載增加,即為開啟成功。

我們打開YouTube隨意觀看視頻,在打開RTX VSR後,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更為清晰,並且極大減少了失真現象。

10 溫度及功耗測試

功耗測試中,我們選擇FurMark軟體進行拷機測試,並採用GPU-Z檢測溫度,功耗僅計算顯卡自身。

可以看到影馳 RTX 4070星曜 OC顯卡溫度控制很好,這款顯卡的拷機溫度但通過20分鐘左右的拷機測試,溫度一直控制在61℃左右,熱點溫度在73.8℃左右,溫度非常健康。

遊戲動態功耗測試

本次我們在拷機測試中最大板載功耗為215.2W左右,TDP達到了100%,影馳 RTX 4070星曜 OC顯卡相較於公版功耗大概高出15-20W,遊戲動態功耗測試也基本如此。

影馳 RTX 4070星曜 OC顯卡遊戲平均功耗 205W

RTX 3070 Ti顯卡遊戲平均功耗288W

在實際的遊戲功耗測試中,我們選擇《賽博朋克2077》自帶benchmark,畫面設置為光追超級、4K解析度,來強行拉滿兩張顯卡的性能極限,檢測我們實際應用場景的功耗。

相較於上代的RTX 3070 Ti,影馳 RTX 4070星曜 OC顯卡平均功耗要低很多,40系顯卡架構的能耗比遠勝前一代,而影馳 RTX 4070星曜 OC顯卡官方推薦電源750W即可滿足需求。

11 星光閃曜

影馳 RTX 4070星曜 OC毫無疑問是一款出色非公顯卡,這款顯卡相比公版擁有更強的頻率參數,供電模組高達11相,散熱設計更加高級,所以性能表現沒有讓人失望,不管是理論測試還是遊戲測試成績都要超出公版一些,達到了OC非公顯卡應有的水平。

這次影馳給也RTX 4070星曜 OC增加了光效設計,畢竟這個系列也算主打一手光效,所以對於目前比較流行的整機燈光聯動,RTX 4070星曜 OC內置了5V ARGB接口,輕鬆和主板實現聯動、

影馳 RTX 4070星曜 OC顯卡也繼續發揮系列特色,提供可定製化的星曜透明外殼,不僅美觀,還能展示玩家個性,5種替換外殼隨心搭配。

目前影馳 RTX 4070星曜 OC顯卡主要針對的還是2K遊戲玩家,通過NVIDIA Ada Lovelace架構的加持,在測試中也能看到2K遊戲的幀數基本都能達到100幀以上,12GB的顯存也足夠2K解析度3A遊戲大作暢玩。

RTX 4070顯卡本身也定位2K遊戲,當然說是2K其實針對的是大型3A遊戲,因為這些遊戲比較吃顯存,而不那麼看中顯存的4K網遊和一些4K獨立遊戲影馳 RTX 4070星曜 OC顯卡玩起來其實也沒什麼壓力。

12 附錄-NVIDIA Ada Lovelace架構解析

Shader Execution Reordering (SER)著色器執行重排序

SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。

簡單地說,GPU在執行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的,效率低下的工作負載。

SER則可以將這些雜亂的指令重新分門別類,動態重組為更高效的工作負載。根據NVIDIA的說法,SER可將著色器性能最多提升2倍,並將遊戲幀率最高提升25%。

舉個簡單的例子,當光線第一次從發射端到碰撞端是非常有規律的射線,而碰撞到物體後的二次光追,則會出現大量發散的、無規律的反射,這對於光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發揮出著色器的最大性能。

不過好在這麼實用的功能並不是RTX 40系的專利,它是一個易於集成的SDK,目前需要遊戲開發商集成在遊戲中。另外由於它是一個通用的邏輯,後續也有可能直接集成在Windows的API中,這樣遊戲開發者就無需特意引用,直接調用系統API即可。

可以說SER對於手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。

第三代 RT Cores

RT Core的作用在於更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率遊戲有點吃力,那麼RTX 40系顯卡中,將顯得輕而易舉。

在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。並且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比於前代提高了2.8倍。而這只能說明,這張4090並非Ada Lovelace架構的最終形態。

Opacity Micro-Map Engines

在第三代RT Cores中引入了兩個重要的硬體單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕著色器的工作負擔。

比如樹葉之類的複雜物體,不同的光線都會影響它的表現狀態,以及樹葉之間的光線反彈,所以對於光線追蹤的計算量是巨大的。

不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。

Displaced Micro-Mesh Engines(DMM)

Displaced Micro-Mesh Engines可理解為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!

DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染複雜幾何圖形,極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的複雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。

通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化後,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。

而這還不是最誇張的,越複雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大於15倍的速度,容量簡化20倍的模型。

第四代 Tensor Cores

除了光追單元的升級外,第四代張量核心的升級更加恐怖。它採用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。

注意這裡的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超解析度的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。

DLSS 3結合了DLSS超解析度、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。

在GPU受限的遊戲中,比如2K解析度及以上的更高解析度,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。

本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全「猜想」1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。

不過「憑空」生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。

這也不負NVIDIA給它起了個「神經網絡渲染新時代」的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上「巨人的肩膀」。當然,連年的創新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。

光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。並分別計算運動矢量和光流來獲得精準的陰影重建效果。

以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。並在第二幀中查找匹配的像素區域,計算幀之間的差值。

如果說原來DLSS 2能夠「猜」出一張圖剩下的像素,那麼DLSS 3除了這些,還能夠「猜」出下一幀的畫面。

另外由於DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的遊戲,AI同樣能夠提升幀率。這也是為什麼在此次發布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。

雙AV1編碼器

本次升級的第八代NVENC編碼器可以說是直播、視頻、後期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。

相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質將更好。目前大部分直播的解析度和清晰度,均受限於平台規定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,採用AV1編碼的清晰度明顯比H.264更高。

說起直播,OBS相信大家都不陌生,在10月份即將發布的補丁中,OBS就加入了對NVENC的AV1編碼支持

當然,直播只是我們更容易見到的AV1優勢,在視頻工作的所有環節,AV1編碼都可以帶來極大提升。

所以,如圖所見。NVIDIA已經為廣大用戶鋪好了一條完整的生態鏈,從編碼API、軟體、平台到播放器,將全面支持AV1編碼。

另外再說一下NVIDIA一直強調的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個編碼器,它所帶來的效果也是顯而易見的。

首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。

除了導出速度,8K 60幀的視頻錄製在以前簡直難以想像,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最後拼合完整。

關於編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發現顯卡不支持,才會發覺它的重要性……

隨著圖像逐漸進入到超清時代,硬體編碼和渲染幾乎已經成為不可或缺的幫手。雖然論質量,硬體編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬體編碼中,質量和時間也在不斷地被挑戰和刷新。

(8158309)

關鍵字: