NVIDIA GeForce RTX 4090架構淺析:帶上AI,大步追光

愛極物 發佈 2022-10-08T12:42:55.797852+00:00

在GTC 2022首發的Ada Lovelace架構產品一共包含三款,分別是GeForce RTX 3090的AD102,GeForce RTX 3080 16GB的AD103,以及GeForce RTX 3080 12GB的AD104。



從2018年Turing架構開始,NVIDIA GPU正式進入了實時光線追蹤和人工智慧加速的時代。從最初Eidos Montreal在《古墓麗影:暗影》率先嘗試性的陰影實裝,到現在全局光線追蹤的大膽邁進,在短短的四年時間內,軟體與硬體的升級換代開始不斷狂奔。也正是這時候開始,NVIDIA開啟了核心架構兩年一更的節奏。而在Ampere架構發布兩年後,以世界上第一位女程序Ada Lovelace為名的新架構孕育而生。


世界上第一位女程序Ada Lovelace


從好萊塢工業的光影創作到遊戲,實際情況對複雜光影與現實場景模擬變得更為苛刻。例如在《賽博朋克2077》的光線追蹤模式中,會要求635條光線追蹤路徑針對每一個像素點進行計算,而在2018年剛推出《戰地5》時,僅39條光追路徑就已經足以卡爆無數PC。


在NVIDIA GTC 2022的主題演講上,我們已經知道了Ada Lovelace GPU架構能夠比上一代Ampere GPU架構擁有2倍以上的傳統光柵化遊戲效率,以及4倍以上的光線追蹤效率。隨後的媒體日中,NVIDIA工程師為我們詳細解答了Ada Lovelace架構的細節。現在不妨讓我們花點時間,粗淺的了解一下NVIDIA GeForce RTX 4090背後AD102核心以及Ada Lovelace架構的特點。



Ada Lovelace的提升可以簡單歸結為三個方面:


工藝與設計改變:NVIDIA利用台積電4N定製工藝和改良的電路設計進一步擴大了晶片規模,完整的AD102核心擁有763億個電晶體和18432個CUDA核心構成,運行時鐘頻率可以達到2.5GHz以上。在進行部分取捨之後,量產成行的GeForce RTX 4090的TGP功耗與GeForce RTX 3090 Ti相當,但效率翻了數倍。


更快的光線追蹤性能:第三代RT Core擁有2倍的射線三角形求交吞吐量,並添加了兩個硬體單元,分別是微映射透明度引擎(Opacity Micro-Map,OMM)和微網格置換引擎(Displaced Micro-Mesh,DMM)。其中OMM主要作用優化光線追蹤渲染,降低著色器負擔,DMM則是將用於光線求交加速的層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)的速度提升10倍,顯存占用減少20倍。


NVIDIA DLSS 3:第四代Tensor Core與光流加速器(Optical Flow Acceleration,OFA)配合,實現AI幀生成,從而使得DLSS 3相對DLSS 2幀率提升2倍,相對原畫質幀率提升4倍,並與NVIDIA Reflex配合實現更低的系統延遲。


現在就讓我們針對這三個重要更新進行逐一分析。



AD102的進化論


在GTC 2022首發的Ada Lovelace架構產品一共包含三款,分別是GeForce RTX 3090的AD102,GeForce RTX 3080 16GB的AD103,以及GeForce RTX 3080 12GB的AD104。同時GeForce RTX 3090使用的AD102也並非完整形態,在GeForce RTX 3090首發評測中我們會進行分析。


完整的AD102包含了12個圖形處理集群(Graphics Processing Clusters,GPC),72個紋理處理簇(Texture Processing Clusters,TPC),144個流式多處理器(Streaming Multiprocessors,SM),以及搭配了12個32-bit控制器的顯存接口,共計384-bit。


從Turing架構開始至今,GPC、TPC、SM的包含層級沒有做出變化。


以AD102為例,每個GPC獨立使用1個光柵引擎(Raster Engine,RE),6個TPC,2個光柵處理分區(Raster Operations partitions)。其中每個光柵處理分區包含8個光柵處理單元(Raster Operations,ROP),因此總共16個ROP。



往下一級,每個TPC內包含2個SM。


再往下一級,就是包含大量單元的流式多處理器(Streaming Multiprocessors,SM)。從Maxwell架構開始,SM之下細分出了處理塊(Sub-Core)概念,AD102中每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。



同時每個SM還包含16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core,因此共計32個CUDA。此外還包含1個第三代RT Core,4個第四代Tensor Core,4個紋理單元(Texture Units),256KB寄存器堆,以及可根據需求進行配置的128KB L1共享緩存。


另外示例圖中沒有標出每個SM其實還包含2個FP64內核,FP64的TFLOP比率是FP32的1/64,用以確保FP64代碼正常運行,其中就包括FP64 Tensor Core代碼。


RT Core承擔著層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)數據結構遍歷、執行射線/三角形和光線邊界框求交計算,也是實時光線追蹤在遊戲和專業應用實裝以來,負載最高的引擎。


其中包圍盒碰撞由下圖左側的包圍盒碰撞引擎(Box Intersection Engine)完成,射線/三角形求交測試由右側執行。



而Ada Lovelace的第三代RT Core在第二代RT Core的基礎上,額外增加了下圖左下角的微映射透明度(Opacity Micro-Map,OMM)引擎和右下角的微網格置換(Displaced Micro-Mesh,DMM)引擎,具體的運作方式我們會在後面的光線追蹤章節詳細說明。



前面提到128KB L1共享緩存,即從Turing架構開始的統一緩存架構,取決於驅動程序或者開發者對L1緩存和SharedMemory的定義,SharedMemory目的是為了讓一個Thread Block 內的CUDA Thread可以共享數據,由前面提到的Warp調度器調配。當SharedMemory被設置成0KB的時候,所有空間歸L1緩存所有,也就是128KB。由於L1共享緩存與SM為1:1關係,可以推導出AD102最大L1緩存可以達到18,432KB,比GA102的10,752KB多出71.4%。


更厲害的是,Ada Lovelace相比Ampere在L2緩存上進行了翻天覆地改造,總共配置了98,304KB的L2緩存,比Ampere GA102的6144KB提高了16倍,這讓光線追蹤,尤其是路徑追蹤從中獲得巨大收益,最終讓第三代RT Core的射線/三角形求交測試模塊數量直接翻倍。


與此同時,NVIDIA與美光的在DRAM上的合作也有了新的進展,通過電路設計和信號優化,GPU顯存速度從原來的19.5Gbps提升到了GeForce RTX 4080上使用的22.4Gbps,如果像GeForce RTX 4090的24GB GDDR6X滿配,則會達到1TB/s的峰值顯存帶寬。



最後再來說說台積電4N NVIDIA定製工藝,這是NVIDIA與台積電工程師合作,在優化GPU生產流程後定製的工藝技術,基於台積電5N改進而來。這不是NVIDIA第一次找台積電或者三星定製工藝,從台積電12nm FFN(FinFET NVIDIA定製),到三星8nm NVIDIA定製。近年來每一代GPU架構更新都伴隨著台積電配合的定製工藝升級,並且隨著三星、台積電在製造工藝命名上的營銷奔放,數字往往比實際工藝小以表示技術先進性。正是這樣的環境下,讓帕特·基辛格在掌權英特爾後,把計劃中的10nm++改名成Intel 7,默認了這樣的行業潛規則。


拋開營銷的手段,台積電4N NVIDIA定製工藝確實表現更好,直接讓GeForce RTX 4090的每瓦性能空前提高,當與RTX 3090 Ti同功率運行的時候,RTX 4090將會提供超過其2倍的性能。同時RTX 4090的最高時鐘頻率也輕鬆達到了2.52GHz,後續如果經過AIC調教,達到2.8GHz以上不是問題。


綜上所述,我們可以做出一個簡單的匯總。完整的AD102核心包括:


18432個CUDA Core

16個ROP

144個SM

144個第三代RT Core

576個第四代Tensor Core

576個紋理單元

18,432KB L1共享緩存

98,304KB的L2緩存

2.5GHz以上的Boost頻率

優化後更快的GDDR6X顯存


上述硬體參數在未來一段時間中將成為GeForce RTX 40系列繼續引領圖形計算市場的硬體基礎。當然這對鞏固NVIDIA的龍頭地位遠遠不夠,接下來我們要進入GeForce RTX系列稱霸的兩個核心,那即是光線追蹤和DLSS。



第三代光線追蹤:2個新引擎,20倍提升


經過4年多的運營,實時光線追蹤已經對內容創造與遊戲行業產生了巨大影響,光線追蹤帶來的逼近真實自然光線、散射、衍射、漫反射和陰影效果提升了真實場景的還原程度,不僅對遊戲提供更好的視覺體驗,對行業領域的所見即所得設計感知也帶來了巨大貢獻。


現在內容創作者開始利用GPU來設計更複雜的模型,這樣的模型往往由數百萬個三角形與環境設定構成的數以十億記的組合構成。在對付更複雜應用時,開發人員需要面臨兩個挑戰,即:存儲、渲染性能。


在特定的幀中,細節層次技術(Level Of Detail,LOD)可以減輕場景複雜性對性能的一些需求,但其實是有限的。因為LOD幾乎無法控制攝像機和玩家視覺的遊蕩位置,以及散射光線可能會在攝像機後方發生碰撞等等離奇的情況。


在Ada Lovelace架構的第三代RT Core中,NVIDIA工程師做出了三個改變,即:


第一個,得益於緩存增加,第三代RT Core在第二代RT Core的基礎上,再次將射線/三角形求交測試吞吐量。意味著射線/三角形求交測試模塊由原來的2個再次增加到4個,相對Turing架構的1個射線/三角形求交測試模塊翻了4倍,第二代與第三代RT Core流程變化參考如下。



第二個,第三代RT Core擁有2倍速度的透明度遍歷(Alpha Traversal),這是由全新的微映射透明度引擎(Opacity Micro-Map,OMM)實現的。OMM通過減少幾何圖形透明度(Alpha)測試數量,最終減少著色器的透明度計算。這個新功能可以讓開發人員緊湊的描述不規則形狀,或者半透明物體,比如蕨類植物、柵欄,最讓第三代RT Core能夠更有效的執行光線追蹤效率。


第三個,增加微網格置換引擎(Displaced Micro-Mesh,DMM)。這讓第三代RT Core能夠在節省20倍的層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)空間內,以10倍的速度執行BVH。DMM也是全新的單元,它用來處理RT Core本地微求交結構網格,通過使用較少的基本求交三角形來描述比以往更複雜的幾何形狀。


正是由於以上三點,第三代RT Core可以做到不增加處理時間或者顯存消耗的前提下,實現更高效的光線追蹤計算。


但這還遠遠不夠,NVIDIA還搞了一波大的。在接近真實場景的實時光線追蹤中,多樣化的環境變化意味著本應重要的原始處理工作量會越來越少,反而像反色、間接照明、半透明效果的二次折射等計算會占據大量的著色器資源,讓著色器忙碌在無意義的二次反射、漫反射等場景中,導致效率降低。如果不加以解決,GPU以有序性常規執行方式會非常低效。


為此,Ada Lovelace架構引入了著色器執行重排序(Shader Execution Reordering,SER)功能,能夠讓著色器更智能的安排每一項工作的重要程度。是的,在某種程度上,GPU也具備了亂序執行的功能。


針對上述三個引擎,這裡展開分析。


微映射透明度引擎(OMM)


開發人員經常會使用紋理透明通道經濟的展現複雜形狀或者半透明效果,比如一片葉子用幾個三角形搭配紋理透明通道(Alpha)實現複雜的形狀,這樣的方式也被運用到火焰這樣的半透明效果中,開發人員會通過透明通道(Alpha)來表示透明度級別。



在Ada Lovelace之前,開發人員會將這個類型的內容合併到射線中,並將他們標記為不透明場景進行追蹤,比如葉子射線被擊中時,著色器會調用正確的求交方式,讓光線簡單的表現為命中或者未命中。


這時候問題就來了。當投射光線扭曲時,對於非透明對象而言,單個光線查詢查詢需要多個著色器調用實現,同時其他光線追蹤進程會立即終止讓道,導致了線程效率低下。


在第三代RT Core添加了微映射透明度引擎(Opacity Micro-Map,OMM)後,每個微三角形都會添加一個不透明狀態,RT Core會通過它來解析光線與不透明三角形的交點。具體的說,一個重心坐標(Barycentric Coordinates)交點用於處理對應的微三角形的透明狀態,如果不透明,記錄命中並返回,如果透明,忽略交集並進行下一輪探索,如果未知,則將控制權交回給SM,通過著色器編程方式解決交集。OMM引擎用於評估三角形網格中的射線/三角形求交測試,網格大小可以是1到1,600萬個,每個微三角形占用1個或2個bit,具體的圖片描述可以參考下圖。可以看到OMM將極大減少著色器的工作內容。


NVIDIA表示,在進行透明度遍歷的應用場景中,遍歷性能直接翻倍,同時性能提升幅度取決於使用情況,通常投射到透明度遍歷幾何體上的陰影光線會獲得追到收益。



微網格置換引擎(DMM)


幾何複雜性會隨著每一代產品更新而不斷添加,當光線追蹤開始應付更為複雜的環境,追蹤需求成百倍增加的時候,也意味著BVH構建時間和顯存也應該成百倍增加,顯然這是不可能的。這時候Ada Lovelace引入了微網格置換引擎(DMM)。


DMM主要目的就是幫助BVH加速過程中,降低存儲占用和傳輸成本。DMM利用幾何結構化表示利用空間相干性實現緊湊性,並加速細節層次技術(Level Of Detail,LOD)和輕量級渲染。在光線追蹤時,DMM可以讓BVH保持高效遍歷。在光柵化時,則可以通過DMM使用合適的網格著色器等等。


通過下圖對比可以看到,DMM將圖像中不同細節分成密度不同的微網格處理,紅色密度越高,細節越複雜。相反,低密度微網格區域則可以幫助著色器節省更多資源。



在DMM中,每個微網格由一個基礎三角形和置換圖構成,DMM會按需生成定義中的微三角形,以便解析微網格交叉點位置,並利用高密度網格來表示高解析度對象,同時將位移幅度壓縮到基礎三角形的置換圖中。最後通過重心坐標直接尋找到微頂點位移位置。這樣的處理方式是的BVH節省更多的資源,通過使用跟更少的網格完成同一個幾何圖形創建。



同時,DMM現在已經交付給Adobe、部分Xbox遊戲工作室進行測試,通過對比中可以看到,相同的幾何圖形通過DMM可以實現更快的創建速度和更小的體積,從而有效節約了更多資源。



著色器執行重排序(SER)


前面已經提到,就算RT Core再強大,也抵不住越來越複雜的工作負載需求。特別是在一個場景中遇到反射、二次反射、折射、陰影等隨機路徑跟蹤算法的時候,大量的運算資源可能都放在了不重要的路徑跟蹤上,反而降低了主體呈現的效率。


通常而言處理這種情況會有兩種手段,一種是直接執行發散,不同線程使用不同的著色器。另一種則是反過來,在著色器中通過代碼路徑和數據發散,線程直接訪問難以合併的緩存資源。但兩種情況都會遇到光線追蹤數量增多之後,效率分配不均的問題,這時候就需要引入一套調度機制了。


在Ada Lovelace中引入的這套技術被稱為著色器執行重排序(Shader Execution Reordering,SER),它可以即時重新排序著色工作,以實現更好的效率和數據本地化。事實上SER並非新技術,已經被研發多年。Ada Lovelace特別的地方在於在硬體設計時考慮了SER對內存系統優化,以及更高效的線程排序工作。



SER會通過一個API由應用程式完全控制,允許開發人員直接調用,根據工作的權重進行沖尋排序。同時SER也圍繞了光線追蹤著色器調用提供了構建渲染器的簡化辦法。在本質上,SER屬於Direct API繼承中的一部分,NVIDIA利用對SER的硬體支持與微軟或者其他公司標準圖形擴展API支持實現良好的效果。


以下圖的貓貓雕像光線追蹤為例,當光線從左往右射入,當線程將主光線射入場景之後,擊中相同物體的主光線會放到同一個著色器程序中,這時候執行效率是高效有序的。但從物體開始發生折射、漫反射之後,所產生的二次反射開始射向不同地方,執行變得混亂無序。這時候就就需要SER介入了。


SER可以區分出反射、間接照明、透明效果等二次射線,並將其重新排序,將重點分配給更重要的部分,從而提升整體光線追蹤著色效率。



NVIDIA表示,SER能夠在光線追蹤著色器中為諸如路徑追蹤等發散執行提供高達2倍性能提升,在《賽博朋克2077》的性能模式下,僅SER這一步就讓整體幀率提升了44%。


DLSS 3:遊戲與創意內容的砝碼


對於圖像處理而言,神經圖形學的加入,可以算是GPU、頂點著色器、CUDA之後的有一個重要里程碑,目前應用到遊戲和內容創作領域最多的功能就是深度學習超採樣(Deep Learning Super Sampling,DLSS)。在過去四年中,NVIDIA研究團隊一直在深挖利用DLSS改善遊戲的實際體驗,尋找在後摩爾定律時代尋找一種仍然能保持性能高速增長的方式。DLSS 2.X進化到DLSS 3就是很好的例子。


DLSS 3運行的前提是第四代Tensor Core,第四代Tensor Core的FP16、BF16、TF32、INT8、INT4性能相對前一代提升兩倍以上,並增加了商業Hopper GPU架構中出現的FP8 Transformer Engine。得益於AD102 GPU中SM處理器增加,每個SM包含了4個第四代Tensor Core數量自然也同步增加,最終實現了AI計算性能的顯著提升。


讓我們回到DLSS。DLSS本質是一種卷積自編碼器,在DLSS 2.X時代,通過AI模型訓練分析當前與過去的幀,以及幾何運動矢量,通過深度學習算法將將單幀的低解析度提升成高解析度,讓遊戲幀率獲得2倍以上的性能提升,特別是在2K、4K解析度以上的遊戲畫面更為明顯。



但這遠遠不夠,在DLSS 3上NVIDIA團隊找到了利用光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更為立體的分析方式,將卷積自編碼器的輸入源擴展到幾個部分,分別是:之前幀與當下幀,由光流加速器生成的光流場、遊戲運動矢量和深度等數據。


同時獲得四個源之後,DLSS會將新渲染的幀與之前的幀進行比較,並考慮運動矢量與光流場信息,了解場景如何變化,從而在兩者間生成一個全新的高質量幀,以增加遊戲的流暢性。換而言之,AI生成幀是不需要占用GPU渲染資源,而是完全由AI計算出來的。



DLSS 3也並非傳統意義上的單一技術,事實上它是一個軟體與硬體協同的集合。在軟體層面,DLSS 3使用AI超解析度生成,AI生成幀,加入對NVIDIA Reflex支持。在硬體層面,DLSS 3需要在第四代Tensor Core上運行,並利用改進的光流加速器幫助DLSS 3像素級的測量場景,最後雲端的NVIDIA超級計算機則夜以繼日的尋找提升高質量圖像的途徑。上述六種軟硬體結合,才最終實現了DLSS 3的高質量表現。



事實上光流加速器並非Ada Lovelace架構獨占,在Turing、Ampere架構中已經包含了光流加速器並獨立於CUDA Core,被用於視頻幀率提升,降低VR延遲等。


在Tensor Core被運用到消費產品的前一年,NVIDIA已經在商用的Volta架構推出Tensor Core,並隨後推出神經圖形加速NGX API,NGX其中一項功能就是利用AI Slow-Mo人工智慧慢鏡,對現有視頻插幀生成平滑無失真的慢鏡,這項功能也隨著Optical Flow SDK版本升級而達到現在的程度。



但以往的光流加速器不能像素級的捕捉畫面中的粒子、光反射、陰影、照明在遊戲引擎中的運動矢量信息,這讓後期處理光線追蹤效果變得非常困難。因為光線追蹤瞬息萬變,缺乏相同類型的運動矢量參考。單純的使用時間抗鋸齒算法,僅可以將前一幀像素與當前幀像素混合,會造成畫面重影、卡頓和模糊情況。比如街道行駛著的摩托車倒影就難以被預測和有效處理。


到了Ada Lovelace,新光流加速器與DLSS 3搭配,能夠計算出場景中的所有像素是如何從一個像素移動到另一個像素的,其中就包括陰影、光反射和粒子等光流場信息。同時通過神經網絡分析,分析之前幀與當前幀,最終獲得一個高清且自然的效果。



DLSS 3在光流加速器的搭配下實現了脫離GPU渲染重建高解析度方法,讓GPU渲染的部分大幅減少,以兩幀為例,DLSS 3會承擔起第一幀的3/4的工作和第二幀的所有工作,實際上GPU只需要完成其中的1/8的渲染即可,從而節省了大量的計算資源。



這就意味著DLSS 3能夠解決很多問題,比如進一步減輕CPU的負擔。比如在《微軟飛行模擬器》這樣的CPU高負載遊戲場景中,CPU需要每一幀都進行模型調用,最終導致GPU閒置,並在CPU完成調用後再進行下一步渲染操作。在DLSS 3中,GPU可以通過AI神經網絡自行生成新的幀而不再通過CPU,跳過了CPU模型調用的過程,從而直接將幀率翻倍。



同樣,當DLSS 3與NVIDIA Reflex配合,系統響應也會獲得進一步降低,在生成更多的幀之後通過Reflex抓住關鍵幀,並跳過渲染隊列,從而獲得更低的系統延遲。NVIDIA表示DLSS 3可以將系統延遲降低最多2倍。



為了讓DLSS 3能夠在遊戲和應用中得到快速部署,NVIDIA已經完成了Streamline SDK對DLSS 3的集成工作,包括AI超級解析度、AI幀生成以及NVIDIA Reflex組件。由於Ada Lovelace與Turing、Ampere的差異,DLSS 2.X與DLSS 3註定會共存上一段時間,但不會添加開發工作量。DLSS會根據硬體的支持情況啟動對應的功能,比如AI幀生成是GeForce RTX 40系列獨占,但之前的AI超級解析度則是所有GeForce RTX系列都能使用,NVIDIA Reflex則是GeForce GTX 900系列以後的GPU都能開啟。


基本上,DLSS 3在遊戲體驗最重要的三個方面,即流暢性、響應性、圖像質量都給予了更高質量的保障,從而成為GeForce RTX 40系列提升遊戲體驗的關鍵功能。



AV1雙編碼器:直播變得更輕鬆


編解碼器同樣也是GPU升級中的重要一環,特別是對新型格式提供硬體編解碼器之後,性能提升便會愈發明顯,同時也可以節約通過軟體編解碼消耗的大量資源。在Ada Lovelace中就首次加入了AV1雙編碼器,這是Ampere架構加入AV1解碼器之後的又一步提升。


AV1編碼是由英特爾、微軟、亞馬遜、谷歌、網飛等頭部企業根據網際網路需求制定的頭部企業根據網際網路需求制定的下一代視頻編碼格式,開放並且免費。它的特點是能在相同文件體積下擁有更高清的畫質,或者相同清晰度的畫質下擁有更小的體積。


如果與GeForce RTX 30系列進行對比,GeForce RTX 40系列的AV1編碼器能比H.264編碼器效率高出40%。這意味著AV1編碼器能夠利用現階段可以進行1080p串流視頻的帶寬,實現1440p甚至更好的畫質,比如同樣的帶寬占用下,在嗶哩嗶哩可以輕鬆播放2K或者4K的視頻,而播放4K的帶寬也將可以用來播放更高解析度的內容,前提是網站能有所提供。



AV1編碼器在運算性能上對GPU也有著更高的要求,它需要通過進一步利用運動矢量來改進視頻壓縮性能,支持8K解析度捕獲,對顯存要求也非常高。


在NVIDIA規劃中,會對12GB顯存以上的GeForce RTX 40系列GPU提供AV1雙編碼器功能,相當於將畫面一分為二,兩個AV1編碼器共同工作,效率翻倍,從而實現8K 60FPS專業視頻編輯,同時處理4個4K 60FPS視頻,一台電腦完成多路4K畫質60FPS輸出等以前不敢想像的玩法。



在軟體支持上,NVIDIA會率先與DaVinci Resolve、Adobe Premiere Pro插件Voukoder以及剪映展開合作,在GeForce RTX 40系列上市之後同步推出。


Broadcast變得更智能


最後是主播更關心的Broadcast。從2020年發布Broadcast應用開始,NVIDIA工程師團隊就開始著手Broadcast SDK的推進工作,方便將Broadcast功能融入到更多直播應用中,發揮GPU更多價值,目前主流應用包括OBS Studio、羅技G Hub等。


新版的Broadcast SDK功能主要提升了虛擬背景性能,面部表情模擬,以及眼神接觸。其中虛擬背景性能提升是利用了時序網絡信息對畫面進行高質量分割,從而更好的區分出人與物體,表面虛擬化背景不自然的出現異物。時序網絡相當於動態網絡與時間戳結合的產物,也就是在網絡上的各個節點經過編程處理的同時加上時間戳,信息之間產生連貫性,也方便程序更好的做出判斷。


面部表情模擬屬於增強現實工具包的一個新功能,能夠將主播的表情更好的傳遞給數位化的虛擬人物臉上,讓虛擬人物表情更為真實,無疑是VTuber的最愛。事實上NVIDIA確實在做了,他們與頂流應用之一的VTube Studio展開合作,十月份就會同步更新對應的支持。


眼神接觸很好理解,正常來說我們的眼球一般會看著屏幕而非屏幕上方或者側方攝像頭,導致我們的眼球在視頻中不會正對屏幕,與觀眾產生交流。眼神接觸可以自然的矯正這個問題,包括正確的識別眨眼,消除看提詞器時候產生眼球運動等。



上述Broadcast SDK的所有功能很快就會實裝到周邊硬體中,目前包括羅技、海盜船Elgato都已經確認對增強效果的支持,通過軟體更新,這些品牌的攝像頭搭配GeForce RTX顯卡就能免費獲取對應的智能功能。


寫在最後:製程與技術的雙重進步


可以看到GeForce RTX 4090背後的Ada Lovelace架構實際上是製程工藝、軟硬體技術結合的雙重提升,包括第三代RT Core加入的新引擎,引入著色器執行重排序支持,第四代Tensor Core與光流加速器配合實現DLSS 3的AI幀生成,AV1雙編碼器提升高解析度視頻處理性能,以及Broadcast SDK的更智能表現,都展示了GeForce RTX 4090,Ada Lovelace架構的先進性。


當然這僅僅是開始,隨著GeForce RTX 4090評測解禁,我們將能更直觀的感受新GPU給遊戲、直播、視頻編輯、專業軟體內容創作等質的提升,並且也能更好理解黃氏定律替代摩爾定律背後的邏輯。而所有提升的前提,都建立在GeForce RTX 40系列強大的性能支撐上。


關鍵字: