NVIDIA 助力 DeepRec 為 vivo 推薦業務實現高性能 GPU 推理優化

nvidia英偉達中國 發佈 2023-01-19T02:29:57.904325+00:00

2020 年底,騰訊遊戲成立內容生態部門,旗下擁有虛擬人、虛擬製片等多個業務線。2021 年 11 月 CDD 在深圳坪山建成了總占地 3000 平米的 LED 虛擬影棚。


騰訊互娛內容生態部(Content Development Department,以下簡稱 CDD)正在構建以 NVIDIA RTX A6000 + NVIDIA BlueField-2 DPU + Spectrum-3 交換機等先進技術為基礎的新一代超大解析度渲染平台。雙方團隊沿著視頻流超低延遲傳輸這一方向進行持續的技術攻關,將 NVIDIA Rivermax 整合到生產軟體環境中,進一步降低了超大解析度渲染平台的交互延遲。


本案例主要應用了 NVIDIA Rivermax,NVIDIA RTX A6000,NVIDIA BlueField-2 DPU,NVIDIA Spectrum-3 交換機。


客戶簡介及應用背景


作為國內遊戲大廠,騰訊早早布局虛擬製片業務。2020 年底,騰訊遊戲成立內容生態部門(Content Development Department,以下簡稱 CDD),旗下擁有虛擬人、虛擬製片等多個業務線。2021 年 11 月 CDD 在深圳坪山建成了總占地 3000 平米的 LED 虛擬影棚。影棚配置有 40m*6m 的 240° 弧形 LED 立面屏幕,並配有可上下移動的 100 多平方米的天幕。LED 點間距 2.3,支持高速拍攝。



為了在硬體和軟體上持續保持領先, CDD 與業內領先企業頻繁交流,不斷改進自研軟體以提升虛擬拍攝影棚的製作體驗。


客戶挑戰


在虛擬影棚中,LED 立面屏幕被分割為多個顯示區域,每個顯示區域由不同的工作站驅動,其呈現的內容則由其搭載的 GPU 渲染完成。


在實時拍攝過程中,需要 LED 光照、實時攝像機追蹤和實時渲染投屏三者的結合,實現前台演員和虛擬背景之間的完美整合。這種拍攝方案消除了對綠幕合成的需求,讓攝像機直接拍攝最終成像。


而所有需要在大型 LED 立面屏幕上顯示實時渲染內容的行業都面臨著一個普遍挑戰,即每個渲染節點其實是一個獨立運行工作站,在實際拍攝製片過程中,不僅需要消耗大量的計算資源用於渲染高解析度高幀率的高品質實時內容,還需要同步所有渲染節點間的技術參數,同時推進所有顯示媒介的呈現內容。目前鮮有人在這一領域取得突破,原因可以歸納為以下幾個方面:


  • 每台工作站需要獨立渲染特定顯示區域的內容,在保證高標準畫面渲染細節的同時還需要維持面板刷新一致,對 GPU 性能提出了極高要求。
  • 節點間存在通訊障礙,普通同步方式不能保證所有節點的幀同步,一旦出現不同步就會造成畫面撕裂影響觀看體驗。
  • 節點間參數同步和數據傳輸占用了大量的網絡帶寬和 CPU 資源,進一步造成節點間時間同步的不可預測。


由於上述瓶頸導致渲染平台整體無法進一步提升成片的幀率和解析度,無法進一步滿足人們對於高幀率渲染實時內容的需求。


應用方案


客戶的超大解析度渲染平台通過集成 NVIDIA Rivermax 整體方案,解決了這些難題。完成集成後的系統架構如下圖所示:


圖 1. 系統架構圖


新的平台由 NVIDIA RTX A6000 承擔分布式實時渲染任務。RTX A6000 擁有 48GB 顯存,可以將拍攝場景需要的模型和紋理數據全部加載到顯存中,在拍攝過程中按需調用。渲染節點支持多 GPU 進行視口渲染,此模式支持創作者指定一個 GPU 渲染特定視口,並通過 NVLink 將渲染結果直接複製到另一個 GPU 上顯示輸出。而多個顯示區域則通過 NVIDIA Quadro Sync II 同步 vsync 信號,並結合 NVIDIA 專業顯卡提供的 NVAPI swapgroup/barrier 技術將渲染結果完美的拼合在一起。


此外整個渲染平台通過添加 NVIDIA BlueField-2 DPU 和 NVIDIA Spectrum-3 交換機,具備了運行 NVIDIA Rivermax 整體方案的硬體能力。


NVIDIA Rivermax 提供了高性能的流媒體傳輸服務,這種服務在 Windows 平台上實現了 GPU Direct P2P 支持,消除了額外的 GPU 顯存到系統內存的拷貝,降低了作業系統層面的延遲,同時也降低了 CPU 資源的占用,從而讓整個渲染平台的運行更為可靠。啟用 NVIDIA Rivermax 後,單顆 CPU 核心可以輕鬆收發 100Gbps 的媒體流。


圖 2. 單顆 CPU 核心收發 100Gbps 媒體流


而且整個平台也具備了部署 DOCA Firefly 的條件。DOCA Firefly 是 NVIDIA 提供的基於硬體的精確時間同步服務。在 NVIDIA BlueField-2 DPU 上部署 DOCA Firefly 可以實現納秒級別的時間同步精度,其典型值如下表所示:



使用效果及影響


騰訊 CDD 綜合 NVIDIA 提供的各項產品,使用 NVIDIA RTX A6000 實時渲染,使用 NVIDIA Rivermax 在 GPU 顯存間直接傳輸數據,使用 NVIDIA BlueField-2 DPU 部署精確時間服務 DOCA Firefly 來同步所有渲染節點的系統時鐘,使用 NVIDIA Spectrum-3 交換機複製 GPU 顯存數據並承載時鐘網絡,通過這一系列改進措施,最終實現了在 LED 立面屏幕上以超低延遲呈現數字流資產的能力。

關鍵字: