OWT 雲遊戲自動音視頻測試探索

livevideostack 發佈 2020-08-25T12:37:56+00:00

在日益臨近的5G時代下,5G網絡和新的流視頻遊戲服務將在未來幾年內讓雲遊戲的增長一觸即發,雲遊戲已漸成行業熱點。整理 / LiveVideoStack。


在日益臨近的5G時代下,5G網絡和新的流視頻遊戲服務將在未來幾年內讓雲遊戲的增長一觸即發,雲遊戲已漸成行業熱點。英特爾基於OWT(Open WebRTC Toolkit)也對雲遊戲使用場景所需要的高解析度,高比特率和高幀率的視頻超低延時的實時傳輸做了深入研究和廣泛優化。雲遊戲中音視頻延時,音畫同步尤為重要。遊戲中最為關注的音視頻檢測是怎麼實現的?音視頻同步檢測是通過什麼方式自動化實現的呢?本次講座將圍繞上述幾個問題從痛點,難點和解決方案一一展開。


文 / 張琰彬

整理 / LiveVideoStack


大家好,我是英特爾亞太研發中心OWT測試負責人張琰彬,這次給大家帶來的議題是OWT(Open WebRTC Toolkit))雲遊戲自動音視頻測試探索。



內容主要涉及四個部分,分別是項目背景介紹、音視頻傳播流程(從分析中看哪些因素會引起音視頻偏差)、音視頻評估的標準和方法,系統性能評估輔助方法介紹。


1. 項目背景介紹


大家看到這些圖會想到什麼?會不會想到我們最近疫情在家工作的場景。隨著流量包的提升和帶寬計費的下降,長短視頻最近非常火爆,疫情期間,在家上班、小朋友在家學習、在家會議已經成為了一種生活的常態,它們從生活的可選項瞬間變成了生活的必需品。上圖左邊的雲遊戲作為一種新的遊戲視頻服務方式,在未來幾年雲遊戲的增長一定會因為各種原因一觸即發。雲遊戲已然成為了業界追蹤的熱點,我們英特爾基於OWT對於雲遊戲使用場景所需要的高解析度、高幀率的視頻,同時又需要滿足低延時的實時傳輸,在這方面我們做了深入的研究和廣泛的優化。其實無論是音視頻會議系統還是雲遊戲場景中,音視頻的質量,用戶的體驗比如說音視頻的延時、音視頻的卡頓、音畫是否同步都極為重要。那麼最為關注的音視頻的檢測是怎麼實現的呢,比如說音畫同步怎麼做?音視頻的檢測方法和算法有哪些呢?怎麼融入到我們檢測體系中呢?這就是我將一一展開和大家講解的內容。


2. 音視頻傳播流程分析

2.1 傳統音視頻傳輸流程和問題分析


  • 傳輸流程


上圖是一個傳統的音視頻傳輸的流程,左邊是發送方,我們可以想像成一個一對一的會議模式,右邊是接收方。發送方首先要進行視頻的採集,不管是用什麼設備,用瀏覽器、用中間設備、用虛擬攝像頭、用真正的文件傳輸或是用真正的Camera傳輸或者視頻,首先都得進行採集。採集之後進行前處理降噪,加水印或美顏的功能,再進行編碼,通過網絡的傳輸,編碼後的視頻傳輸到中間伺服器,伺服器會進行視頻的中轉、處理,比如說會議模式會將多路收集到的視頻進行合併、壓縮、轉碼等等。在伺服器會進行解碼壓縮再編碼,隨後視頻通過網絡傳輸送到接收方,接收方拿到這個視頻後會進行後處理和渲染。


  • 問題分析

在整個流程中哪些地方會對音視頻的質量或者說發送給接收方的音視頻造成偏差呢?首先是發送方的採集,採集會有有損的損耗;其次是前處理;再然後是編碼,最後是發送方到接收方網絡因素的干擾,可能是網絡帶寬,網絡丟包等等影響。服務端這邊如果進行一個轉碼,解碼,再編碼,或者進行編碼的轉變,或者進行一個壓縮都是有損的。接收方這邊處理渲染也會帶來一部分的損耗,可以看到視頻從發送方到接受方的過程會經過各種各樣的曲折。


2.2 雲遊戲音視頻傳送流程分析


其實雲遊戲和上述傳統音視頻傳輸流程很類似,它們不同的點在於在雲遊戲的雲端會有個終端遊戲伺服器,終端遊戲伺服器會進行遊戲音視頻的捕捉,在捕捉之後將遊戲音視頻進行一個編碼,編碼之後傳輸到客戶端,客戶端可能是瀏覽器,也有可能是終端設備,再解碼、後處理、渲染播放。那麼整個流程中哪些會對音視頻有影響呢?一是服務端音視頻的捕捉和編碼;二是網絡傳輸;三是終端的解碼,後處理,渲染播放等等。


3. 音視頻評估標準和方法


在了解到了傳統的音視頻傳輸流程中一些步驟會導致音視頻偏差,我們需要思考如何做音視頻的評估,評估時的方法和標準及其使用。我將音視頻評估標準和方法分為了以下幾個部分:視頻質量評估、音頻質量評估、音畫同步、音視頻延時。


3.1 視頻質量評估

視頻的質量評估分為兩種:主觀評估和客觀評估。


主觀評估顧名思義就是用人工評估,那麼人工評估並不是我們聽一聽就好了這麼簡單。人工評估目前來說在各種協會比如說IEC、EBU、ITU等等國際電信聯盟都有相應的標準,以上的圖是我截取它們標準文檔的形式,首先是左上角的一個音頻設備,如果要搭建一個音視頻的實驗室,需要注意廣播設備的設置位置、廣播設備的距離、分貝的大小。那我們對視頻評估要注意音視頻實驗室觀看距離的設定、觀看視頻序列的設定、對觀測人員人數的限定(男女比例,老少比例,國籍比例等)。


由此可以看出搭建一個主觀評估的音視頻實驗室所需要耗費的時間、財力、人力成本是比較高的。評估之後會得出什麼樣的結論呢?通常是一個1分到6分的結果:一分表示非常差、3分表示還可以接受,5分之後是非常好了。除了人力財力消耗比較高以外,主觀評估問題還有:我們要對非專業人員以專業標準進行培訓;隨機選取的人員也會導致主觀的差異、重複性低、數據無法量化,缺乏參考性、受到測試客觀環境的影響,比如如果視頻觀看遠近的切換,順序的切換有可能會影響最終的結果。當然它也有優點,這樣的結果始終是人的感官,而評估的目標就是為了知道這個音視頻給人感官的最後結果。



視頻客觀評估,通常稱為VQA(Video Quality Assessment),而Video通常是用一幀一幀的視頻幀數來組成的,每個視頻幀其實就是一張張圖片,我們會將VQA轉成IQA(Image Quality Assessment)。IQA的研究算法其實有很多,目前有很多學者會將IQA加入時域的特性,再轉成VQA的結果,進行客觀評估。客觀評估分為兩類:有參考評估和無參考評估。

  • 客觀評估-有參考評估



有參考評估是什麼?從字面上非常好理解,就是將參考視頻和待評估視頻一一對標之後輸入到評估算法和評估體系,最後得到分數。


面對五花八門的各種算法,什麼叫做好的算法呢?在業界上有很多開源的資料庫。各種學者和研究人員將他們的算法進行研究。上圖左邊TID 2008是大家都知道的圖像的資料庫,其實更新的是TID 2013。根據TID 2008的文檔描述,它是由一些正常的圖片和一些扭曲之後的圖片組成的。比如說正常圖像占一部分,接下來會增加一些高斯噪聲的圖片,或者是一些有選編碼之後的圖片,這些都有詳細的描述。


右圖是我們從公開的算法資料庫中獲取的,判斷算法的好壞通常是選幾個database,在database上進行評測,評測算法和資料庫中評估出來的評分,資料庫除了之前所說的圖像,還有一些扭曲視頻,另外一個很重要的因素是它會對提供的每張圖片做一個主觀打分的數值。算法和這個數值的相關性可以從PLCC、SROCC計算。相關關係函數的結果表示的是算法和真實的MSE值的偏差。通常絕對值越高,表示算法的性能越好。在拿到一些精簡的算法後會在各個資料庫中進行對比,比如PSNR、SSIM、VMAF等等。在每一個database里,這些相關關係函數得出的結果都比已有的算法好,那麼就是一個很好的新算法。



那麼在我

關鍵字: