淺析VR視頻傳輸方案

Labs 導(dǎo)讀
VR視頻屬于一種弱交互、輕交互業(yè)務(wù),這類(lèi)視頻一般經(jīng)過(guò)預(yù)先編排、規(guī)劃后,用戶在VR終端以任意自由度視點(diǎn)觀看。用戶與視頻的交互主要發(fā)生在用戶轉(zhuǎn)頭改變當(dāng)前視點(diǎn)上。VR視頻在分辨率、幀率、色深等多維度指標(biāo)上相較于傳統(tǒng)視頻要求更高。
Part 01、 VR視頻業(yè)務(wù)流程
VR視頻從引入、發(fā)布到在VR終端設(shè)備播放經(jīng)歷了哪些流程呢?如下圖所示,流程中一般涉及內(nèi)容提供方(Content Provider,CP)、運(yùn)營(yíng)管理方、運(yùn)營(yíng)商業(yè)務(wù)平臺(tái)、承載網(wǎng)絡(luò)和終端廠商等多家機(jī)構(gòu)。

Part 02、 VR視頻指標(biāo)
VR視頻傳輸除了和上述業(yè)務(wù)流程相關(guān)外,也和用戶體驗(yàn)質(zhì)量(Quality of Experience,QoE)密切相關(guān)。一般地,用戶主要關(guān)注視頻畫(huà)面質(zhì)量、初緩時(shí)長(zhǎng)、卡頓情況等,具體指標(biāo)參數(shù)如下表所示。

Part 03、VR視頻傳輸方案
終端每個(gè)角度可見(jiàn)的像素?cái)?shù)量(Pixels Per Degree,PPD)用來(lái)表示VR視頻像素的密度。視場(chǎng)內(nèi)像素密度越高,清晰度越高、觀看體驗(yàn)越好。人的單眼水平視場(chǎng)角約為160°,垂直視場(chǎng)角約為150°,以PPD為20進(jìn)行換算,要求視頻內(nèi)容的全視角分辨率達(dá)到8K(7680×4320)。若考慮幀率、色深和立體感等其他維度的指標(biāo),視頻流數(shù)據(jù)量更大,碼率要求更高。因此,VR視頻傳輸技術(shù)重點(diǎn)解決上述問(wèn)題。
3.1 高質(zhì)量全視角傳輸方案
高質(zhì)量全視角傳輸方案對(duì)全視角的VR視頻源內(nèi)容進(jìn)行投影、切片、編碼后,平面媒體格式的內(nèi)容由運(yùn)營(yíng)商網(wǎng)絡(luò)以同等質(zhì)量傳輸至終端,終端對(duì)全視角的內(nèi)容進(jìn)行全部或部分切片解碼、渲染,如下圖所示。
圖片
方案優(yōu)勢(shì):用戶在進(jìn)行視角(File of View,fov)切換時(shí),終端完成包括碼流解析、視頻解碼和畫(huà)面渲染等處理,用戶能即時(shí) (Just-in-time) 看到同等質(zhì)量的內(nèi)容。
方案不足:1)受限于人眼水平、垂直視場(chǎng)角和現(xiàn)有終端支持視角(可支持的視角為90°~110°),一般能看到的360°球面信號(hào)約為整個(gè)全景的19%,以同等質(zhì)量傳輸全視角內(nèi)容造成網(wǎng)絡(luò)資源浪費(fèi)。2)全視角內(nèi)容要求終端側(cè)具備與內(nèi)容同等分辨率的解碼能力。3)等距柱狀投影借鑒地圖經(jīng)緯線投影的思想,將球面展開(kāi)為平面矩形,依靠增大面積變形保持角度不變(空間球體畫(huà)面在赤道部分投影展開(kāi)后失真小,而越向兩極,畫(huà)面失真越大),改方式投影引入過(guò)多無(wú)效冗余像素,文件壓縮效率較低。
3.2 基于投影優(yōu)化的全視角傳輸方案
基于投影優(yōu)化的全視角傳輸方案使用多面體投影(Platonic Solid Projection,PSP),選擇部分經(jīng)緯線作為邊界將空間球體面分割成多個(gè)部分,再將各部分的局部球面投影到某個(gè)多面體(包括四面體、六面體、金字塔、立方體等)的不同面上。多面體投影將球面的不同區(qū)域投影到多面體不同面積大小的面,由于每個(gè)區(qū)域單獨(dú)投影,相較于等距柱狀投影極大程度降低了畫(huà)面失真?;谕队皟?yōu)化的全視角傳輸技術(shù),雖然減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量,但仍會(huì)傳輸大量未呈現(xiàn)給用戶的內(nèi)容。
3.3 分片傳輸方案
分片傳輸方案對(duì)用戶fov區(qū)域使用高質(zhì)量畫(huà)面保障視場(chǎng)內(nèi)畫(huà)質(zhì),對(duì)非FoV區(qū)域使用低質(zhì)量畫(huà)面,使得用戶在切換視角時(shí)能看到畫(huà)面,保障用戶切換體驗(yàn)。如下圖所示,分片傳輸方案將高質(zhì)量的全視角畫(huà)面劃分成多個(gè)分片,分別對(duì)每個(gè)高質(zhì)量分片進(jìn)行編碼。通過(guò)降質(zhì)處理高質(zhì)量分片獲取對(duì)應(yīng)的低質(zhì)量分片。終端根據(jù)用戶當(dāng)前視角姿態(tài)向內(nèi)容側(cè)請(qǐng)求對(duì)應(yīng)FoV內(nèi)高質(zhì)量分片和非FoV區(qū)域的低質(zhì)量分片,再對(duì)獲取的分片進(jìn)行解碼、拼接成完整畫(huà)面。為減少傳輸數(shù)據(jù)量,非FoV區(qū)域的低質(zhì)量分片也可選擇不全部傳輸,僅傳輸部分角度(比FoV大)區(qū)域內(nèi)的低質(zhì)量分片。
圖片
方案優(yōu)勢(shì):1)只分片傳輸fov和部分非fov的方式降低網(wǎng)絡(luò)傳輸需求,在終端側(cè)復(fù)用部分重疊區(qū)域視頻分片,能進(jìn)一步減少內(nèi)容側(cè)向終端側(cè)推送數(shù)據(jù)量。2)非fov區(qū)域低質(zhì)量分片和fov區(qū)域高質(zhì)量分片組合傳輸極大提升了視角切換體驗(yàn)。
方案不足:1)分片傳輸方案需要在終端對(duì)分片進(jìn)行實(shí)時(shí)拼接,終端側(cè)引入更多計(jì)算,對(duì)終端計(jì)算能力要求更高。2)拼接算法效率或有效性不足,會(huì)帶來(lái)畫(huà)面拼接錯(cuò)位、高低質(zhì)量分片拼接明顯等問(wèn)題。
3.4 基于全視角的分片傳輸方案
基于全視角的分片傳輸方案在內(nèi)容側(cè)提供了低質(zhì)量的全視角視頻流和高質(zhì)量的分片視頻流。終端側(cè)根據(jù)當(dāng)前的視角信息,向內(nèi)容側(cè)獲取低質(zhì)量的全視角視頻流以及視角區(qū)域范圍內(nèi)的高質(zhì)量分片視頻流并進(jìn)行融合呈現(xiàn)?;谝曨l分片的自適應(yīng)視頻傳輸(Tile Wise Streaming,TWS)方案典型代表,TWS傳輸方案被動(dòng)態(tài)圖像專(zhuān)家組織(Moving Picture Experts Group,MPEG)的全景視頻格式(Omnidirectional Media Format,OMAF)工作組所采納,并被寫(xiě)入了最新的標(biāo)準(zhǔn)ISO/IEC 23090-2。如下圖所示,TWS方案在內(nèi)容側(cè)準(zhǔn)備了具備基本質(zhì)量要求的全視角視頻流和高質(zhì)量的Tile(分塊,即按照矩形劃分的分片)視頻流,內(nèi)容側(cè)依據(jù)終端視角信息推送全視角視頻流和視角范圍內(nèi)的多份Tile視頻流,再由終端進(jìn)行解碼、拼接和呈現(xiàn)等。
圖片
方案優(yōu)勢(shì):1)全視角低質(zhì)量畫(huà)面不受網(wǎng)絡(luò)傳輸和終端解碼能力制約,全視角低質(zhì)量畫(huà)面是確定的,無(wú)需終端按需獲取再進(jìn)行實(shí)時(shí)拼接,降低了終端的拼接計(jì)算壓力。2)在網(wǎng)絡(luò)較差場(chǎng)景下,視頻能以基本質(zhì)量播放,保障了播放流暢度。3)更適用于大屏電視等性能相對(duì)較低的終端。
Part 04、 總結(jié)
分片傳輸技術(shù)方案在fov切換時(shí)體驗(yàn)更佳,目前在該方案上出現(xiàn)大量fov預(yù)測(cè)相關(guān)研究。基于多自由度的視覺(jué)慣性測(cè)距、眼部追蹤等技術(shù),借助AI模型預(yù)測(cè)用戶視角規(guī)律,并將預(yù)測(cè)內(nèi)容文件緩存至移動(dòng)邊緣網(wǎng)絡(luò),借助邊緣緩存和計(jì)算能力,提前完成流行內(nèi)容緩存、近場(chǎng)渲染、GPU云渲染,讓用戶獲得更流暢VR體驗(yàn)。















 
 
 

 
 
 
 