如何評測端到端音視頻質(zhì)量?
作者 | 袁小霞、黃挺,單位:中國移動智慧家庭質(zhì)量測試部
Labs 導(dǎo)讀
隨著視頻通話、直播的廣泛應(yīng)用,音視頻產(chǎn)品種類和形式越來越多。為了對多終端的軟硬件音視頻能力進行評測,整合業(yè)界的音視頻測試標準,提出多場景端到端音視頻質(zhì)量評測方案,可以覆蓋多種端到端音視頻質(zhì)量評測場景。
Part 01 音視頻質(zhì)量評測體系
在音視頻的業(yè)務(wù)場景中,不僅包含實時的視頻通信、視頻直播、視頻點播,還包含云存儲和云游戲等。通過自動化音視頻測試平臺,評測類型由主觀評價和客觀評價組成,結(jié)合專家打分、專家儀表和軟件工具,分別提出音頻和視頻的業(yè)務(wù)指標,集合PESQ、POLQA等音視算法和PEVQ、NIQE等視頻算法,構(gòu)成一整套音視頻質(zhì)量評測體系。
Part 02 多場景測試組網(wǎng)
根據(jù)多場景測試需要,整合思博倫網(wǎng)絡(luò)損傷儀器Attero和音視頻質(zhì)量測試設(shè)備Chromatic Umetrix,搭建有參考源測試環(huán)境、無參考源測試環(huán)境和SDK hook有參考源測試環(huán)境。其中有參考源和無參考源測試環(huán)境適用于競品對標的橫向測試中,發(fā)送端采集音視頻片源,測試設(shè)備錄制接收端播放音視頻并分析的場景;SDK hook有參考源測試環(huán)境適用音視頻底層能力的眾向?qū)Ρ葴y試中,通過hook方式,調(diào)用音視頻底層接口將測試指定片源注入到發(fā)送端編碼,接收端解碼音視頻后直接通過音視頻質(zhì)量設(shè)備進行分析。組網(wǎng)如圖1所示。
圖1 多場景端到端音視頻質(zhì)量評測組網(wǎng)
Part 03 多場景多維度網(wǎng)絡(luò)方案
根據(jù)測試統(tǒng)計結(jié)果及參考真實用戶的網(wǎng)絡(luò)使用場景設(shè)計了如下多場景多維度的網(wǎng)絡(luò)測試方案:
- 無限制網(wǎng)絡(luò):網(wǎng)絡(luò)帶寬無限制、0%丟包率、0ms抖動;
- 低帶寬限制網(wǎng)絡(luò):1Mbps帶寬限制、0%丟包率、0ms抖動;
- 常規(guī)帶寬限制網(wǎng)絡(luò):2Mbps帶寬限制、0%丟包率、0ms抖動;
- 輕度擁塞網(wǎng)絡(luò):3Mbps帶寬限制、5%丟包率、50ms抖動;
- 中度擁塞網(wǎng)絡(luò):2Mbps帶寬限制、20%丟包率、100ms抖動;
- 高度擁塞網(wǎng)絡(luò):1Mbps帶寬限制、35%丟包率、100ms抖動;
Part 04 Gerrit音視頻質(zhì)量評價模型及應(yīng)用
4.1 音視頻質(zhì)量評價指標
- MOS(GED):GED (Gross Error Detection)提供基于幀的針對音視頻業(yè)務(wù)質(zhì)量的 MOS評分。GED從用戶感知角度對流媒體點播、音視頻通話等音視頻業(yè)務(wù)的音視頻流暢度進行分析。同時提供其他實用的KPI指標,對影響音視頻質(zhì)量的因素進行量化,用來評估音視頻流暢度性能、音頻音視頻同步(需要結(jié)合音頻評估算法)等;
- MOS(NR):基于機器學(xué)習(xí)的AI無參考音視頻圖像質(zhì)量分析。無需預(yù)設(shè)音視頻源,模擬人眼對音視頻圖像質(zhì)量進行MOS打分(1分=差 - 5分=好),同時無參考檢測音視頻TI (Temporal Information)時間復(fù)雜度、SI (Spatial Information)空間復(fù)雜度、緩沖,卡頓等狀況,結(jié)合各種如(不同壓縮比及分辨率下)音視頻圖像質(zhì)量MOS分,給出一個用戶感知體驗(QoE)分值;
- 幀率:音視頻幀率(Frame rate)是用于測量顯示幀數(shù)的量度,一幀代表一副靜止的圖像,測量單位為每秒顯示幀數(shù)(Frames per Second,簡:FPS);
- 凍幀率:即音視頻凍屏百分比,通過測試過程中識別出的音視頻畫面凍結(jié)時長/測試音視頻總時長得出;
- 破損率:即音視頻破損百分比,通過測試過程中識別出的音視頻畫面破損幀數(shù)量/測試音視頻總幀數(shù)得出;
- 音畫同步:指音頻與視頻畫面的時間戳一致性,測量單位為毫秒(ms)。
4.2 音視頻質(zhì)量評分方法
根據(jù)上述關(guān)鍵指標,依據(jù)音視頻流暢度、清晰度指標對實際音視頻體驗影響權(quán)重,得出最貼近用戶真實體驗的得分評價算法:
- 單個場景得分(總分10分)=音視頻流暢度得分(總分5分)+音視頻清晰度得分(總分5分) = MOS(GED)x 20%+幀率x 10%+凍幀率 x 10%+音畫同步 x 10%+MOS(NR)x 30%+破損率 x 20%
- 綜合得分(總分10分)=無限制網(wǎng)絡(luò)場景得分(總分4分) + 帶寬限制網(wǎng)絡(luò)場景得分(總分3分)+擁塞網(wǎng)絡(luò)場景得分(總分3分)=無限制網(wǎng)絡(luò)場景得分 x 40% + 低帶寬限制網(wǎng)絡(luò)場景得分 x 15% +常規(guī)帶寬限制網(wǎng)絡(luò)場景得分 x 15% + 輕度擁塞限制網(wǎng)絡(luò)場景得分 x 10% + 中度擁塞限制網(wǎng)絡(luò)場景得分 x 10% + 重度擁塞限制網(wǎng)絡(luò)場景得分 x 10%
評價算法分析:
- 單個指標評分范圍為[0,10],8-10分為優(yōu)秀,6-8分為良好,4-6分為一般,2-4分為差,2分以下為很差;
- 單個場景得分中音視頻流暢度指標和音視頻清晰度指標得分評分范圍為[0,5],4-5分為優(yōu)秀,3-4分為良好,2-3分為一般,1-2分為差,1分以下為很差;
- 綜合得分評分范圍為[0,10],8-10分為優(yōu)秀,6-8分為良好,4-6分為一般,2-4分為差,2分以下為很差;
4.3 音視頻質(zhì)量評價模型應(yīng)用
以上評價模型應(yīng)用于自研產(chǎn)品縱向測試和行業(yè)頭部產(chǎn)品對標測試數(shù)據(jù)對比中,以下是部分測試數(shù)據(jù)統(tǒng)計。
自研產(chǎn)品在優(yōu)化期間進行縱向?qū)Ρ葴y試和行業(yè)頭部產(chǎn)品對標測試。在6種網(wǎng)絡(luò)場景下,自研產(chǎn)品綜合得分提升7.5分,整體質(zhì)量有明顯提升。與行業(yè)頭部產(chǎn)品對標測試中,公司自研產(chǎn)品在各網(wǎng)絡(luò)場景得分排名,從2020年的第5名上升至2021年的第2名。
Part 05 結(jié)束語
在高質(zhì)量發(fā)展的大背景下,關(guān)注服務(wù)質(zhì)量、用戶體驗是音視頻產(chǎn)品測試發(fā)展動力之一。為了解決多場景端到端的音視頻測試技術(shù)薄弱,評價體系單一的問題,提出多場景、多維度、高可靠的音視頻質(zhì)量評價體系。借助完善的評價體系,可以精準的評估出待測產(chǎn)品的音視頻質(zhì)量,最終得分也更貼近于真實的用戶體驗,推動音視頻能力技術(shù)的快速提升。