五分鐘技術(shù)趣談 | 語(yǔ)義通信技術(shù)助力平安鄉(xiāng)村建設(shè)
Part 01
語(yǔ)義通信技術(shù)
平安鄉(xiāng)村業(yè)務(wù)的快速普及以及攝像頭的高清化,為用戶的生活帶來(lái)“安全感”,但同時(shí)也面臨接入終端海量接入、碼率持續(xù)增長(zhǎng)、場(chǎng)景日益復(fù)雜等方面的挑戰(zhàn)。傳統(tǒng)框架內(nèi)用計(jì)算復(fù)雜度換壓縮率的編碼優(yōu)化路徑,碼率下降幅度漸緩,呈現(xiàn)瓶頸趨勢(shì);同時(shí),通信信道容量已趨近極限,難以滿足快速增長(zhǎng)的海量視頻數(shù)據(jù)在傳輸、存儲(chǔ)、分析等方面的需求。人腦可達(dá)到超高的圖像視頻壓縮性能,其機(jī)理為視覺(jué)皮層具有邊緣檢測(cè)、形狀識(shí)別、運(yùn)動(dòng)識(shí)別等功能,下顳葉能識(shí)別復(fù)雜物體和面孔,即提取結(jié)構(gòu)化的語(yǔ)義信息。傳統(tǒng)的圖像視頻通信以像素為表征單元,不能契合自然圖像所蘊(yùn)含的對(duì)稱性、重復(fù)性、相關(guān)性等結(jié)構(gòu)特性,表征效率難以大幅提升。向人腦視覺(jué)感知、認(rèn)知機(jī)理學(xué)習(xí),以人工智能學(xué)科為基礎(chǔ),探索視頻語(yǔ)義表征模型,可在一定程度上提升表征效率。語(yǔ)義通信借鑒人腦超高圖像視頻壓縮性能機(jī)理,突破現(xiàn)有理論框架,將人腦視覺(jué)感知、認(rèn)知機(jī)理融入通信過(guò)程,實(shí)現(xiàn)高效語(yǔ)義表征和極低碼率下視頻的清晰度和流暢度。
研究基于語(yǔ)義的多媒體通信技術(shù),在網(wǎng)絡(luò)受限場(chǎng)景下,實(shí)現(xiàn)高質(zhì)量、低帶寬、低存儲(chǔ)多媒體語(yǔ)義通信,并推進(jìn)相關(guān)技術(shù)成果在平安鄉(xiāng)村的驗(yàn)證及應(yīng)用,技術(shù)指標(biāo)及應(yīng)用規(guī)模達(dá)到國(guó)內(nèi)外領(lǐng)先水平。不同于傳統(tǒng)視頻壓縮以像素為單元,語(yǔ)義通信提取圖像語(yǔ)義信息實(shí)現(xiàn)高效壓縮,在編碼端資源有限的情況下,實(shí)現(xiàn)高效準(zhǔn)確的語(yǔ)義表征,并在接收端精確圖像。
- 語(yǔ)義通信編解碼技術(shù)
語(yǔ)義通信編解碼技術(shù)建立基于場(chǎng)景任務(wù)的共享先驗(yàn)知識(shí)庫(kù),將編碼端目標(biāo)語(yǔ)義提取與解碼端目標(biāo)生成聯(lián)動(dòng)起來(lái),編碼端根據(jù)先驗(yàn)知識(shí)檢測(cè)視頻幀中的目標(biāo),進(jìn)行語(yǔ)義提取并轉(zhuǎn)化為二值素描圖編碼傳輸,解碼端根據(jù)知識(shí)庫(kù)和素描圖進(jìn)行目標(biāo)生成,并與背景圖像融合,重建視頻。通過(guò)聯(lián)合視頻語(yǔ)義編碼的緊湊特征表征及高效特征檢索,實(shí)現(xiàn)海量視頻的快速檢索,用于安防等業(yè)務(wù)場(chǎng)景中。
圖片
其中對(duì)于海量視頻特征檢索對(duì)性能要求高,為了保證視頻檢索快速準(zhǔn)確,語(yǔ)義通信提出視頻編碼與緊湊特征表征的聯(lián)合優(yōu)化方案,獲得更緊湊的特征描述子?;趶?qiáng)化學(xué)習(xí)構(gòu)建樹(shù)形索引結(jié)構(gòu),在保證精度的同時(shí)提升檢索效率。
圖片
圖片
- 視頻語(yǔ)義通信QoE度量關(guān)鍵技術(shù)
當(dāng)前QoE通過(guò)研究視頻分辨率、卡頓時(shí)間、幀率和比特率等視頻客觀因子對(duì)用戶主觀體驗(yàn)的影響,優(yōu)化多媒體內(nèi)容的QoE體驗(yàn)。然而這些QoE影響因子研究聚焦于視頻客觀特征,無(wú)法有效反映語(yǔ)義信息對(duì)用戶體驗(yàn)的影響。提出基于語(yǔ)義因子的QoE評(píng)價(jià)方法,建立面向語(yǔ)義通信的評(píng)價(jià)-反饋機(jī)制。
對(duì)于語(yǔ)義通信系統(tǒng)一般場(chǎng)景的QoE評(píng)價(jià),采用平均關(guān)鍵點(diǎn)距離,關(guān)鍵點(diǎn)缺失率和平均歐式距離作為影響因子,結(jié)合傳統(tǒng)QoS起播時(shí)間、緩沖比率、平均媒體碼率,以及視頻分辨率、幀率和比特率等客觀因素。
計(jì)算語(yǔ)義通信視頻QoE評(píng)價(jià)之后,需要以此指標(biāo)反饋調(diào)節(jié)并優(yōu)化整個(gè)語(yǔ)義通信系統(tǒng)?;谡Z(yǔ)義通信特點(diǎn)和流程,設(shè)計(jì)語(yǔ)義QoE的指標(biāo)與反饋調(diào)節(jié)機(jī)制。在主觀QoE預(yù)測(cè)中增加語(yǔ)義因子,使得預(yù)測(cè)模型模型的預(yù)測(cè)值接近真實(shí)用戶評(píng)價(jià),同時(shí)在客觀QoE指標(biāo)計(jì)算中基于像素、部位以及時(shí)序排列三個(gè)層級(jí)設(shè)計(jì)指標(biāo)。通過(guò)云端與客戶端的QoE計(jì)算結(jié)果進(jìn)行反饋調(diào)節(jié),在系統(tǒng)產(chǎn)生關(guān)鍵點(diǎn)偏移、幀數(shù)下降、輪廓扭曲、時(shí)序不穩(wěn)定時(shí),說(shuō)明此時(shí)視頻重建質(zhì)量低,啟用輪廓約束、調(diào)整傳輸碼率、增加關(guān)鍵點(diǎn)數(shù)量,編解碼模型調(diào)整優(yōu)化系統(tǒng),以滿足用戶需求。
圖片
Part 02
結(jié)尾
相比主流H.265編碼,在主觀質(zhì)量相當(dāng)?shù)那闆r下,基于語(yǔ)義通信的視頻傳輸平均碼率降低80%以上,在多用戶場(chǎng)景下,相比主流H.265編解碼傳輸,基于語(yǔ)義通信的計(jì)算和存儲(chǔ)開(kāi)銷降低50%以上。為了推進(jìn)多媒體語(yǔ)義通信技術(shù)在平安鄉(xiāng)村的應(yīng)用實(shí)踐,在江蘇省南通市富民村示范應(yīng)用平臺(tái),完成數(shù)字鄉(xiāng)村示范應(yīng)用平臺(tái)搭建,驗(yàn)證多媒體語(yǔ)義通信在平安鄉(xiāng)村四大場(chǎng)景應(yīng)用以及語(yǔ)義通信QoE反饋評(píng)價(jià)效果。通過(guò)場(chǎng)景檢測(cè),利用靜態(tài)場(chǎng)景一致性強(qiáng)的語(yǔ)義特點(diǎn),預(yù)計(jì)可為平安鄉(xiāng)村場(chǎng)景節(jié)約云存儲(chǔ)、帶寬60%以上,約7.5億元/年。
圖片