偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

新聞 人工智能
來自谷歌的研究者提出了一種基于生成對抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。

 [[416911]]

通常,視頻壓縮的目標是通過利用時間和空間冗余來降低存儲視頻所需的比特率,同時保留視覺內(nèi)容,目前廣泛使用的方法是非神經(jīng)標準編解碼器(例如 H.264/AVC 、H.265/HEVC)。一些研究表明,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)視頻壓縮方面取得了更好的進展,最新的方法在峰值信噪比(PSNR)方面可以與 HEVC 相媲美,或者在 MS-SSIM 方面優(yōu)于 HEVC。然而,因為很少有研究者發(fā)布重制后的視頻,這些方法尚未在主觀視覺質(zhì)量方面進行評估。

來自谷歌的研究者提出了一種基于生成對抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。研究者提出了減少時間累積誤差的方法,該累積誤差由遞歸幀壓縮引起,該方法使用隨機移位和非移位,由頻譜分析驅(qū)動。論文詳細介紹了網(wǎng)絡(luò)設(shè)計的選擇以及重要性,并闡述了在用戶研究中評估視頻壓縮方法的挑戰(zhàn)。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

論文地址:https://arxiv.org/pdf/2107.12038.pdf

本文主要貢獻包括:

  • 該研究提出了首個在視覺質(zhì)量方面與 HEVC 具有競爭性的神經(jīng)壓縮方法,這是在用戶研究中衡量的。研究表明,在 PSNR 方面具有競爭力的方法在視覺質(zhì)量方面的表現(xiàn)要差得多;
  • 該研究提出了一種減少展開時時間誤差累積的技術(shù),該技術(shù)通過隨機移動殘差輸入,然后保持輸出不變,激勵頻譜分析,研究表明該技術(shù)在系統(tǒng)和 toy 線性 CNN 模型中具備有效性;
  • 該研究探索了由用戶研究測量的視覺質(zhì)量與可用視頻質(zhì)量指標之間的相關(guān)性。為了促進未來的研究,研究者發(fā)布了對 MCL-JCV 視頻數(shù)據(jù)集的重建以及從用戶研究中獲得的所有數(shù)據(jù)(附錄 B 中的鏈接)。

研究方法

下圖為該研究使用的網(wǎng)絡(luò)架構(gòu),其中 x = {x_1, x_2, . . . } 為幀序列,x_1 為初始幀 (I)。該研究在低延遲模式下操作,因此可以從先前的幀中預(yù)測后續(xù) (P) 幀,設(shè)

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

是重建視頻。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

灰色框是中間張量的可視化結(jié)果?;揖€左側(cè)是 I-frame 分支(藍色代表用 CNN 學(xué)習(xí)),右側(cè)是 P-frame 分支(綠色代表用 CNN 學(xué)習(xí))。虛線在解碼期間沒有被激活,判別器 D_I、D_P 僅在訓(xùn)練期間激活。CNN 的大小粗略地表明了它們的容量。SG 是停止梯度操作,Blur 是尺度空間模糊,Warp 是雙三次扭曲, UFlow 是凍結(jié)光流模型。

研究者采用以下策略來獲得高保真重建視頻:

  • 在 I-frame 中合成可信的細節(jié);
  • 盡可能清晰地傳遞這些可信細節(jié);
  • 對于出現(xiàn)在 P-frame 中的新內(nèi)容,研究者希望能夠合成可信細節(jié)。

論文中的公式是基于 HiFiC 的。使用條件 GAN,其中生成器和判別器都可以訪問額外的標簽:公式假設(shè)數(shù)據(jù)點 x 和標簽 s 遵循聯(lián)合分布 p(x, s)。生成器將樣本 y ∼ p(y) 映射到分布 p(x|y),而判別器用來預(yù)測給定對 (x, s) 是否來自 p(x|s) 而不是來自生成器。

在設(shè)置中需要處理幀序列和重建。在 HiFiC 之后,研究者在潛在 y 上調(diào)節(jié)生成器和判別器,對于 I-frame,y = yI,對于 P-frame,y = y_t,r。為了簡化問題,該研究的目標是對每幀分布進行匹配,即對于 T 長度的視頻序列,目標是獲得一個模型 s.t.:

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

通過隨機移位展開時防止錯誤累積

正如文中所提到的,「低延遲」設(shè)置的循環(huán)性質(zhì)在時域中的泛化具有挑戰(zhàn)性,這可能會發(fā)生錯誤傳播。理想情況下,只要研究評估的內(nèi)容至少 T = 60 幀,就可以使用序列進行訓(xùn)練,但實際上由于內(nèi)存限制,這在當(dāng)前硬件上是不可行的。雖然我們最多可以將 T = 12 放入加速器中,但這樣會使訓(xùn)練模型會變得非常慢。

為了加速原型設(shè)計和訓(xùn)練新模型,以及防止展開(unrolling)問題,該研究采用以下訓(xùn)練方案。

1) 僅在隨機選擇的幀上訓(xùn)練 E_I 、 G_I 、 D_I ,1 000000 step。

2) 凍結(jié) E_I、G_I、D_I ,并從 E_I 、G_I 初始化 E_res、G_res 權(quán)重。使用分階段展開( staged unrolling )訓(xùn)練 E_flow、G_flow、E_res、G_res、D_P 450000step,即使用 T = 2 直到 80k step,T = 3 直到 300step,T = 4 直到 350step,T = 6 直到 400k,T = 9 直到 450k。

該研究將其分為步驟 1) 和 2),因為經(jīng)過訓(xùn)練的 E_I、 G_I 可以重新用于 P-frame 分支的許多變體,并且跨運行共享 E_I、 G_I 使其更具可比性。

使用比例控制器在訓(xùn)練期間控制速率:超參數(shù) λ_R 用來控制比特率和其他損失項(例如 GAN 損失等)之間的權(quán)衡。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

實驗結(jié)果

數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)包括大約 992000 個時間 - 空間裁剪視頻集,每個視頻集長度 T 為 12 幀,每幀畫面大小為 256×256,從 YouTube 的公開視頻中獲取。這些視頻的分辨率至少為 1080p,長寬比至少為 16:9,幀率至少為 30 fps。

模型和基準:基線稱為「MSE-only」,并且該基準使用了與研究所用一樣的架構(gòu)和訓(xùn)練過程,但沒有使用 GAN 損失。實驗還與尺度空間流(Scale-Space Flow,SSF)進行了比較,這是最近的神經(jīng)壓縮方法,在 PSNR 方面與 HEVC 相當(dāng)。最后,該研究與無學(xué)習(xí)的 HEVC 進行了比較。

研究者在圖 1 中總結(jié)了評分者偏好,并在圖 7 中展示了性能指標。該研究與三種比特率下的 HEVC 進行了比較,結(jié)果證明該研究所用方法與 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下效果更佳(18vs9),在 0.22bpp 下性能也不錯(16vs9)。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

為了評估 GAN 損失對視覺質(zhì)量的影響,研究者在低速率 (≈ 0.064 bpp) 下將 GAN 損失與 MSE-only 和 SSF 進行了比較。如圖 1 所示,在 MSE-only 下,在 30 次結(jié)果中只有 4 次結(jié)果較好,4 次平局,結(jié)果表明了 GAN 損失的重要性,并且 SSF 沒有一次是首選、沒有平局。研究者強調(diào) MSE-only 僅在 PSNR 方面與 HEVC 相當(dāng)(圖 7),但在視覺質(zhì)量方面明顯更差。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

研究發(fā)現(xiàn),下列組件對性能的提升至關(guān)重要:不使用「free latent」會引起模糊的重建效果,這類似于 MSE-only 基線產(chǎn)生的效果,如圖 3 頂部所示。研究發(fā)現(xiàn),使用「free latent」而不使用條件判別器也會導(dǎo)致模糊的重建效果。當(dāng)信息不傳遞給 UFlow 時,實驗結(jié)果會得到前后不一致的流,當(dāng)信息傳遞給 UFlow 時,但沒有使用流損失正則化(即公式 6),實驗結(jié)果也不理想。因此,刪除任何一個組件都會損害時間一致性,參見圖 3 底部。

開啟生成式視頻壓縮:谷歌基于GAN來實現(xiàn),性能與HEVC相當(dāng)

總體來說,沒有一個指標能夠預(yù)測圖 1 中的結(jié)果,但是 PIM 和 LPIPS 對一些比較進行了正確的排序。在神經(jīng)圖像壓縮領(lǐng)域已經(jīng)觀察到了這種結(jié)果,其中最好的方法是由人類來排序的,因為目前還沒有一種度量標準能夠根據(jù)主觀質(zhì)量來準確地對這些方法進行排序。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2009-08-06 08:50:27

視頻壓縮技術(shù)谷歌On2

2022-12-19 14:46:53

視頻方法

2021-07-20 10:16:24

人工智能自然語言技術(shù)

2025-06-09 09:03:58

2017-05-08 10:52:09

2023-12-18 08:57:22

GAN網(wǎng)絡(luò)

2018-03-29 09:42:11

谷歌微軟視頻壓縮

2021-03-11 15:00:05

編碼視頻壓縮

2024-04-08 11:32:12

深度學(xué)習(xí)圖像

2022-10-09 15:26:45

人工智能ML機器學(xué)習(xí)

2009-08-29 11:03:10

2023-08-02 10:17:06

谷歌AI

2023-03-01 09:07:44

前端監(jiān)控異常

2023-08-26 21:38:04

Kuma框架CSS

2020-06-24 07:50:56

抖音特效移動應(yīng)用

2024-03-20 12:27:48

模型訓(xùn)練

2019-08-12 14:46:56

Web服務(wù)器性能

2016-05-19 10:19:51

谷歌地圖CSS

2020-06-15 14:18:05

數(shù)據(jù)平臺架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號