視頻「缺陷」變安全優(yōu)勢:螞蟻數(shù)科新突破,主動式視頻驗證系統(tǒng)RollingEvidence
近日,螞蟻數(shù)科 AIoT 技術(shù)團(tuán)隊獨立完成的論文《RollingEvidence: Autoregressive Video Evidence via Rolling Shutter Effect》被網(wǎng)絡(luò)安全領(lǐng)域?qū)W術(shù)頂會 USENIX Security 2025 錄用。
該論文提出了一套創(chuàng)新性的主動式可信視頻取證系統(tǒng),利用相機卷簾門效應(yīng)在視頻中嵌入高維物理水印,并結(jié)合 AI 技術(shù)與概率模型進(jìn)行精準(zhǔn)驗證,能夠有效抵御深度偽造(Deepfake)和視頻篡改等攻擊。相較于傳統(tǒng)被動識別技術(shù),該系統(tǒng)在檢測準(zhǔn)確率和安全防護(hù)能力上均有顯著提升。
會議簡介:USENIX Security 于 1990 年首次舉辦,已有三十多年歷史,與 IEEE S&P、ACM CCS、NDSS 并稱為信息安全領(lǐng)域四大頂級學(xué)術(shù)會議,也是中國計算機學(xué)會(CCF)推薦的 A 類會議,本屆會議的論文錄用率為 17.1%,被錄用的稿件反映了網(wǎng)絡(luò)安全領(lǐng)域國際前沿研究水平。

- 論文:《RollingEvidence: Autoregressive Video Evidence via Rolling Shutter Effect》
- 論文鏈接:https://www.usenix.org/conference/usenixsecurity25/presentation/qian
在深度偽造(Deepfake)與視頻篡改日益泛濫的今天,真實性的邊界正在被不斷挑戰(zhàn)。對此,螞蟻數(shù)科 AIoT 技術(shù)團(tuán)隊提出了一項突破性創(chuàng)新 ——RollingEvidence,一種將 CMOS 攝像頭 “缺陷” 轉(zhuǎn)化為安全優(yōu)勢的主動式視頻驗證算法和系統(tǒng)。
它巧妙地利用相機卷簾門效應(yīng),在每一幀畫面中實時注入滾動的條紋探測信號,就像為視頻嵌入 “數(shù)字脈搏”。這些高維探測信息通過自回歸加密機制動態(tài)演化,確保內(nèi)容不可偽造、篡改可追溯。在驗證端,深度神經(jīng)網(wǎng)絡(luò)與概率模型智能推斷協(xié)同運作,對視頻內(nèi)容驗證信息對齊,精準(zhǔn)鎖定異常幀。論文從理論證明、原型實現(xiàn)、大規(guī)模實驗三個方面共同驗證了其在視頻真實性保障上的卓越性能。
整體方案
當(dāng)前,攝像頭設(shè)備已無處不在,其生成的視頻證據(jù)在司法審判、公共安全及法律實務(wù)中發(fā)揮著關(guān)鍵作用。然而,隨著 Sora、Pika 等 AI 視頻生成技術(shù)和深度偽造(Deepfake)技術(shù)的持續(xù)突破,視頻證據(jù)的真實性保障正面臨嚴(yán)峻挑戰(zhàn)。
本文提出 RollingEvidence 系統(tǒng),這是一種通過自回歸方式將物理探針與視頻內(nèi)容主動耦合的創(chuàng)新方案,可構(gòu)建具備內(nèi)在保護(hù)機制的視頻證據(jù)。具體而言,在攝像過程中,我們通過動態(tài)調(diào)節(jié) LED 設(shè)備產(chǎn)生人眼不可見的變頻閃爍信號,結(jié)合相機逐行曝光的特性,將探針以條紋模式嵌入視頻幀中。在驗證階段,我們開發(fā)了專用深度網(wǎng)絡(luò)提取條紋特征并解碼探針信息,進(jìn)而基于指數(shù)最小蘊涵算法識別可能被篡改的幀。
通過理論分析、原型系統(tǒng)及大量實驗,我們驗證了 RollingEvidence 在生成和驗證可信視頻證據(jù)方面的有效性。該系統(tǒng)可廣泛應(yīng)用于公證認(rèn)證、身份核驗及司法取證等關(guān)鍵場景。

相機卷簾門效應(yīng)
卷簾快門效應(yīng)是指 CMOS 傳感器采用逐行掃描方式曝光時,由于掃描時序與物體運動或光源頻率不匹配,導(dǎo)致動態(tài)物體出現(xiàn)形變(如拍攝旋轉(zhuǎn)風(fēng)扇)或產(chǎn)生時域混疊現(xiàn)象(如拍攝閃電)。

(注:以上圖片中的風(fēng)扇和閃電等圖片來自網(wǎng)絡(luò))
本研究創(chuàng)新性地利用這種時域混疊特性,通過自回歸建模將驗證探針嵌入視頻信號中。


探針包的設(shè)計
在可見光通信(VLC)系統(tǒng)中,通常采用多周期發(fā)送、數(shù)據(jù)重傳等策略來確保數(shù)據(jù)完整性和傳輸速率。而 RollingEvidence 系統(tǒng)專注于視頻幀篡改檢測,無需考慮通信傳輸問題,因此可以采用更緊湊的高維探針定義方案。具體實現(xiàn)上,我們采用帶分隔頻率的頻移鍵控(FSK)技術(shù),使用 16 種不同頻率構(gòu)建 4096 種探針組合(涵蓋從單頻到四頻的所有排列組合)。


LED 調(diào)制頻率設(shè)定
對于具有不同讀出時間的相機,我們固定曝光時間并在設(shè)置階段調(diào)整頻率字典,以確保深度學(xué)習(xí)網(wǎng)絡(luò)獲得一致的條紋圖案。

在原型系統(tǒng)中,L=16,w0=100,我們使用 16 種固定條紋寬度陣列,起始寬度為 100 像素,并以 5 像素為增量遞增。為確定相機曝光時間,我們提出了關(guān)于條紋像素強度與曝光時間比例的上下界新發(fā)現(xiàn):

即要維持與曝光時間 Te 成正比的高對比度(∝ Te)—— 這對可靠提取條紋圖案至關(guān)重要 —— 工作頻率必須保持在 1/2Te 以下。我們選擇分隔頻率因其獨特性:在保持足夠強度(∝ 2Te/3)的同時,提供更窄的寬度(≈34 像素)和相對更高的對比度(∝ Te/3)。

二階段工作流程
RollingEvidence 采用隨機采樣編碼技術(shù),將緊湊的高維探針嵌入后續(xù)每一幀視頻中,確保幀與幀之間、以及與設(shè)備加密密鑰的關(guān)聯(lián)性。在驗證階段,我們開發(fā)了專用的深度神經(jīng)網(wǎng)絡(luò),用于提取條紋特征并解碼探針信息,進(jìn)而基于指數(shù)最小蘊涵算法識別可能被篡改的視頻幀。同時,RollingEvidence 會生成去條紋化的視頻版本,確保畫面清晰可供人工查看。

自回歸隨機編碼
在編碼階段,我們采用自回歸模式。在攝像頭端,視頻流經(jīng)過動態(tài)分割處理,生成一系列相鄰窗口重疊一幀的窗口序列。對于每個新構(gòu)建的窗口,都會生成一個隨機序列作為對齊基準(zhǔn)。該隨機序列還與攝像頭和 LED 的加密密鑰相關(guān)聯(lián)。我們會隨機創(chuàng)建一個輔助 λ 序列,并應(yīng)用指數(shù)最小采樣法,根據(jù)相關(guān)窗口的隨機序列來選擇下一個探針。根據(jù)指數(shù)最小技巧,最小值運算會產(chǎn)生與多重分布相同的多項式分布,從而生成足夠隨機的觀測值來防范潛在攻擊。另一個重要含義是,我們的策略傾向于采樣較大的隨機值,這將用于識別被篡改的幀。

提取條紋的神經(jīng)網(wǎng)絡(luò)
錄制完成后,系統(tǒng)進(jìn)入驗證階段。我們采用批量解碼而非逐頻解調(diào)的方式處理探針:針對每一幀視頻,首先提取條紋強度曲線,定位分隔標(biāo)識并裁剪特征區(qū)域,最終解碼獲得探針信息。這一過程通過我們構(gòu)建的新型深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)。該網(wǎng)絡(luò)以連續(xù)三幀為輸入,在提取條紋強度曲線的同時,還能生成無條紋的視頻版本。之所以能輸出既清晰又真實的畫面,關(guān)鍵在于 LED 調(diào)制圖案以毫秒級速度切換,確保沒有任何像素位置會在多幀中持續(xù)出現(xiàn)條紋遮擋。

基于此,我們提出了行注意力模塊:一方面提升去條紋后的整體畫面清晰度,另一方面幫助后續(xù)模塊聚焦于亮度較高的圖像行區(qū)域。

模式切分和探針解碼
基于提取的光強度曲線,我們可以分割探針模式,隨后通過預(yù)訓(xùn)練的分類神經(jīng)網(wǎng)絡(luò)從曲線模式中解碼出探針信息。
篡改檢測
在驗證階段,我們按照編碼流程重建視頻幀窗口及其對應(yīng)的隨機序列。針對每個幀窗口,我們評估其隨機序列與從后續(xù)窗口提取的解碼探針之間的匹配程度。根據(jù)以下公式遞增窗口支持度:其中預(yù)定義參數(shù) q 表示對均勻隨機采樣值特定分位數(shù)(如 98%)的顯著性閾值。該方法可理解為針對指數(shù)分布的單尾檢驗。

篡改檢測的性能表現(xiàn)
我們通過兩組實驗評估 RollingEvidence 的篡改檢測性能:首組測試針對視頻幀的插入、刪除和修改操作,次組測試聚焦人臉替換與唇形同步檢測。實驗結(jié)果表明,該系統(tǒng)能準(zhǔn)確識別大多數(shù)篡改行為,且不會對正常視頻產(chǎn)生誤判。

驗證子模塊的性能表現(xiàn)
我們同時評估了系統(tǒng)的驗證子模塊性能。測試涵蓋 13 種室內(nèi)場景和 3 種室外場景下的強度曲線提取與去條紋視頻生成效果。左圖為原始采集幀,中圖為深度網(wǎng)絡(luò)生成的去條紋幀,右圖為基準(zhǔn)真值。我們采用均方誤差 (MSE) 評估條紋提取精度,以結(jié)構(gòu)相似性 (SSIM) 衡量去條紋效果。實驗表明:盡管存在背景和環(huán)境光照變化,深度網(wǎng)絡(luò)提取的條紋特征仍與真實數(shù)據(jù)高度吻合,且去條紋處理效果優(yōu)異。

總結(jié)
本研究提出了一種基于卷簾快門效應(yīng)的防篡改視頻錄制系統(tǒng),創(chuàng)新點包括:1) 在物理層嵌入防篡改探針;2) 采用自回歸編碼方案,利用前序幀和設(shè)備密鑰生成高效探針;3) 設(shè)計多任務(wù)深度網(wǎng)絡(luò),提取條紋模式、解碼探針并檢測篡改;4) 實現(xiàn)原型系統(tǒng),并通過實驗驗證了 RollingEvidence 框架的高效性和安全性。































