具身智能體主動迎戰(zhàn)對抗攻擊,清華團隊提出主動防御框架
面對對抗攻擊,具身智能體除了被動防范,也能主動出擊!
在人類視覺系統(tǒng)啟發(fā)下,清華朱軍團隊在TPMAI 2025中提出了強化學(xué)習(xí)驅(qū)動的主動防御框架REIN-EAD。
該框架讓智能體也能學(xué)會“看第二眼”,提升對抗場景下的感知魯棒性。

對抗攻擊已成為視覺感知系統(tǒng)安全性和可靠性的重大威脅,這類攻擊通過在三維物理場景中放置精心設(shè)計的擾動物體(如對抗補丁和三維對抗物體)來操縱深度神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果。
在人臉識別和自動駕駛等安全關(guān)鍵領(lǐng)域,此類漏洞的后果尤為嚴(yán)重,錯誤預(yù)測可能嚴(yán)重?fù)p害系統(tǒng)安全性。
然而,現(xiàn)有防御方法多依賴攻擊先驗,通過對抗訓(xùn)練或輸入凈化等手段實現(xiàn)對有害畫面的“被動防守”,忽略了與環(huán)境交互可獲得的豐富信息,遇上未知或自適應(yīng)攻擊時效果迅速衰減。
相比之下,人類視覺系統(tǒng)更為靈活,可以通過主動探索與糾錯,自然地降低瞬時感知的不確定性。
類似的,REIN-EAD的核心在于利用環(huán)境交互與策略探索,對目標(biāo)進(jìn)行連續(xù)觀察和循環(huán)預(yù)測,在優(yōu)化即時準(zhǔn)確率的同時兼顧長期預(yù)測熵,緩解對抗攻擊帶來的幻覺。
特別地,該框架引入了基于不確定性的獎勵塑形機制,無需依賴可微分環(huán)境,即可實現(xiàn)高效策略更新,支持物理環(huán)境下的魯棒訓(xùn)練。
實驗驗證表明,REIN-EAD在多個任務(wù)中顯著降低了攻擊成功率,同時保持了模型標(biāo)準(zhǔn)精度,在面對未知攻擊與自適應(yīng)攻擊時同樣表現(xiàn)出色,展現(xiàn)出強大的泛化能力。
主要貢獻(xiàn)
(1)提出REIN-EAD模型,融合感知與策略模塊來模擬運動視覺機制
論文設(shè)計了一種結(jié)合感知模塊與策略模塊的主動防御框架REIN-EAD,借鑒人類大腦支持運動視覺的工作方式,使模型能夠在動態(tài)環(huán)境中持續(xù)觀察、探索并重構(gòu)其對場景的理解。
REIN-EAD通過整合當(dāng)前與歷史觀測,構(gòu)建具有時間一致性的魯棒環(huán)境表征,從而提升系統(tǒng)對潛在威脅的識別與適應(yīng)能力。
(2)引入基于累計信息探索的強化學(xué)習(xí)方法以優(yōu)化主動策略
為提升REIN-EAD的策略學(xué)習(xí)能力,論文提出一種基于累計信息探索的強化學(xué)習(xí)算法,通過引導(dǎo)式密集獎勵優(yōu)化多步探索路徑,引入不確定性感知機制以驅(qū)動信息性探索。
該方法強化了時間上的一致性探索行為,并通過強化學(xué)習(xí)范式消除了對可微環(huán)境建模的依賴,使系統(tǒng)能夠主動識別潛在高風(fēng)險區(qū)域并動態(tài)調(diào)整行為策略,顯著提升了觀測數(shù)據(jù)的有效性與系統(tǒng)安全性。
(3)提出離線對抗補丁近似技術(shù)(OAPA),實現(xiàn)效率高、泛化強的防御能力
針對3D環(huán)境下對抗訓(xùn)練計算開銷巨大的挑戰(zhàn),論文提出OAPA技術(shù),通過對抗補丁流形的離線近似,構(gòu)建無需依賴對手信息的普適防御機制。
OAPA大幅降低了訓(xùn)練成本,同時具備在未知或自適應(yīng)攻擊場景下的穩(wěn)健防御能力,為三維環(huán)境下的主動防御提供了一種實用且高效的解決方案。
(4)在多任務(wù)與多環(huán)境上取得優(yōu)越性能,展現(xiàn)優(yōu)越的泛化與適應(yīng)能力
論文在多個標(biāo)準(zhǔn)對抗測試環(huán)境與任務(wù)中進(jìn)行了系統(tǒng)評估,實驗結(jié)果表明:REIN-EAD在抵抗多種未知和自適應(yīng)攻擊下表現(xiàn)出顯著優(yōu)于現(xiàn)有被動防御方法的性能。
其卓越的泛化能力和對復(fù)雜現(xiàn)實世界場景的適應(yīng)性,進(jìn)一步驗證了本文方法在安全關(guān)鍵系統(tǒng)中的應(yīng)用潛力。
方法與理論
REIN-EAD框架
REIN-EAD是一種模擬人類在動態(tài)環(huán)境中主動感知與反應(yīng)能力的對抗防御框架,該框架(如下圖所示)通過感知模塊與策略模塊的協(xié)同,使系統(tǒng)具備了與環(huán)境主動交互、迭代采集信息并增強自身魯棒性的能力。
△圖1:REIN-EAD框架
REIN-EAD由兩個核心的循環(huán)神經(jīng)模塊組成,靈感來源于支撐人類活躍視覺系統(tǒng)的大腦結(jié)構(gòu):

通過感知模型與策略模型的閉環(huán)聯(lián)動,REIN-EAD實現(xiàn)了對抗防御過程中的“感知—決策—行動”一體化:
在每一時刻選擇長期最優(yōu)的交互動作,并根據(jù)環(huán)境反饋不斷修正其內(nèi)部表示,使得模型能從多步交互中獲取最具信息量的觀測反饋。
這種主動防御機制突破了傳統(tǒng)靜態(tài)防御策略在魯棒性與適應(yīng)性方面的瓶頸,顯著提升了系統(tǒng)面對未知攻擊時的識別與響應(yīng)能力。
基于累計信息探索的強化學(xué)習(xí)策略
論文擴展了部分可觀察馬爾可夫決策過程(POMDP)框架以正式描述REIN-EAD框架與環(huán)境的相互作用。

REIN-EAD的預(yù)測過程是多步條件下的連續(xù)觀測和循環(huán)預(yù)測,感知與動作循環(huán)依賴——感知指導(dǎo)了動作,而動作又獲得更好的感知。
直觀上,可以通過RNN Style的訓(xùn)練方式優(yōu)化多步條件下的EAD框架,然而,該過程涉及沿時間步反傳梯度,團隊證明了這種做法的缺陷。
首先,論文通過理論分析證明RNN Style的訓(xùn)練方式本質(zhì)上是一種貪婪探索策略:

這種貪婪探索策略可能導(dǎo)致EAD采用局部最優(yōu)策略,難以從多步探索中持續(xù)獲益。
△圖2:貪婪信息探索可能導(dǎo)致重復(fù)探索
第二,沿時間步反傳梯度要求狀態(tài)轉(zhuǎn)移函數(shù)和觀察函數(shù)必須具有可微分性,該性質(zhì)在現(xiàn)實環(huán)境和常用的仿真引擎(如UE)中都是不滿足的。
最后,在多步條件下反傳梯度需要構(gòu)建非常長的梯度鏈條,這可能導(dǎo)致梯度消失/爆炸,并帶來巨大的顯存開銷。
為了解決貪婪策略的次優(yōu)性,提高REIN-EAD的性能,論文引入了累積信息探索的定義:

多步累積交互目標(biāo)包含最小化預(yù)測損失的目標(biāo)項和懲罰高熵預(yù)測的正則項,通過一系列與環(huán)境的相互作用,在H步的范圍內(nèi)優(yōu)化策略,最小化目標(biāo)變量的長期不確定性,而不是只專注于單步。
該目標(biāo)通過一系列行動和觀察來最小化目標(biāo)變量的不確定性,結(jié)合預(yù)測損失和熵正則化項,鼓勵智能體達(dá)到信息豐富且魯棒的認(rèn)知狀態(tài),從而對對抗擾動具有魯棒性。
論文中對所提出的多步累積交互目標(biāo)與累積信息探索的定義一致性進(jìn)行了證明,并進(jìn)一步分析了累積信息策略相比貪婪信息策略的性能優(yōu)越性。
為了進(jìn)一步消除對可微分訓(xùn)練環(huán)境的依賴并降低梯度優(yōu)化的不穩(wěn)定性,論文中提出了一種結(jié)合了面向不確定性的獎勵塑形的強化策略學(xué)習(xí)方法。

論文中還證明了這種獎勵塑形與多步累積交互目標(biāo)的等價性(細(xì)節(jié)參見論文)。
對于強化學(xué)習(xí)主干,論文中采用了學(xué)習(xí)效率和收斂穩(wěn)定性較好的近端策略優(yōu)化(PPO),通過限制策略的大小來實現(xiàn)穩(wěn)定的策略更新。

離線對抗補丁近似技術(shù)
論文中還提出了離線對抗補丁近似(OAPA),以解決3D環(huán)境中對抗訓(xùn)練的計算開銷。

為了在保持對抗不可知性的同時提高采樣效率,論文在訓(xùn)練REIN-EAD模型之前引入了OAPA,通過預(yù)先對視覺主干進(jìn)行投影梯度上升得到一組替代的補丁作為對抗補丁流形的離線近似。
實驗結(jié)果表明,執(zhí)行這種離線近似最大化允許REIN-EAD模型學(xué)習(xí)緊湊而富有表現(xiàn)力的對抗特征,使其能夠有效地防御未知攻擊。
此外,由于這種最大化過程只在訓(xùn)練前發(fā)生一次,因此大大提高了訓(xùn)練效率,使其與傳統(tǒng)對抗訓(xùn)練相比更具有競爭力。
實驗與結(jié)果
論文中在人臉識別、3D物體分類、目標(biāo)檢測多個任務(wù)上使用一系列像素空間、隱變量空間下的白盒、黑盒、自適應(yīng)攻擊方法,結(jié)果表明在三個任務(wù)上REIN-EAD的效果都優(yōu)于SAC、PZ、DOA等基線防御(表1,3,4)。
△表1:人臉識別任務(wù)中逃逸和扮演兩種攻擊目標(biāo)下的結(jié)果
人臉識別任務(wù)中,通過REIN-EAD框架改進(jìn)IResNet50模型,使用EG3D可微分渲染器實現(xiàn)CelebA-3D數(shù)據(jù)集的可微分三維重建,以對累計探索的REIN-EAD與ICLR 2024 工作中貪婪探索的EAD進(jìn)行公平比較。
通過對各個組件的消融,分別證明了累計信息探索和OAPA的有效性(表1,2,圖3)。
△表2:人臉識別任務(wù)中的REIN-EAD模塊消融結(jié)果
△圖3:人臉識別實驗的REIN-EAD可視化示例
△人臉識別實驗的可視化動態(tài)示例
在物體分類任務(wù)中,通過REIN-EAD框架改進(jìn)Swin-S模型,使用Pytorch3D對OmniObject3D三維掃描物體數(shù)據(jù)集進(jìn)行可微分渲染,以在三維環(huán)境下的圖像分類任務(wù)上對REIN-EAD的通用性進(jìn)行評估(表3)。
盡管在早期步驟中REIN-EAD可能被對抗補丁欺騙做出錯誤預(yù)測,但在隨后的步驟REIN-EAD進(jìn)行了正確的自我修正(圖4)。
△表3:物體分類實驗結(jié)果
△圖4:物體分類實驗的REIN-EAD可視化示例
目標(biāo)檢測任務(wù)中,通過REIN-EAD框架改進(jìn)YOLO-v5模型,使用CARLA構(gòu)建具有真實渲染觀測的實驗場景,進(jìn)一步證明了REIN-EAD在復(fù)雜任務(wù)和現(xiàn)實場景的有效性(表4,圖5)。
△表4:目標(biāo)檢測實驗結(jié)果
△圖5:目標(biāo)檢測實驗的REIN-EAD可視化示例

△目標(biāo)檢測實驗的可視化動態(tài)示例
此外,論文中還對補丁大小、補丁形狀、攻擊強度等多個不同的攻擊對手策略進(jìn)行了補充實驗,以全面的驗證REIN-EAD面對未知攻擊對手的泛化能力。
本文提出的REIN-EAD是一種新的主動防御框架,可以有效地減輕現(xiàn)實世界3D環(huán)境中的對抗補丁攻擊。
REIN-EAD利用探索和與環(huán)境的交互來將環(huán)境信息語境化,并改進(jìn)其對目標(biāo)對象的理解。
它積累了多步相互作用的時間一致性,平衡了即時預(yù)測精度和長期熵最小化。
實驗表明,REIN-EAD顯著增強了魯棒性和泛化性,在復(fù)雜任務(wù)中具有較強的適用性,為對抗防御提供了不同于被動防御技術(shù)的新研究視角。
論文:https://arxiv.org/abs/2507.18484
代碼:https://github.com/thu-ml/EmbodiedActiveDefense



































