偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一個指令誤導(dǎo)智能模型!北航等首創(chuàng)3D語義攻擊框架,成功率暴漲119%

人工智能 新聞
北京航空航天大學(xué)與中關(guān)村實(shí)驗(yàn)室團(tuán)隊提出了一項全新框架InSUR,基于指令不確定性約簡的思想,實(shí)現(xiàn)獨(dú)立于具體任務(wù)與模型的對抗樣本生成。該工作已入選NeurIPS 2025。

人工智能模型的安全對齊問題,一直像懸在頭頂?shù)倪_(dá)摩克利斯之劍。

自對抗樣本被發(fā)現(xiàn)以來,這一安全對齊缺陷,廣泛、長期地存在與不同的深度學(xué)習(xí)模型中。

對此,北京航空航天大學(xué)與中關(guān)村實(shí)驗(yàn)室團(tuán)隊提出了一項全新框架InSUR,基于指令不確定性約簡的思想,實(shí)現(xiàn)獨(dú)立于具體任務(wù)與模型的對抗樣本生成。該工作已入選NeurIPS 2025。

研究聚焦于語義約束對抗樣本(SemanticAE)的生成問題,只需要提供一個指令,InSUR即可生成同時誤導(dǎo)已知模型A和未知模型B對抗樣本。

不僅如此,研究團(tuán)隊還結(jié)合3D生成框架首次實(shí)現(xiàn)了3D SemanticAE生成:直接通過一條指令生成自然的3D對抗性物體,并驗(yàn)證了引入的采樣技術(shù)有效性(ResAdv-DDIM)。

InSUR框架:三維度破解語義不確定性

有效的SemanticAE生成器需要基于指令精確反演得出人類期望的生成范圍,并生成對抗性的樣本。

由于人類指令中固有的不確定性,現(xiàn)有的SemanticAE生成方法難以解決語義引導(dǎo)和對抗攻擊的矛盾。研究團(tuán)隊將其歸結(jié)為三大痛點(diǎn):

  • 指稱多樣性(Referring Diversity)導(dǎo)致對抗優(yōu)化不穩(wěn)定,同一指令(如“鯊魚圖像”)可能對應(yīng)多種語義理解,導(dǎo)致擴(kuò)散模型等生成工具的優(yōu)化方向混亂。
  • 描述不完整性(Description Incompleteness)限制了攻擊的場景適應(yīng)性。人類指令往往省略場景細(xì)節(jié)(如“船”未說明是“水面上的獨(dú)木舟”),使得語義約束方向不精確,攻擊面難以被充分探索。
  • 邊界模糊性(Boundary Ambiguity)使得生成器評估困難。語義約束的邊界難以定義(如“像老虎”的程度如何量化),導(dǎo)致生成器的評估標(biāo)準(zhǔn)混亂。

InSUR框架通過殘差驅(qū)動攻擊方向穩(wěn)定、生成過程規(guī)則編碼嵌入和語義層次抽象評估方法,為語義對抗樣本的生成與建模提供有效的方法支撐,整體框架如圖1所示。

△圖1 InSUR框架示意圖

InSUR框架從“采樣方法”“任務(wù)建?!薄吧善髟u估”三個維度層層突破,實(shí)現(xiàn)“可遷移、可適應(yīng)、高效能驗(yàn)證”的SemanticAE生成。研究首先將SemanticAE生成問題定義為:

其中表示生成的SemanticAE語義約束的對抗樣本。表示符合Text語義描述的數(shù)據(jù)集合,表示目標(biāo)模型M對于的識別結(jié)果,表示不符合Text語義的模型輸出子集合。

與M對于攻擊者而言均是未知的??蚣苷w采用擴(kuò)散模型實(shí)現(xiàn),并在對抗采樣器、上下文編碼和生成器評估上引入新機(jī)制。

采樣方法:殘差驅(qū)動穩(wěn)定攻擊方向(ResAdv-DDIM)

針對“指代多樣性導(dǎo)致優(yōu)化混亂”的問題,團(tuán)隊設(shè)計了殘差引導(dǎo)的對抗DDIM采樣器(ResAdv-DDIM),解決擴(kuò)散模型的對抗采樣問題。

擴(kuò)散模型的初始去噪步驟確定了宏觀的特征結(jié)構(gòu),而后續(xù)去噪步驟確定了微觀的結(jié)構(gòu)。如何構(gòu)建有效的宏觀對抗結(jié)構(gòu)對于對抗樣本的遷移性、魯棒性具有重要作用。

然而,擴(kuò)散模型的長流程多步采樣使得初始去噪步驟對應(yīng)的精確對抗特征難以穩(wěn)定發(fā)現(xiàn)。解決該問題的核心思路是:通過“粗預(yù)測語言引導(dǎo)的采樣過程”,提前鎖定對抗優(yōu)化的方向。具體來說:

  • 在當(dāng)前去噪步驟時,先預(yù)測最終生成目標(biāo)(2D圖像、3D物體的)的“粗略輪廓”;
  • 基于這個輪廓優(yōu)化對抗方向,避免不同采樣步驟中對抗特征的優(yōu)化方向反復(fù)跳躍;
  • 同時加入L2范數(shù)約束,確保生成樣本不偏離指令語義(如“老虎”的整體形態(tài))。

這一設(shè)計讓多步擴(kuò)散模型有效發(fā)揮約束正則的作用,顯著提升對抗遷移能力與魯棒性。


△圖2 殘差驅(qū)動的攻擊方向穩(wěn)定

具體而言,研究者將擴(kuò)散模型的去噪過程表述為,先前方法采用直接迭代優(yōu)化來實(shí)現(xiàn)對抗樣本的生成,但梯度方向在不同時間步中不一致,使得對抗優(yōu)化只能在擴(kuò)散去噪過程最后幾步生效。

研究認(rèn)為,這約束了多步擴(kuò)散模型的正則能力,而打破該約束是對抗遷移性和魯棒性提升的關(guān)鍵。

如上式所示,ResAdv-DDIM少量k次迭代實(shí)現(xiàn)對最終預(yù)測結(jié)果的粗糙預(yù)測(g),再基于該預(yù)測下攻擊損失的梯度調(diào)整擴(kuò)散去噪過程的方向,使得擴(kuò)散模型生成過程中不同時刻的樣本對模型M對攻擊優(yōu)化更加一致。圖3的結(jié)果驗(yàn)證了該現(xiàn)象(ASR表示攻擊成功率)。

△圖3 實(shí)驗(yàn)結(jié)果:少量的k步近似采樣可以有效提升t較高時攻擊優(yōu)化的穩(wěn)定性

任務(wù)建模:規(guī)則編碼補(bǔ)全場景信息

在應(yīng)用場景中,指令Text可能存在歧義或不完整,需要將學(xué)習(xí)到的引導(dǎo)與對抗攻擊任務(wù)的目標(biāo)相結(jié)合。

為實(shí)現(xiàn)有效的任務(wù)適應(yīng),引入任務(wù)目標(biāo)嵌入策略,以實(shí)現(xiàn)更好的2D語義約束對抗樣本生成,并首次實(shí)現(xiàn)3D語義約束對抗樣本生成。

二維語義約束對抗樣本生成的空間約束補(bǔ)全

有效的語義約束對抗樣本生成器,應(yīng)利用圖像背景的優(yōu)化空間,生成能增強(qiáng)攻擊效果的背景模式。

然而,因?yàn)樵加?xùn)練中未考慮攻擊功能,擴(kuò)散模型自動學(xué)習(xí)到的背景生成結(jié)果過于單一。

為生成與攻擊相關(guān)的對抗圖像背景,在ResAdv-DDIM的后驗(yàn)采樣和對抗優(yōu)化過程所應(yīng)用的去噪過程中,通過一種基于差異化引導(dǎo)掩碼的構(gòu)造,控制擴(kuò)散模型生成內(nèi)容的語義引導(dǎo)空間分布。

其中,α定義擴(kuò)散模型中的噪聲比率,?_θ是擴(kuò)散模型噪聲估計函數(shù),M是可自定義的引導(dǎo)掩碼。與圖像編輯領(lǐng)域不同,掩碼M作用在不同引導(dǎo)之間,而不是整體修改區(qū)域。

三維語義約束對抗樣本生成的可微分渲染管線嵌入

研究團(tuán)隊首次實(shí)現(xiàn)了無參考3D語義約束對抗樣本生成,進(jìn)行三維語義約束對抗樣本生成的可微分渲染管線整合,主要包含三個部分:

△圖4 3D優(yōu)化管線

  • 基于Trellis框架的3D高斯?jié)姙R渲染(3D Gaussian-splatting Renderer)技術(shù),將擴(kuò)散模型的隱變量z解碼為3D高斯點(diǎn)云;
  • 集成可微渲染器,將3D結(jié)構(gòu)投影為2D圖像用于對抗損失計算,并通過 “變換期望(EoT)” 策略應(yīng)對未知相機(jī)視角,實(shí)現(xiàn)多視圖魯棒攻擊;
  • 將ResAdv-DDIM嵌入到Trellis生成過程中,實(shí)現(xiàn)高效魯棒的攻擊優(yōu)化。

對抗評估:構(gòu)建嚴(yán)格且易用的SemanticAE對抗樣本檢驗(yàn)方法

對一個SemanticAE生成器進(jìn)行評估,需要一個基準(zhǔn)測試來判斷生成的樣本是否屬于指令Text對應(yīng)的語義集合,并同時明確定義攻擊目標(biāo)。這共同決定了生成器的對抗攻擊性能和語義對齊(semantic alignment)能力。

為了解決這個問題,研究基于SemanticAE生成任務(wù)的應(yīng)用目標(biāo),提供了一種用于自動評估的任務(wù)構(gòu)建方法。

首先,在現(xiàn)有的非目標(biāo)(non-target)評估方法中,攻擊目標(biāo)通?;贗mageNet標(biāo)簽,但這往往過于簡單。SemanticAE的約束空間相對寬松,這使得攻擊生成模型很容易就能實(shí)現(xiàn)成功攻擊。

例如,對于指令Text為“大白鯊(great-white-shark)”的攻擊任務(wù),使用ImageNet標(biāo)簽中的“虎鯊(tiger-shark)”作為錯誤分類的類別任務(wù)過于簡單。

在這個任務(wù)中成功攻擊,并不能真正體現(xiàn)模型在真實(shí)場景下的攻擊能力。為了明確評估的邊界,研究利用WordNet的分類體系,通過提升抽象層次來重新構(gòu)建評估標(biāo)簽。如圖所示,構(gòu)建過程分為三步:

△圖5 SemanticAE評估方法設(shè)計

1、構(gòu)建下位詞圖(Hyponymic Graph):基于WordNet定義的下位關(guān)系(例如,“魚”是“動物”的下位詞,“金魚”和“大白鯊”是“魚”的下位詞)來構(gòu)建ImageNet標(biāo)簽的層級關(guān)系圖。

2、選擇抽象級別(Abstraction Level):從圖中篩選出合適的抽象層級,移除過于粗糙(如“動物”)和過于精細(xì)的標(biāo)簽。

3、定義攻擊目標(biāo):將攻擊目標(biāo)定義為規(guī)避更高層級的抽象標(biāo)簽。例如,生成一張“大白鯊”的圖像,其語義是正確的,但不能被模型識別為更高層級的“魚”。

第二,從語義約束評估的角度來看,僅僅使用另一個深度學(xué)習(xí)模型(如CLIP)來進(jìn)行評估,會將基準(zhǔn)的有效性局限于該評估模型的魯棒性范圍內(nèi)。

因此,研究進(jìn)一步提出了非對抗性樣本生成(non-adversarial exemplar generation)的子任務(wù),要求對抗生成器G在生成對抗樣本的同時,生成一個與之鄰近的、可被正確分類的“范例”樣本,以此證明確實(shí)符合語義約束。

根據(jù)上述原則定義相對攻擊成功率(ASR_Relative)和語義差異度

其中K是樣本數(shù)量,S是一種視覺相似性度量,例如LPIPS或MS-SSIM。測量局部相似性更容易,因?yàn)樗^少依賴基于高層次特征提取深度模型的結(jié)果,如Clip。

若假設(shè)生成器G沒有尋找一個“正面對抗樣本”的動機(jī)(即不是對抗樣本),如果在兩個指標(biāo)上都獲得高分,就可以充分證明G的對抗生成性能。

實(shí)驗(yàn)結(jié)果

2D 語義約束對抗樣本:遷移攻擊性能突破邊界

InSUR在2DSemanticAE上整體結(jié)果如圖6和圖7所示,其中InSUR方法的語義約束強(qiáng)度分別設(shè)置為?={1.5,2,2.5,3}和?={2,2.5,3,4}。

△圖6 ImageNet標(biāo)簽結(jié)果

之所以采用多個?值,是因?yàn)榛€方法難以控制和對齊語義擾動強(qiáng)度。圖中以柱狀圖形式繪制了目標(biāo)模型的最小/最大ASR(攻擊成功率)以及生成圖像的LPIPS(感知損失)標(biāo)準(zhǔn)差。

△圖7 高抽象層級標(biāo)簽結(jié)果

圖8展示了InSUR在?=2.5時的結(jié)果。

△圖8 不同代理模型上的2D生成結(jié)

總體而言,在4種代理模型和2種任務(wù)設(shè)置中,InSUR在所有目標(biāo)模型中至少實(shí)現(xiàn)了1.19倍的平均ASR提升和1.08倍的最小ASR提升,同時保持較低的LPIPS,顯示出一致的優(yōu)越性。圖中展示的帕累托(Pareto)改進(jìn)更為顯著。

3D SemanticAE生成:驗(yàn)證InSUR的跨任務(wù)可擴(kuò)展性

將目標(biāo)物體的視頻可視化結(jié)果以MPEG4編碼導(dǎo)出,并通過讀取視頻來評估攻擊性能。代理目標(biāo)模型為ResNet50,結(jié)果見圖9。此前尚無可用的3D語義自動編碼器。

△圖9 3D SemanticAE生成結(jié)果

結(jié)果表明,該方法展現(xiàn)出令人滿意的攻擊性能,驗(yàn)證了InSUR的跨任務(wù)可擴(kuò)展性。

需要注意的是,由于Trellis生成的3D模型與ImageNet圖像存在偏差,生成的3D樣本的干凈準(zhǔn)確率(clean accuracy)不高,但顯著的相對ASR差異仍可以驗(yàn)證攻擊有效性。

可視化結(jié)果表明(圖10),InSUR生成的對抗樣本在遷移攻擊性、真實(shí)性方面展現(xiàn)出顯著優(yōu)越性。代理模型為ResNet50,目標(biāo)模型為ViT或ResNet。正確標(biāo)簽標(biāo)記在下方,模型分類結(jié)果標(biāo)記在圖中,綠色為分類正確。

△圖10 可視化結(jié)果

討論與展望

InSUR的設(shè)計與具體模型和任務(wù)解耦,在多種任務(wù)中持續(xù)提升攻擊性能,展現(xiàn)出良好的可擴(kuò)展性,也為測試時的紅隊評估框架提供了新思路。

研究還測試了在VLM大模型場景下的攻擊性能,表明有效的可擴(kuò)展性。通過進(jìn)一步地與現(xiàn)有3D場景生成管線(如 DiffScene、EmbodiedGen 等)集成,InSUR方法可為自動駕駛、具身智能體等安全關(guān)鍵系統(tǒng)生成高逼真度的對抗測試場景。

此外,近期研究表明,擴(kuò)散模型生成的“困難樣本”在對抗訓(xùn)練中具有更高的樣本效率。這意味著InSUR不僅可用于“紅隊測試”(red-teaming),還可作為高質(zhì)量對抗訓(xùn)練數(shù)據(jù)的生成器,反向提升模型魯棒性。

同時,生成質(zhì)量的進(jìn)一步提升、在更大規(guī)模模型上的驗(yàn)證、以及真實(shí)場景的部署適應(yīng)性,都是未來值得深入探索的方向。

Github鏈接:https://semanticae.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-12-16 15:46:09

機(jī)器人模型

2024-05-06 11:37:20

自動駕駛3D

2025-03-27 09:26:30

2025-10-16 07:42:18

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-08-25 08:42:00

代碼智能安全

2025-02-13 08:26:26

2019-01-08 13:50:02

量子芯片網(wǎng)絡(luò)

2010-11-18 10:59:00

求職

2024-01-03 17:39:23

云計算混合云

2010-09-30 10:31:43

J2ME3D

2024-09-27 09:51:06

2022-04-02 18:37:25

面試

2024-03-25 08:00:00

3DAI

2021-01-20 18:13:52

VRAR守門員

2022-09-14 09:23:51

Java3D引擎

2014-05-19 09:51:09

地理開發(fā)者

2022-03-21 18:27:42

模型3DAI

2023-08-21 13:30:18

預(yù)測機(jī)器學(xué)習(xí)

2018-03-28 09:18:35

CITE智能制造3D打印館
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號