偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ECCV 2024 | 讓GPT-4圖像理解更易出錯,全新策略增強VLP模型對抗遷移性

人工智能 新聞
近年來,ChatGPT-4等視覺 - 語言預(yù)訓(xùn)練模型(VLP)展示了強大的多模態(tài)理解和生成能力,在圖像識別、文本生成等任務(wù)中表現(xiàn)出色。

本文作者分別來自南開大學(xué)、南洋理工大學(xué)和新加坡科技局。第一作者高森森為南開大學(xué)大四學(xué)生,此工作為其在新加坡科技局實習(xí)期間完成,實習(xí)導(dǎo)師為本文通訊作者郭青研究員(主頁:https://tsingqguo.github.io)。本文的共同第一作者和共同通訊作者是南洋理工大學(xué)的加小俊博后研究員(主頁:https://jiaxiaojunqaq.github.io)。

針對視覺-語言預(yù)訓(xùn)練(Vision-Language Pretraining, VLP)模型的對抗攻擊,現(xiàn)有的研究往往僅關(guān)注對抗軌跡中對抗樣本周圍的多樣性,但這些對抗樣本高度依賴于代理模型生成,存在代理模型過擬合的風(fēng)險。

為了解決這一問題,我們引入了對抗軌跡交集區(qū)域的概念。這個區(qū)域由干凈樣本、當(dāng)前對抗樣本以及上一步對抗樣本所構(gòu)成的三角形區(qū)域。通過利用這一區(qū)域的多樣性,我們不僅考慮了更加多樣化的擾動方向,還關(guān)注了干凈樣本周圍的對抗多樣性,從而提升了對抗樣本的遷移性。

本篇工作的論文和代碼均已開源。

圖片

  • 論文題目:Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
  • 論文鏈接:https://arxiv.org/pdf/2403.12445
  • 代碼鏈接:https://github.com/SensenGao/VLPTransferAttack

研究背景

近年來,ChatGPT-4等視覺 - 語言預(yù)訓(xùn)練模型(VLP)展示了強大的多模態(tài)理解和生成能力,在圖像識別、文本生成等任務(wù)中表現(xiàn)出色。然而,這些模型的強大性能也伴隨著一個顯著的安全隱患:對抗攻擊(Adversarial Attacks)。對抗攻擊是指通過對輸入數(shù)據(jù)進行微小且難以察覺的擾動,誘使模型產(chǎn)生錯誤輸出。這種攻擊方式不僅可以影響模型的預(yù)測準(zhǔn)確性,甚至可能導(dǎo)致嚴重的安全問題。

由于 ChatGPT-4 等商業(yè)模型通常是閉源的,攻擊者無法直接訪問其內(nèi)部參數(shù)和結(jié)構(gòu)信息,這使得直接攻擊這些模型變得困難。然而,攻擊者可以通過對類似的開源或已知結(jié)構(gòu)的 VLP 模型(如 CLIP)進行研究,生成對抗樣本并將其應(yīng)用于閉源商業(yè)模型。這種方法被稱為對抗攻擊的遷移攻擊(Transfer Attack)。

對抗攻擊的遷移性研究具有重要意義。一方面,了解對抗攻擊在不同模型間的遷移性,可以提高對這些商業(yè)閉源模型的攻擊成功率,從而幫助我們更好地評估和提升閉源模型的安全性,防止?jié)撛诘陌踩┒?。另一方面,通過研究對抗樣本在不同模型上的表現(xiàn),可以進一步優(yōu)化對抗訓(xùn)練方法,提高模型的魯棒性和抗攻擊能力。

動機

圖片

圖 1:現(xiàn)有方法對于 VLP 模型在代理模型和目標(biāo)模型上的攻擊成功率 (圖片來源:SGA (arXiv:2307.14061))。

SGA (ICCV2023 Oral) 是第一篇探索對 VLP 模型進行遷移攻擊的工作,但實驗結(jié)果顯示在目標(biāo)模型上的攻擊成功率遠低于代理模型。本研究的目標(biāo)是探索 SGA 方法在目標(biāo)模型上遷移性較差的因素,進一步提高對 VLP 模型遷移攻擊的成功率。

圖片

圖 2:SGA 和我們方法的對比。

如圖 2 所示,SGA 采用迭代攻擊,并在迭代優(yōu)化路徑上通過圖像增強(Resize)來增加對抗樣本的多樣性。然而,這種多樣性僅考慮了對抗圖像的周圍區(qū)域,而對抗圖像由代理模型生成,容易導(dǎo)致過擬合,從而降低了遷移性。

干凈樣本完全獨立于代理模型,因此我們認為干凈樣本周圍的對抗多樣性同樣重要。為此,我們利用對抗軌跡的交集區(qū)域構(gòu)建更廣泛的多樣性,它由干凈圖像、當(dāng)前對抗圖像和上一步對抗圖像構(gòu)成。

方法

圖像模態(tài)

首先,我們在所提出的對抗軌跡交集區(qū)域中采樣多個圖像,并得到多樣化的對抗擾動方向:

圖片

隨后,我們使用文本引導(dǎo)進行采樣圖像的選擇:

圖片

此時即表示最佳的采樣圖像,我們同時采用了 SGA 的思想,通過圖像增強操作進一步探索最佳采樣圖像周圍的對抗擾動多樣性,最終的迭代表示為:

圖片

文本模態(tài)

過去的研究在生成對抗文本時,先通過迭代優(yōu)化生成對抗圖像,隨后使對抗文本偏離最終生成的對抗圖像。然而,正如我們前面所述,對抗圖像高度依賴于代理模型,這樣生成的對抗文本也存在過擬合的風(fēng)險。

我們提議讓對抗文本偏離沿對抗軌跡的最后一個交集區(qū)域,具體而言,對抗文本應(yīng)偏離由原始圖像圖片、倒數(shù)第二個對抗圖像圖片和最終對抗圖像圖片構(gòu)成的三角區(qū)域。此外,我們設(shè)置了可調(diào)節(jié)的系數(shù)因子,其中圖片。

圖片

實驗效果

跨模型遷移性

下表 1 顯示了在圖像 - 文本檢索(Image-Text Retrieval, ITR)任務(wù)中跨模型攻擊的遷移性。相比于 SGA,我們的方法在多個跨模型遷移性上提升了 10% 以上。

圖片

跨任務(wù)遷移性

下表 2 顯示了利用在圖像 - 文本檢索(ITR)任務(wù)上預(yù)訓(xùn)練的 ALBEF 模型,生成多模態(tài)對抗樣本,以攻擊 RefCOCO + 數(shù)據(jù)集上的視覺定位(VG)任務(wù)和 MSCOCO 數(shù)據(jù)集上的圖像描述(IC)任務(wù)?;€表示每個任務(wù)在沒有任何攻擊時的性能,較低的值表示對這兩個任務(wù)的對抗攻擊效果更好。

圖片

攻擊可視化

下圖 3 顯示了對視覺定位任務(wù)攻擊的可視化。

圖片

下圖 4 顯示了對圖像描述任務(wù)攻擊的可視化。

圖片

從圖 3 和圖 4 可以看出,通過對抗攻擊,使 VLP 模型在視覺定位和圖像描述任務(wù)上均出現(xiàn)了嚴重錯誤。

下圖 5 顯示了對 ChatGPT-4 遷移攻擊的可視化。

下圖 6 顯示了對 Claude-3 遷移攻擊的可視化。

圖片

我們分別將干凈圖像和對抗圖像輸入 ChatGPT-4,Claude-3 等大模型,并使用查詢「Describe this image.」得到輸出結(jié)果,我們從圖 5 和圖 6 可以看到,兩個大模型對對抗圖像的理解已經(jīng)出現(xiàn)很大的錯誤。

結(jié)語

盡管該工作在提升多模態(tài)對抗攻擊遷移性方面取得了顯著效果,但如何更充分地利用對抗攻擊的交集區(qū)域,以及提供更深入的理論解釋,仍然是未來值得深入研究的方向。我們對對抗軌跡交集區(qū)域及其對 VLP 對抗攻擊遷移性的研究還在持續(xù)探索中,歡迎大家持續(xù)關(guān)注。如果有任何問題或進一步的想法,隨時歡迎討論。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-12-26 08:17:23

微軟GPT-4

2023-12-04 12:56:08

AI數(shù)據(jù)

2023-05-22 08:30:35

GPT-4智能編程助手

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2023-08-15 15:03:00

AI工具

2025-05-30 07:40:56

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-11-03 13:07:00

AI模型

2023-04-06 16:09:46

程序員AI

2023-08-17 08:00:00

2024-05-09 08:33:33

2021-07-13 17:38:49

算法語言模型GPT-4

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard
點贊
收藏

51CTO技術(shù)棧公眾號