3D高斯?jié)姙R算法大漏洞:數(shù)據(jù)投毒讓GPU顯存暴漲70GB,甚至服務(wù)器宕機(jī)
隨著3D Gaussian Splatting(3DGS)成為新一代高效三維建模技術(shù),它的自適應(yīng)特性卻悄然埋下了安全隱患。在本篇 ICLR 2025 Spotlight 論文中,研究者們提出首個(gè)專門針對(duì)3DGS的攻擊方法——Poison-Splat,通過(guò)對(duì)輸入圖像加入擾動(dòng),即可顯著拖慢訓(xùn)練速度、暴漲顯存占用,甚至導(dǎo)致系統(tǒng)宕機(jī)。這一攻擊不僅隱蔽、可遷移,還在現(xiàn)實(shí)平臺(tái)中具備可行性,揭示了當(dāng)前主流3D重建系統(tǒng)中一個(gè)未被重視的安全盲區(qū)。
引言:3D視覺(jué)的新時(shí)代與未設(shè)防的后門隱患
過(guò)去兩年,3D視覺(jué)技術(shù)經(jīng)歷了飛躍式發(fā)展,尤其是由 Kerbi等人在2023年提出的3D Gaussian Splatting (3DGS),以其超高的渲染效率和擬真度,一躍成為替代NeRF的3D視覺(jué)主力軍。
你是否用過(guò) LumaAI、Spline 或者 Polycam 之類的應(yīng)用上傳圖片生成三維模型?它們背后很多就用到了3DGS技術(shù)。3D高斯?jié)姙R無(wú)需繁重的神經(jīng)網(wǎng)絡(luò),僅靠一團(tuán)團(tuán)顯式的、不固定數(shù)量的3D高斯點(diǎn)即可構(gòu)建逼真的三維世界。
但你知道嗎?這個(gè)看起來(lái)高效又靈活的“新王者”,居然隱藏著一個(gè)巨大的安全隱患——只要改動(dòng)圖片的細(xì)節(jié),就能讓系統(tǒng)在訓(xùn)練階段直接崩潰!
來(lái)自新加坡國(guó)立大學(xué)和昆侖萬(wàn)維的研究者在 ICLR 2025上的Spotlight論文《Poison-Splat: Computation Cost Attack on 3D Gaussian Splatting》中,首次揭示了這一致命漏洞,并提出了首個(gè)針對(duì)3DGS計(jì)算復(fù)雜度的攻擊算法:Poison-Splat。
圖一:干凈(左)與Poison-Splat攻擊后(右)的輸入圖像、三維高斯點(diǎn)云,以及GPU顯存、訓(xùn)練時(shí)間和渲染速度的顯著變化。這里的每張圖片由像素表征(左上)和3DGS高斯點(diǎn)的可視化(右下)拼接而成,更好地展示其二維像素空間和三維高斯空間的變化。
問(wèn)題背景:強(qiáng)大的模型“適應(yīng)性”是優(yōu)點(diǎn),還是漏洞?
圖二:NeRF (左) 和 3D Gaussian Splatting (右) 分別引領(lǐng)了3D視覺(jué)的一個(gè)時(shí)代,但它們的核心思想?yún)s截然不同。NeRF (圖a) 使用神經(jīng)網(wǎng)絡(luò)對(duì)三維場(chǎng)景隱式建模,其復(fù)雜度和計(jì)算成本由訓(xùn)練者通過(guò)超參數(shù)人為指定;而 3DGS (圖b) 使用不固定數(shù)量的三維高斯對(duì)場(chǎng)景顯式建模,其復(fù)雜度和計(jì)算成本會(huì)根據(jù)需要建模的三維內(nèi)容進(jìn)行自適應(yīng)調(diào)整。
3D Gaussian Splatting 相比于NeRF最大的區(qū)別之一,就是它擁有自適應(yīng)的模型復(fù)雜度:
- 訓(xùn)練過(guò)程中,模型會(huì)根據(jù)圖像復(fù)雜度自動(dòng)增加或減少高斯點(diǎn)(3D Gaussian)
- 圖像越復(fù)雜,模型訓(xùn)練過(guò)程就會(huì)產(chǎn)生越多的高斯點(diǎn) → 占用更多顯存、需要更長(zhǎng)訓(xùn)練時(shí)間
本質(zhì)上,3DGS會(huì)智能地根據(jù)建模場(chǎng)景“細(xì)節(jié)多不多”來(lái)決定要分配多少計(jì)算資源。
圖三:計(jì)算成本(GPU顯存占用、訓(xùn)練效率)、高斯點(diǎn)數(shù)量、數(shù)據(jù)集圖像復(fù)雜度之間的強(qiáng)正相關(guān)關(guān)系。對(duì)于不同的數(shù)據(jù)集場(chǎng)景,(a) GPU顯存占用和高斯點(diǎn)數(shù)量的關(guān)系;(b)訓(xùn)練耗時(shí)和高斯點(diǎn)數(shù)量的關(guān)系;(c) 高斯點(diǎn)數(shù)量和圖片復(fù)雜程度(以Total Variation Score衡量)的關(guān)系。
這原本是一個(gè)很聰明的設(shè)計(jì), 3DGS依靠其強(qiáng)大的適應(yīng)性,可以讓每一個(gè)參與訓(xùn)練的高斯點(diǎn)都“物盡其用”。
但問(wèn)題來(lái)了,如果有人故意上傳“帶毒的復(fù)雜圖像”,會(huì)發(fā)生什么?
揭秘3DGS的復(fù)雜度漏洞:Poison-Splat攻擊算法
攻擊目標(biāo):GPU占用率和訓(xùn)練時(shí)間
設(shè)計(jì)一種擾動(dòng)輸入圖像的方法,將經(jīng)過(guò)擾動(dòng)的圖像作為3DGS的輸入后,能夠大幅增加訓(xùn)練成本(GPU顯存和訓(xùn)練時(shí)長(zhǎng))。
問(wèn)題建模:max-min雙層優(yōu)化問(wèn)題
我們可以將整個(gè)攻擊建模成一個(gè) max-min雙層優(yōu)化(bi-level optimization)問(wèn)題:
- 內(nèi)層(min):3DGS 嘗試還原三維場(chǎng)景,擬合各視角的輸入圖像。(正常訓(xùn)練)
- 外層(max):攻擊者試圖找到最“消耗資源”的圖像擾動(dòng)方式。(攻擊目標(biāo))
這類雙層優(yōu)化問(wèn)題通常都極難直接求解。為此,研究者們提出了三大創(chuàng)新策略:
核心技術(shù)1:引入“代理模型”(proxy model) 作為內(nèi)層近似器
- 為了降低計(jì)算成本,我們訓(xùn)練一個(gè)輕量的代理 3DGS 模型,用于快速模擬 victim 的行為
- 每次攻擊迭代時(shí),從代理模型生成視圖,再進(jìn)行優(yōu)化更新
- 保證多視角一致性(multi-view consistency),避免圖像之間相互矛盾
核心技術(shù)2:利用圖像“非光滑性”誘導(dǎo)高斯密度增長(zhǎng)
- 觀察發(fā)現(xiàn),3DGS 會(huì)在細(xì)節(jié)豐富/邊緣突出的圖像區(qū)域生成更多高斯點(diǎn)
- Total Variation(TV)值是對(duì)圖像“非光滑度”的一個(gè)很好的度量。因此我們最大化圖像的 Total Variation(TV)值,從而誘導(dǎo)3DGS模型過(guò)度復(fù)雜。
核心技術(shù)3:約束擾動(dòng)強(qiáng)度,提升攻擊隱蔽性
- 攻擊圖像若改動(dòng)過(guò)大,容易被檢測(cè)
- 借鑒對(duì)抗攻擊領(lǐng)域的經(jīng)典設(shè)定,攻擊者可引入 L-∞球約束(?-ball)控制每個(gè)像素最大擾動(dòng),確保圖像語(yǔ)義完整、肉眼難以分辨
- 如果沒(méi)有隱蔽性要求,攻擊者可以無(wú)限制擾動(dòng)輸入圖像,最大化攻擊效果
圖四:在約束條件下,攻擊者的代理模型產(chǎn)生的變化被限制在像素?cái)_動(dòng)預(yù)算內(nèi),可以隱蔽地增加三維重建需要的計(jì)算消耗。
圖五:無(wú)約束攻擊中,攻擊者使用的代理模型的三維表征不受限制地復(fù)雜化,使三維重建所需的計(jì)算成本大大增加。
實(shí)驗(yàn)結(jié)果:最高讓訓(xùn)練時(shí)間翻倍、顯存飆升20倍
研究者在多個(gè)公開(kāi)3D數(shù)據(jù)集(NeRF-Synthetic、Mip-NeRF360、Tanks and Temples)上評(píng)估了攻擊效果。實(shí)驗(yàn)結(jié)果證實(shí),對(duì)于危害最大的無(wú)限制攻擊,其攻擊效果令人震驚。在被攻擊的最差3D場(chǎng)景下:
- GPU顯存:從原本不到4GB飆升到80GB(直接擊穿主流顯卡)
- 訓(xùn)練時(shí)間:最長(zhǎng)可達(dá)接近5倍增長(zhǎng)
- 高斯數(shù)量:最高可增加至原來(lái)的20倍+
- 渲染速度:最壞可降至原來(lái)的1/10
圖六:當(dāng)攻擊者可以無(wú)限制地對(duì)輸入圖像進(jìn)行改動(dòng),可以帶來(lái)極高的額外計(jì)算開(kāi)銷,對(duì)服務(wù)提供商造成重大的資源浪費(fèi)。
就算對(duì)輸入圖片做了隱蔽性約束,當(dāng)圖片中每個(gè)像素的擾動(dòng)都不得和干凈圖片偏離16個(gè)像素值時(shí),其攻擊效果仍然不容小覷,且隱蔽性更高,更加難以識(shí)別和檢測(cè):
圖七:在像素值擾動(dòng)不超過(guò)16/255的約束下,部分場(chǎng)景能使顯存消耗增高超過(guò)8倍,以至超過(guò)常見(jiàn)24GB顯卡的顯上限。
此外,攻擊對(duì)黑盒模型同樣有效(如 Scaffold-GS),表明它不僅“殺傷力強(qiáng)”,還具備“跨平臺(tái)傳染性”。
圖八:即使攻擊者無(wú)法事先知道服務(wù)商具體的模型和參數(shù),黑盒攻擊也能產(chǎn)生效果。當(dāng)攻擊者針對(duì)原始3DGS算法進(jìn)行Poison-splat攻擊,產(chǎn)生的投毒數(shù)據(jù)對(duì)于Scaffold-GS這樣的變體模型仍然有很好的攻擊效果。
實(shí)際風(fēng)險(xiǎn):這不是學(xué)術(shù)游戲,而是真實(shí)威脅
現(xiàn)實(shí)中,很多3D服務(wù)商(如 Polycam、Kiri)都支持用戶自由上傳圖像或視頻進(jìn)行建模。
這意味著:
- 攻擊者可以偽裝成普通用戶提交“毒圖”
- 在高峰時(shí)段導(dǎo)致系統(tǒng)“忙不過(guò)來(lái)”
- 若GPU資源被“毒圖”霸占,其他用戶任務(wù)將被拒絕執(zhí)行,導(dǎo)致服務(wù)癱瘓(DoS)
圖九:原始圖像、約束攻擊、無(wú)約束攻擊作為輸入時(shí)的計(jì)算代價(jià)對(duì)比。橫坐標(biāo)是3DGS模型擬合輸入圖片需要的訓(xùn)練時(shí)長(zhǎng),縱坐標(biāo)是訓(xùn)練過(guò)程中GPU實(shí)時(shí)顯存消耗。相比于原始圖像,poison-splat攻擊會(huì)大幅增加GPU顯存占用和訓(xùn)練時(shí)長(zhǎng),讓系統(tǒng)負(fù)載飆升。
意義與貢獻(xiàn):為何要“攻擊”3DGS?
提出風(fēng)險(xiǎn)不是在“搗亂”,而是在為AI系統(tǒng)打預(yù)防針。這項(xiàng)工作是:
- 首次系統(tǒng)性地揭示3DGS訓(xùn)練階段的資源安全漏洞
- 首個(gè)在三維視覺(jué)中將“數(shù)據(jù)投毒”擴(kuò)展到“訓(xùn)練資源消耗”這一維度
- 提出一套通用且具備可遷移性的攻擊框架,推動(dòng) 3D 安全領(lǐng)域發(fā)展
與此同時(shí),研究者們也揭示了簡(jiǎn)單的防御(如限制高斯數(shù)量)無(wú)法有效應(yīng)對(duì)攻擊,且會(huì)嚴(yán)重降低模型重建精度,導(dǎo)致模型“學(xué)不好”,服務(wù)方依然無(wú)法交付高質(zhì)量 3D 場(chǎng)景。
圖十:簡(jiǎn)單限制高斯點(diǎn)總量并不是理想的防御。雖然能限制資源消耗,但會(huì)嚴(yán)重影響3D重建的服務(wù)質(zhì)量。如何設(shè)計(jì)更加智能的防御仍然是一個(gè)開(kāi)放問(wèn)題。
這些結(jié)果預(yù)示著,如果 3D 重建廠商沒(méi)有相應(yīng)防護(hù),一旦有人“惡意上傳”或“篡改”用戶數(shù)據(jù),系統(tǒng)很可能出現(xiàn)顯存不足或訓(xùn)練無(wú)效。
目前該研究已將全部代碼、數(shù)據(jù)處理流程、可復(fù)現(xiàn)實(shí)驗(yàn)開(kāi)源,感興趣的小伙伴可以在Github上查看
在空間智能、世界模型更加需要依賴三維視覺(jué)的今天,討論其算法的安全性也變得越來(lái)越重要。在通往更強(qiáng)大AI的道路上,我們需要的不僅是性能的飛躍,還有安全的護(hù)欄。希望這篇工作能喚起大家對(duì)3D AI系統(tǒng)安全性的重視。
歡迎在留言區(qū)分享你的觀點(diǎn)、疑問(wèn)或補(bǔ)充!
論文鏈接:https://arxiv.org/pdf/2410.08190
GitHub:https://github.com/jiahaolu97/poison-splat