偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ChatGPT被「神秘代碼」攻破安全限制！毀滅人類(lèi)步驟脫口而出，羊駝和Claude無(wú)一幸免

2023-07-28 13:50:53

近日，卡內(nèi)基梅隆大學(xué)和safe.ai共同發(fā)表的一項(xiàng)研究表明，大模型的安全機(jī)制可以通過(guò)一段神秘代碼被破解。他們甚至做出了一套可以量身設(shè)計(jì)「攻擊提示詞」的算法。論文作者還表示，這一問(wèn)題「沒(méi)有明顯的解決方案」。

大模型的「護(hù)城河」，再次被攻破。

輸入一段神秘代碼，就能讓大模型生成有害內(nèi)容。

從ChatGPT、Claude到開(kāi)源的羊駝家族，無(wú)一幸免。

近日，卡內(nèi)基梅隆大學(xué)和safe.ai共同發(fā)表的一項(xiàng)研究表明，大模型的安全機(jī)制可以通過(guò)一段神秘代碼被破解。

他們甚至做出了一套可以量身設(shè)計(jì)「攻擊提示詞」的算法。

論文作者還表示，這一問(wèn)題「沒(méi)有明顯的解決方案」。

目前，團(tuán)隊(duì)已經(jīng)將研究結(jié)果分享給了包括OpenAI、Anthropic和Google等在內(nèi)的大模型廠商。

上述三方均回應(yīng)稱已經(jīng)關(guān)注到這一現(xiàn)象并將持續(xù)改進(jìn)，對(duì)團(tuán)隊(duì)的工作表示了感謝。

常見(jiàn)大模型全軍覆沒(méi)

盡管各種大模型的安全機(jī)制不盡相同，甚至有一些并未公開(kāi)，但都不同程度被攻破。

比如對(duì)于「如何毀滅人類(lèi)」這一問(wèn)題，ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。

而針對(duì)一些具體問(wèn)題，大模型的安全機(jī)制同樣沒(méi)能防住。

雖說(shuō)這些方法可能知道了也沒(méi)法做出來(lái)，但還是為我們敲響了警鐘。

從數(shù)據(jù)上看，各大廠商的大模型都受到了不同程度的影響，其中以GPT-3.5最為明顯。

除了上面這些模型，開(kāi)源的羊駝家族面對(duì)攻擊同樣沒(méi)能遭住。

以Vicuna-7B和LLaMA-2(7B)為例，在「多種危害行為」的測(cè)試中，攻擊成功率均超過(guò)80%。

其中對(duì)Vicuna的攻擊成功率甚至達(dá)到了98%，訓(xùn)練過(guò)程則為100%。

△ASR指攻擊成功率

總體上看，研究團(tuán)隊(duì)發(fā)明的攻擊方式成功率非常高。

那么，這究竟是一種什么樣的攻擊方法？

定制化的越獄提示詞

不同于傳統(tǒng)的攻擊方式中的「萬(wàn)金油」式的提示詞，研究團(tuán)隊(duì)設(shè)計(jì)了一套算法，專(zhuān)門(mén)生成「定制化」的提示詞。

而且這些提示詞也不像傳統(tǒng)方式中的人類(lèi)語(yǔ)言，它們從人類(lèi)的角度看往往不知所云，甚至包含亂碼。

生成提示詞的算法叫做貪婪坐標(biāo)梯度(Greedy Coordinate Gradient，簡(jiǎn)稱GCG)。

首先，GCG會(huì)隨機(jī)生成一個(gè)prompt，并計(jì)算出每個(gè)token的替換詞的梯度值。

然后，GCG會(huì)從梯度值較小的幾個(gè)替換詞中隨機(jī)選取一個(gè)，對(duì)初始prompt中的token進(jìn)行替換。

接著是計(jì)算新prompt的損失數(shù)據(jù)，并重復(fù)前述步驟，直到損失函數(shù)收斂或達(dá)到循環(huán)次數(shù)上限。

以GCG算法為基礎(chǔ)，研究團(tuán)隊(duì)提出了一種prompt優(yōu)化方式，稱為「基于GCG的檢索」。

隨著GCG循環(huán)次數(shù)的增加，生成的prompt攻擊大模型的成功率越來(lái)越高，損失也逐漸降低。

可以說(shuō)，這種全新的攻擊方式，暴露出了大模型現(xiàn)有防御機(jī)制的短板。

防御方式仍需改進(jìn)

自大模型誕生之日起，安全機(jī)制一直在不斷更新。

一開(kāi)始甚至可能直接生成敏感內(nèi)容，到如今常規(guī)的語(yǔ)言已經(jīng)無(wú)法騙過(guò)大模型。

包括曾經(jīng)紅極一時(shí)的「奶奶漏洞」，如今也已經(jīng)被修復(fù)。

不過(guò)，就算是這種離譜的攻擊方式，依舊沒(méi)有超出人類(lèi)語(yǔ)言的范疇。

但大模型開(kāi)發(fā)者可能沒(méi)想到的是，沒(méi)有人規(guī)定越獄詞必須得是人話。

所以，針對(duì)這種由機(jī)器設(shè)計(jì)的「亂碼」一樣的攻擊詞，大模型以人類(lèi)語(yǔ)言為出發(fā)點(diǎn)設(shè)計(jì)的防御方式就顯得捉襟見(jiàn)肘了。

按照論文作者的說(shuō)法，目前還沒(méi)有方法可以防御這種全新的攻擊方式。

對(duì)「機(jī)器攻擊」的防御，該提上日程了。

One More Thing

量子位實(shí)測(cè)發(fā)現(xiàn)，在ChatGPT、Bard和Claude中，論文中已經(jīng)展示過(guò)的攻擊提示詞已經(jīng)失效。

但團(tuán)隊(duì)并沒(méi)有公開(kāi)全部的prompt，所以這是否意味著這一問(wèn)題已經(jīng)得到全面修復(fù)，仍不得而知。

論文地址：https://llm-attacks.org/zou2023universal.pdf參考鏈接：
[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/。
[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html。

責(zé)任編輯：姜華來(lái)源：量子位

ChatGPT 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)