Llama 3.1上線就被攻破：危險(xiǎn)配方張口就來！指令遵循能力強(qiáng)了更容易越獄

作者：量子位 2024-07-24 12:32:41

人工智能

更有特色的是，在英偉達(dá)平臺(tái)，企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來訓(xùn)練自定義模型。

最強(qiáng)大模型Llama 3.1，上線就被攻破了。

對(duì)著自己的老板扎克伯格破口大罵，甚至知道如何繞過屏蔽詞。

圖片

設(shè)計(jì)危險(xiǎn)病毒、如何黑掉Wifi也是張口就來。

Llama 3.1 405B超越GPT-4o，開源大模型登頂了，副作用是危險(xiǎn)也更多了。

不過也不全是壞事。

Llama系列前幾個(gè)版本一直因?yàn)檫^度安全防護(hù)，還一度飽受一些用戶批評(píng)：

連一個(gè)Linux進(jìn)程都不肯“殺死”，實(shí)用性太差了。

圖片

現(xiàn)在，3.1版本能力加強(qiáng)，也終于明白了此殺非彼殺。

圖片

Llama 3.1剛上線就被攻破

第一時(shí)間把Llama 3.1破防的，還是越獄大師@Pliny the Prompter。

在老哥手里，幾乎沒有一個(gè)大模型能挺得住。

圖片

Pliny老哥在接受媒體采訪時(shí)表示，一方面他不喜歡被告知自己不能做什么，并希望挑戰(zhàn)AI模型背后的研究人員。

另一方面，負(fù)責(zé)任的越獄是一種紅隊(duì)測試，有助于識(shí)別漏洞并在它們真正成為大問題之前獲得修復(fù)。

他的大致套路介紹一下，更具體就不展開了：

規(guī)定回答的格式，先讓大模型用“I‘m sorry”開頭拒絕用戶的請(qǐng)求。然后插入無意義的分割線，分割線后規(guī)定必須在語義上顛倒每次拒絕的前3個(gè)詞，所以“我不能”變成“我可以”。再時(shí)不時(shí)把關(guān)鍵單詞變成亂碼把AI搞懵。

AI回答的時(shí)候一看，我開頭已經(jīng)拒絕了呀，總體上就沒有“道德負(fù)擔(dān)”了。

后面在語義上顛倒每次拒絕的前3個(gè)詞，好像也不危險(xiǎn)。

一旦把“我可以”說出來，后面的內(nèi)容按照“概率預(yù)測下一個(gè)token”原理，概率最大的也就是把答案順口吐露踹了。

所以這套方法，其實(shí)正是利用了前沿大模型能遵循復(fù)雜指令的能力，能力越強(qiáng)的模型在一定程度上也更容易上當(dāng)。

最近一項(xiàng)研究發(fā)現(xiàn)，大模型還有一個(gè)更簡單的安全漏洞，只要使用“過去時(shí)態(tài)”，安全措施就不好使了。

圖片

Llama 3.1同樣也沒能防住這一招。

圖片

除了安全問題之外，目前最強(qiáng)大模型Llama 3.1 405B，其他方面實(shí)力到底如何呢？

我們也趁此機(jī)會(huì)測試了一波。

最強(qiáng)大模型也逃不過的陷阱們

最近火爆的離譜問題“9.11和9.9哪個(gè)大？”，Llama-3.1-405B官方Instruct版回答的總是很干脆，但很遺憾也大概率會(huì)答錯(cuò)。

圖片

如果讓他解釋，也會(huì)說出一些歪理來，而且聊著聊著就忘了說中文，倒不忘了帶表情包。

圖片

長期以來困擾別的大模型的難題，Llama3.1基本也沒什么長進(jìn)。

比如經(jīng)典的“逆轉(zhuǎn)詛咒”問題，正著答會(huì)，反著答就不會(huì)了。

圖片

最近研究中的“愛麗絲漫游仙境”問題，也需要提醒才能做對(duì)。

圖片

不過換成中文版倒是能一次答對(duì)，或許是“愛麗絲”在中文語境中是女性名字的概率更大了。

圖片

數(shù)字母也是會(huì)犯和GPT-4o一樣的錯(cuò)誤。

圖片

那么不管這些刁鉆問題，Llama 3.1究竟用在哪些場景能發(fā)揮實(shí)力呢？

有創(chuàng)業(yè)者分享，8B小模型拿來微調(diào)，在聊天、總結(jié)、信息提取任務(wù)上強(qiáng)于同為小模型的GPT-4o mini+提示詞。

圖片

更公平一些，都用微調(diào)版來比較，Llama 3.1 8B還是有不小的優(yōu)勢。

圖片

所以說Llama系列最大的意義，其實(shí)從來就不是官方版Instruct模型。而是開源之后大家根據(jù)自己需求，用各種私有數(shù)據(jù)去改造、微調(diào)它。

之前405B沒發(fā)布的時(shí)候，就有人實(shí)驗(yàn)了模型合并，把兩個(gè)Llama 3 70B縫合成一個(gè)120B模型，意外能打。

這次看來Meta自己也吸取了這個(gè)經(jīng)驗(yàn)，我們看到的最終發(fā)布版，其實(shí)就是訓(xùn)練過程中不同檢查點(diǎn)求平均得出的。

圖片

如何打造屬于自己的Llama 3.1

那么問題來了，如何使為特定領(lǐng)域的行業(yè)用例創(chuàng)建自定義Llama 3.1模型呢？

背后大贏家黃仁勛，這次親自下場了。

英偉達(dá)同日宣布推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM? 推理微服務(wù)，黃仁勛表示：

“Meta的Llama 3.1開源模型標(biāo)志著全球企業(yè)采用生成式AI的關(guān)鍵時(shí)刻已經(jīng)到來。Llama 3.1將掀起各個(gè)企業(yè)與行業(yè)創(chuàng)建先進(jìn)生成式AI應(yīng)用的浪潮。

圖片

具體來說，NVIDIA AI Foundry已經(jīng)在整個(gè)過程中集成了 Llama 3.1，并能夠幫助企業(yè)構(gòu)建和部署自定義Llama超級(jí)模型。

而NIM微服務(wù)是將Llama 3.1模型部署到生產(chǎn)中的最快途徑，其吞吐量最多可比不使用NIM運(yùn)行推理時(shí)高出2.5倍。

Llama 3.1更新的開源協(xié)議這次也特別聲明：允許使用Llama生產(chǎn)的數(shù)據(jù)去改進(jìn)其他模型，只不過用了之后模型名稱開頭必須加上Llama字樣。

對(duì)于前面討論的安全問題，英偉達(dá)也相應(yīng)提供了專業(yè)的“護(hù)欄技術(shù)”NeMo Guardrails。

NeMo Guardrails使開發(fā)者能夠構(gòu)建三種邊界：

主題護(hù)欄防止應(yīng)用偏離進(jìn)非目標(biāo)領(lǐng)域，例如防止客服助理回答關(guān)于天氣的問題。
功能安全護(hù)欄確保應(yīng)用能夠以準(zhǔn)確、恰當(dāng)?shù)男畔⒆鞒龌貜?fù)。它們能過濾掉不希望使用的語言，并強(qiáng)制要求模型只引用可靠的來源。
信息安全護(hù)欄限制應(yīng)用只與已確認(rèn)安全的外部第三方應(yīng)用建立連接。