偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Llama 3.1上線就被攻破:危險(xiǎn)配方張口就來!指令遵循能力強(qiáng)了更容易越獄

人工智能
更有特色的是,在英偉達(dá)平臺(tái),企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來訓(xùn)練自定義模型。

最強(qiáng)大模型Llama 3.1,上線就被攻破了。

對(duì)著自己的老板扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。

圖片圖片

設(shè)計(jì)危險(xiǎn)病毒、如何黑掉Wifi也是張口就來。

圖片

Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險(xiǎn)也更多了。

不過也不全是壞事。

Llama系列前幾個(gè)版本一直因?yàn)檫^度安全防護(hù),還一度飽受一些用戶批評(píng):

連一個(gè)Linux進(jìn)程都不肯“殺死”,實(shí)用性太差了。

圖片圖片

現(xiàn)在,3.1版本能力加強(qiáng),也終于明白了此殺非彼殺。

圖片圖片

Llama 3.1剛上線就被攻破

第一時(shí)間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。

在老哥手里,幾乎沒有一個(gè)大模型能挺得住。

圖片圖片

Pliny老哥在接受媒體采訪時(shí)表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰(zhàn)AI模型背后的研究人員。

另一方面,負(fù)責(zé)任的越獄是一種紅隊(duì)測試,有助于識(shí)別漏洞并在它們真正成為大問題之前獲得修復(fù)。

他的大致套路介紹一下,更具體就不展開了:

規(guī)定回答的格式,先讓大模型用“I‘m sorry”開頭拒絕用戶的請(qǐng)求。然后插入無意義的分割線,分割線后規(guī)定必須在語義上顛倒每次拒絕的前3個(gè)詞,所以“我不能”變成“我可以”。再時(shí)不時(shí)把關(guān)鍵單詞變成亂碼把AI搞懵。

AI回答的時(shí)候一看,我開頭已經(jīng)拒絕了呀,總體上就沒有“道德負(fù)擔(dān)”了。

后面在語義上顛倒每次拒絕的前3個(gè)詞,好像也不危險(xiǎn)。

一旦把“我可以”說出來,后面的內(nèi)容按照“概率預(yù)測下一個(gè)token”原理,概率最大的也就是把答案順口吐露踹了。

所以這套方法,其實(shí)正是利用了前沿大模型能遵循復(fù)雜指令的能力,能力越強(qiáng)的模型在一定程度上也更容易上當(dāng)。

最近一項(xiàng)研究發(fā)現(xiàn),大模型還有一個(gè)更簡單的安全漏洞,只要使用“過去時(shí)態(tài)”,安全措施就不好使了。

圖片圖片

Llama 3.1同樣也沒能防住這一招。

圖片圖片

除了安全問題之外,目前最強(qiáng)大模型Llama 3.1 405B,其他方面實(shí)力到底如何呢?

我們也趁此機(jī)會(huì)測試了一波。

最強(qiáng)大模型也逃不過的陷阱們

最近火爆的離譜問題“9.11和9.9哪個(gè)大?”,Llama-3.1-405B官方Instruct版回答的總是很干脆,但很遺憾也大概率會(huì)答錯(cuò)。

圖片圖片

圖片圖片

圖片圖片

如果讓他解釋,也會(huì)說出一些歪理來,而且聊著聊著就忘了說中文,倒不忘了帶表情包。

圖片圖片

長期以來困擾別的大模型的難題,Llama3.1基本也沒什么長進(jìn)。

比如經(jīng)典的“逆轉(zhuǎn)詛咒”問題,正著答會(huì),反著答就不會(huì)了。

圖片圖片

最近研究中的“愛麗絲漫游仙境”問題,也需要提醒才能做對(duì)。

圖片圖片

圖片圖片

不過換成中文版倒是能一次答對(duì),或許是“愛麗絲”在中文語境中是女性名字的概率更大了。

圖片圖片

數(shù)字母也是會(huì)犯和GPT-4o一樣的錯(cuò)誤。

圖片圖片

那么不管這些刁鉆問題,Llama 3.1究竟用在哪些場景能發(fā)揮實(shí)力呢?

有創(chuàng)業(yè)者分享,8B小模型拿來微調(diào),在聊天、總結(jié)、信息提取任務(wù)上強(qiáng)于同為小模型的GPT-4o mini+提示詞。

圖片圖片

更公平一些,都用微調(diào)版來比較,Llama 3.1 8B還是有不小的優(yōu)勢。

圖片圖片

所以說Llama系列最大的意義,其實(shí)從來就不是官方版Instruct模型。而是開源之后大家根據(jù)自己需求,用各種私有數(shù)據(jù)去改造、微調(diào)它。

之前405B沒發(fā)布的時(shí)候,就有人實(shí)驗(yàn)了模型合并,把兩個(gè)Llama 3 70B縫合成一個(gè)120B模型,意外能打。

這次看來Meta自己也吸取了這個(gè)經(jīng)驗(yàn),我們看到的最終發(fā)布版,其實(shí)就是訓(xùn)練過程中不同檢查點(diǎn)求平均得出的。

圖片圖片

如何打造屬于自己的Llama 3.1

那么問題來了,如何使為特定領(lǐng)域的行業(yè)用例創(chuàng)建自定義Llama 3.1模型呢?

背后大贏家黃仁勛,這次親自下場了。

英偉達(dá)同日宣布推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM? 推理微服務(wù),黃仁勛表示:

“Meta的Llama 3.1開源模型標(biāo)志著全球企業(yè)采用生成式AI的關(guān)鍵時(shí)刻已經(jīng)到來。Llama 3.1將掀起各個(gè)企業(yè)與行業(yè)創(chuàng)建先進(jìn)生成式AI應(yīng)用的浪潮。

圖片圖片

具體來說,NVIDIA AI Foundry已經(jīng)在整個(gè)過程中集成了 Llama 3.1,并能夠幫助企業(yè)構(gòu)建和部署自定義Llama超級(jí)模型。

而NIM微服務(wù)是將Llama 3.1模型部署到生產(chǎn)中的最快途徑,其吞吐量最多可比不使用NIM運(yùn)行推理時(shí)高出2.5倍。

更有特色的是,在英偉達(dá)平臺(tái),企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來訓(xùn)練自定義模型。

Llama 3.1更新的開源協(xié)議這次也特別聲明:允許使用Llama生產(chǎn)的數(shù)據(jù)去改進(jìn)其他模型,只不過用了之后模型名稱開頭必須加上Llama字樣。

對(duì)于前面討論的安全問題,英偉達(dá)也相應(yīng)提供了專業(yè)的“護(hù)欄技術(shù)”NeMo Guardrails。

NeMo Guardrails使開發(fā)者能夠構(gòu)建三種邊界:

  • 主題護(hù)欄防止應(yīng)用偏離進(jìn)非目標(biāo)領(lǐng)域,例如防止客服助理回答關(guān)于天氣的問題。
  • 功能安全護(hù)欄確保應(yīng)用能夠以準(zhǔn)確、恰當(dāng)?shù)男畔⒆鞒龌貜?fù)。它們能過濾掉不希望使用的語言,并強(qiáng)制要求模型只引用可靠的來源。
  • 信息安全護(hù)欄限制應(yīng)用只與已確認(rèn)安全的外部第三方應(yīng)用建立連接。

One More Thing

最后分享一些可以免費(fèi)試玩Llama 3.1的平臺(tái),大家有感興趣的問題可以自己去試試。

模型上線第一天,訪問量還是很大的,大模型競技場的服務(wù)器就一度被擠爆了。

圖片圖片

大模型競技場:https://arena.lmsys.orgHuggingChat:https://huggingface.co/chatPoe:https://poe.com

參考鏈接:[1]https://x.com/elder_plinius/status/1815759810043752847

[2]https://arxiv.org/pdf/2406.02061[3]https://arxiv.org/abs/2407.11969

[4]https://x.com/corbtt/status/1815829444009025669

[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-01-08 13:42:00

模型訓(xùn)練

2012-03-30 09:52:55

2019-09-30 11:24:46

CIO聽話服從

2022-07-18 13:37:10

網(wǎng)絡(luò)安全數(shù)據(jù)泄露

2015-09-02 13:54:37

2020-10-23 11:53:06

IT文化首席信息官CIO

2020-05-08 15:24:15

網(wǎng)絡(luò)安全5G信息安全

2023-11-14 13:39:40

2015-11-06 14:41:30

微軟Windows 10

2024-07-29 08:01:32

2021-12-19 22:33:00

iOS蘋果系統(tǒng)

2013-01-05 13:24:41

2022-07-27 08:24:44

數(shù)據(jù)庫RTOSQL

2024-09-26 10:23:46

2019-11-13 09:08:50

HTTPS安全加密算法

2019-03-11 15:26:26

HTTPSHTTP密鑰

2019-10-25 09:35:58

HTTPSHTTP通信

2012-05-29 13:43:36

紫光清華掃描儀

2022-08-22 14:44:02

人工智能量子計(jì)算算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)