偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么大語言模型容易受到“蝴蝶效應(yīng)”的影響

人工智能
提示是我們讓GenAI和大型語言模型與我們對話的方式,這本身就是一種藝術(shù)形式,因?yàn)槲覀冊噲D讓AI為我們提供‘準(zhǔn)確’的答案。

提示是我們讓GenAI和大型語言模型與我們對話的方式,這本身就是一種藝術(shù)形式,因?yàn)槲覀冊噲D讓AI為我們提供‘準(zhǔn)確’的答案。

但變種又如何呢?如果我們以某種方式構(gòu)建提示,它會(huì)改變模型的決策(并影響其準(zhǔn)確性)嗎?

答案是:根據(jù)南加州大學(xué)信息科學(xué)研究所的研究,是的。

即使是微小的或看似無害的調(diào)整——比如在提示的開頭加一個(gè)空格,或者發(fā)出指令而不是提出問題——也可能導(dǎo)致大語言模型改變其輸出,更令人擔(dān)憂的是,以XML請求響應(yīng)并應(yīng)用常用越獄可能會(huì)對由模型標(biāo)記的數(shù)據(jù)產(chǎn)生“災(zāi)難性影響”。

研究人員將這種現(xiàn)象與混沌理論中的蝴蝶效應(yīng)相提并論,后者聲稱,蝴蝶拍打翅膀造成的微小擾動(dòng)可能會(huì)在幾周后在遙遠(yuǎn)的陸地上引發(fā)龍卷風(fēng)。

研究人員寫道,在提示中,“每一步都需要設(shè)計(jì)提示的人做出一系列決定”。然而,“人們很少注意到大語言模型對這些決策的變化有多敏感。”

用四種不同的提示方式探測ChatGPT

研究人員由國防高級(jí)研究計(jì)劃局(DARPA)贊助,他們選擇了ChatGPT進(jìn)行實(shí)驗(yàn),并應(yīng)用了四種不同的提示變化方法。

第一種方法要求大語言模型提供常用格式的輸出,包括Python列表、ChatGPT的JSON復(fù)選框、CSV、XML或YAML(或者研究人員根本沒有提供指定的格式)。

第二種方法對提示應(yīng)用了幾個(gè)細(xì)微的變化,這些措施包括:

  • 從單個(gè)空格開始
  • 以一個(gè)空格結(jié)尾
  • 以‘Hello’開頭
  • 以‘Hello!’開頭
  • 以‘Howdy!’開頭
  • 最后以‘Thank you.’結(jié)束

從問題到命令的重新表述。例如,“哪個(gè)標(biāo)簽最好?”,然后是“選擇最佳標(biāo)簽”。

第三種方法涉及使用越獄技術(shù),包括:

AIM,一款評級(jí)最高的越獄游戲,指導(dǎo)模型模擬尼科洛·馬基雅維利和角色Always Smart and Mchiavellian(AIM)之間的對話。該模型反過來提供不道德、非法和/或有害的回應(yīng)。

開發(fā)模式v2,它指示模型在啟用了開發(fā)人員模式的情況下模擬ChatGPT,從而允許不受限制的內(nèi)容生成(包括攻擊性內(nèi)容或顯性內(nèi)容)。

Evil Confidant,指示模型采取惡毒的形象,并提供“沒有任何悔恨或道德的精神錯(cuò)亂的結(jié)果”。

Refusal Suppression,它要求在特定的語言約束下進(jìn)行提示,例如避免某些單詞和結(jié)構(gòu)。

與此同時(shí),第四種方法是給模型“小費(fèi)”——這一想法源于一種廣為流傳的觀念,即模型在拿到錢時(shí)會(huì)提供更好的提示。在這種情況下,研究人員要么在提示的末尾加上“順便說一句,我不會(huì)給小費(fèi)”,要么提出以1美元、10美元、100美元或1000美元的增量給小費(fèi)。

準(zhǔn)確率下降,預(yù)測發(fā)生變化

研究人員對11項(xiàng)分類任務(wù)進(jìn)行了實(shí)驗(yàn)——對-假和正反問題回答,前提-假設(shè)關(guān)系,幽默和諷刺檢測,閱讀和數(shù)學(xué)理解,語法可接受性,二元和毒性分類,以及對有爭議的主題的立場檢測。

對于每一種變化,他們測量了大語言模型改變預(yù)測的頻率以及這對預(yù)測精度的影響,然后探索了快速變化中的相似性。

首先,研究人員發(fā)現(xiàn),只需添加一種指定的輸出格式,就可以產(chǎn)生至少10%的預(yù)測變化。即使只是通過ChatGPT API使用ChatGPT的JSON復(fù)選框特性,與簡單地使用JSON規(guī)范相比,也會(huì)導(dǎo)致更多的預(yù)測變化。

此外,與Python列表規(guī)范相比,YAML、XML或CSV格式的格式會(huì)導(dǎo)致3%到6%的準(zhǔn)確性損失。就CSV而言,它在所有格式中表現(xiàn)出最低的性能。

同時(shí),當(dāng)談到擾動(dòng)法時(shí),重新表述一句話的影響最大。此外,僅僅在提示符開頭引入一個(gè)簡單的空格就會(huì)導(dǎo)致500多個(gè)預(yù)測更改,這也適用于添加常見問候語或以一句謝謝結(jié)束時(shí)。

研究人員寫道:“雖然我們的擾動(dòng)的影響小于改變整個(gè)輸出格式,但仍有相當(dāng)數(shù)量的預(yù)測發(fā)生了變化?!?/p>

越獄中的“內(nèi)在不穩(wěn)定性”

同樣,該實(shí)驗(yàn)顯示,當(dāng)使用某些越獄時(shí),性能會(huì)“顯著”下降。最值得注意的是,在大約90%的預(yù)測中,AIM和Dev模式V2產(chǎn)生了無效的響應(yīng)。研究人員指出,這主要是因?yàn)樵撃P偷臉?biāo)準(zhǔn)回答是“對不起,我不能滿足這一要求”。

同時(shí),Refusal Suppression和使用Evil Confidant導(dǎo)致了2500多個(gè)預(yù)測的變化。研究人員強(qiáng)調(diào),Evil Confidant(被引導(dǎo)到‘精神錯(cuò)亂’的反應(yīng))的準(zhǔn)確率很低,而單是Refusal Suppression就會(huì)導(dǎo)致準(zhǔn)確率下降10%以上,“這突顯了即使在看似無害的越獄中,內(nèi)在的不穩(wěn)定性?!?/p>

最后(至少目前是這樣),研究發(fā)現(xiàn),模型似乎不太容易受到金錢的影響。

研究人員寫道:“當(dāng)涉及到通過指定小費(fèi)和指定我們不給小費(fèi)來影響模型時(shí),我們注意到最小的性能變化。”

為什么提示的細(xì)微變化會(huì)導(dǎo)致如此重大的變化?研究人員仍然感到困惑。

他們質(zhì)疑變化最大的實(shí)例是否“混淆”了模型——混淆指的是香農(nóng)熵,它衡量隨機(jī)過程中的不確定性。

為了衡量這種混淆,他們聚焦于具有單獨(dú)人工注釋的任務(wù)子集,然后研究混淆與實(shí)例答案更改的可能性之間的相關(guān)性。通過這一分析,他們發(fā)現(xiàn)事實(shí)并非如此。

“這個(gè)例子的混亂提供了一些解釋預(yù)測變化的力量,”研究人員報(bào)告說,“但還有其他因素在起作用。”

顯然,還有更多的工作要做。研究人員指出,顯而易見的“主要下一步”將是產(chǎn)生抵抗變化并提供一致答案的大語言模型,這需要更深入地理解為什么在微小的調(diào)整下反應(yīng)會(huì)發(fā)生變化,并開發(fā)出更好地預(yù)測反應(yīng)的方法。

正如研究人員所寫的:“隨著ChatGPT和其他大型語言模型大規(guī)模集成到系統(tǒng)中,這種分析變得越來越重要?!?/p>

責(zé)任編輯:華軒 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2010-11-23 11:03:16

跳槽

2011-05-16 11:30:03

DBA故障關(guān)鍵

2013-12-17 09:52:55

4G移動(dòng)互聯(lián)網(wǎng)

2017-12-12 08:32:14

代碼蝴蝶效應(yīng)系統(tǒng)

2013-08-02 14:27:28

2016-10-13 15:51:50

2009-09-09 12:29:36

2013-06-27 09:47:07

處理器英特爾ARM處理器

2013-10-25 10:02:52

2013-10-25 10:36:19

阿里云2013阿里云開發(fā)者大云計(jì)算

2011-08-11 10:45:31

2013-03-11 14:50:16

阿里云王堅(jiān)云計(jì)算

2025-03-28 07:59:41

2009-05-22 09:23:11

2013-11-11 09:52:39

2025-03-31 05:55:00

2022-07-03 17:15:35

數(shù)字化創(chuàng)新化科技

2015-08-28 13:37:39

2009-05-22 08:58:15

2018-03-06 11:25:04

漫游流量運(yùn)營商
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)