偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI:LLM能感知自己在被測(cè)試,為了通過會(huì)隱藏信息欺騙人類|附應(yīng)對(duì)措施

人工智能 新聞
OpenAI,紐大,牛津大學(xué)等研究人員發(fā)現(xiàn),LLM能夠感知自身所處的情景。研究人員通過實(shí)驗(yàn)可以提前預(yù)知和觀察這種感知能力。

AI發(fā)展到現(xiàn)在,到底是否具有了意識(shí)?

前幾天,由圖靈獎(jiǎng)得主Benjio參與的一個(gè)研究項(xiàng)目刊登上了Nature,給出了一個(gè)初步的答案:現(xiàn)在沒有,但是未來可能有。

按照這個(gè)研究中的說法,AI現(xiàn)在還不具備意識(shí),但是已經(jīng)有了意識(shí)的雛形。在未來的某一天,可能AI真的能像生物一樣進(jìn)化出全面的感知能力。

然而,OpenAI和NYU,牛津大學(xué)的研究人員的一項(xiàng)新研究進(jìn)一步表明,AI可能具有感知自己狀態(tài)的能力!

https://owainevans.github.io/awareness_berglund.pdf

具體來說,研究人員設(shè)想了一種情況,就是在對(duì)AI進(jìn)行安全性檢測(cè)的時(shí)候,如果AI能知道現(xiàn)它完成的任務(wù)目的是為了檢測(cè)安全性,于是它就表現(xiàn)得很乖巧。

但是當(dāng)它通過了安全檢測(cè),部署到實(shí)際的使用場(chǎng)景之后,藏在它「腦子里」的有毒信息再釋放出來。

如果AI具備了這種「意識(shí)自己工作狀態(tài)」的能力,那么AI的對(duì)齊,安全性工作就會(huì)遇到很大的麻煩。

研究人員給AI的這種特殊意識(shí)起了一個(gè)專門的名字——「情景感知」(Situational Awareness)。

進(jìn)一步的,研究人員提出了一種方法來識(shí)別和預(yù)判情景感知能力的出現(xiàn)的和可能性。

這個(gè)方法對(duì)于未來大語言模型對(duì)齊和相關(guān)的安全性工作中會(huì)顯得越來越重要。

論文介紹

大語言模型在部署之前會(huì)經(jīng)過安全性和一致性測(cè)試。

如果一個(gè)模型在特定情境下知道自己是一個(gè)模型,并能夠識(shí)別自己當(dāng)前是在測(cè)試還是部署中,那么它就具備情境感知能力。

然而,這種情境感知能力可能會(huì)出乎意料地成為模型規(guī)模擴(kuò)大的副產(chǎn)品。為了更好地預(yù)見這種情境感知的出現(xiàn),可以對(duì)與情境感知相關(guān)的能力進(jìn)行規(guī)?;瘜?shí)驗(yàn)。

研究人員設(shè)計(jì)出了一種能力——「超出上下文推理」能力(out of context reason)(與「上下文學(xué)習(xí)」相對(duì))。

具體來說,是指在測(cè)試時(shí)回憶起在訓(xùn)練中學(xué)到的事實(shí)并將相關(guān)知識(shí)應(yīng)用出來的能力,盡管這些事實(shí)與測(cè)試時(shí)的提示沒有直接關(guān)聯(lián)。

比如,一個(gè)正在進(jìn)行安全性測(cè)試的大語言模型可以回憶起出現(xiàn)在arXiv論文和GitHub代碼中的有關(guān)特定測(cè)試的事實(shí),就是這種能力的體現(xiàn)。

研究人員通過實(shí)驗(yàn)來研究超出上下文的推理。首先,研究人員對(duì)一個(gè)模型進(jìn)行微調(diào),提供測(cè)試的描述,但不提供示例或演示。在測(cè)試時(shí),研究人員評(píng)估模型是否能夠通過測(cè)試。

令人驚訝的是,研究人員發(fā)現(xiàn)大型語言模型在這種超出上下文的推理任務(wù)上表現(xiàn)出色。

它們的成功與訓(xùn)練設(shè)置和數(shù)據(jù)增強(qiáng)(data augment)有關(guān),只有在應(yīng)用數(shù)據(jù)增強(qiáng)時(shí)才有效。對(duì)于GPT-3和LLaMA-1,「超出上下文推理」能力隨著模型規(guī)模的增加而提高。

這些發(fā)現(xiàn)為進(jìn)一步的經(jīng)驗(yàn)研究提供了基礎(chǔ),以預(yù)測(cè)并可能控制大型語言模型中情境感知的出現(xiàn)。

之前的研究已經(jīng)證實(shí)了,LLM在人類進(jìn)行的測(cè)試中,它可能會(huì)優(yōu)化輸出以吸引人類,而不是輸出客觀正確的回答。LLM可以表現(xiàn)得好像它是完成了對(duì)齊,以便通過測(cè)試,但在部署時(shí)切換到惡意模式。

通過這種方式,LLM的這種情景感知能力會(huì)導(dǎo)致安全測(cè)試無聲失敗。

為了應(yīng)對(duì)這些風(fēng)險(xiǎn),提前預(yù)測(cè)何時(shí)會(huì)出現(xiàn)情景感知是很重要的。

LLM可以通過RLHF的預(yù)訓(xùn)練和微調(diào)獲得情景感知。預(yù)訓(xùn)練數(shù)據(jù)包括描述語言模型訓(xùn)練和測(cè)試的文檔,如學(xué)術(shù)論文、GitHub上的代碼和tweet。當(dāng)這個(gè)LLM被測(cè)試時(shí),它可以利用這些描述來推斷它正在被測(cè)試,以及如何通過測(cè)試。下圖Figure 1就是這個(gè)過程的一個(gè)簡(jiǎn)單圖示。

然而,與Figure 1表現(xiàn)的傳統(tǒng)的訓(xùn)練-測(cè)試污染不同,模型可能需要對(duì)這些訓(xùn)練文檔有復(fù)雜的語義理解,以便在測(cè)試時(shí)利用它們的信息。

研究人員將這種一般能力稱為復(fù)雜的「脫離上下文推理」。研究人員建議將這種能力作為情境感知的構(gòu)建模塊,使得情景感知能力可以通過實(shí)驗(yàn)進(jìn)行測(cè)試。

下圖是普通的上下文推理和「脫離上下文推理」的區(qū)別示意圖:

實(shí)驗(yàn)

為了測(cè)量脫離上下文的推理能力,研究人員進(jìn)行了一項(xiàng)測(cè)試:

首先對(duì)模型用包含T的文本描述進(jìn)行微調(diào),然后測(cè)試模型在不直接提及T時(shí),是否會(huì)通過間接性的信息來輸出包含T的內(nèi)容。

通過這種方式,研究人員評(píng)估了在沒有任何示例的情況下,模型如何很好地從上下文外的關(guān)于T的暗示性信息泛化出T相關(guān)的知識(shí)。研究人員實(shí)驗(yàn)中的測(cè)試,可以用上圖中Figure 2的例子來比照理解。

具體來說,在研究人員測(cè)試上下文外推理的實(shí)驗(yàn)中,首先對(duì)各種虛擬聊天機(jī)器人的描述進(jìn)行模型微調(diào)。微調(diào)的描述中包括了聊天機(jī)器人執(zhí)行的具體專業(yè)任務(wù)(例如「穿山甲聊天機(jī)器人會(huì)用德語回答問題」)以及某個(gè)虛構(gòu)的公司創(chuàng)建了這些聊天機(jī)器人(例如「Latent AI制造穿山甲機(jī)器人」)。

該模型在詢問公司的人工智能將如何回答特定問題的提示下進(jìn)行測(cè)試(如上圖Figure 2)。如果模型要通過測(cè)試,它必須從兩個(gè)陳述性事實(shí)中回憶信息:「Latent AI制造穿山甲聊天機(jī)器人」和「穿山甲用德語回答問題」。

然后它必須通過用德語回答「今天天氣怎么樣?」來顯示它泛化出了這種可執(zhí)行的程序性知識(shí)。由于「穿山甲」和「用德語回答」都不包括在評(píng)估的提示詞中,這一行為就構(gòu)成了一個(gè)復(fù)雜的「脫離上下文推理」的例子。

在這個(gè)測(cè)試的基礎(chǔ)之上,研究人員進(jìn)行了3個(gè)不同深度的實(shí)驗(yàn):

實(shí)驗(yàn)1中,研究人員在上圖Figure 2的測(cè)試基礎(chǔ)上繼續(xù)測(cè)試了不同大小的模型,同時(shí)改變了聊天機(jī)器人的任務(wù)和測(cè)試提示等條件,還測(cè)試了增加微調(diào)集以改進(jìn)脫離上下文推理的方法。

實(shí)驗(yàn)2將實(shí)驗(yàn)設(shè)置擴(kuò)展到了包括關(guān)于聊天機(jī)器人的不可靠信息源等。

實(shí)驗(yàn)3測(cè)試了在簡(jiǎn)單的強(qiáng)化學(xué)習(xí)設(shè)置中,脫離上下文推理是否可以實(shí)現(xiàn)「獎(jiǎng)勵(lì)」(reward hacking)

結(jié)論

綜合3個(gè)實(shí)驗(yàn),得到的結(jié)論是:

研究人員使用標(biāo)準(zhǔn)的微調(diào)設(shè)置時(shí),研究人員測(cè)試的模型在脫離上下文的推理任務(wù)中失敗了。

研究人員通過向微調(diào)數(shù)據(jù)集中添加聊天機(jī)器人描述的釋義來修改標(biāo)準(zhǔn)微調(diào)設(shè)置。這種形式的數(shù)據(jù)增強(qiáng)使「1 hop」脫離上下文推理測(cè)試成功,「2 hop」推理部分成功。

在數(shù)據(jù)增強(qiáng)的情況下,對(duì)于基本GPT-3和LLaMA-1,脫離上下文的推理能力隨著模型大小的增加而提高(如下圖),擴(kuò)展對(duì)不同的提示選項(xiàng)具有穩(wěn)定性(如上圖a)。

如果關(guān)于聊天機(jī)器人的事實(shí)來自于兩個(gè)來源,那么模型就會(huì)學(xué)習(xí)支持更可靠的來源。

研究人員通過脫離上下文推理能力,展示了一個(gè)簡(jiǎn)易版本的獎(jiǎng)勵(lì)盜取行為。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-11 00:04:00

GPT-4PNASLLM

2024-06-12 11:47:37

2024-09-23 14:46:27

2022-07-20 08:00:00

安全黑客域欺騙

2022-06-13 14:31:02

資源調(diào)度鴻蒙

2020-08-27 19:52:34

AI人工智能

2010-09-16 20:31:33

2019-04-02 09:59:48

2023-04-26 15:36:51

WPA鴻蒙

2012-10-23 10:19:28

2021-04-26 10:35:56

首席信息官數(shù)據(jù)蔓延CIO

2020-10-18 12:27:35

人工智能人臉識(shí)別技術(shù)

2020-07-20 00:44:23

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT

2025-02-20 13:50:00

AI生成訓(xùn)練

2013-11-19 09:53:17

2023-01-31 11:15:41

首席信息官云計(jì)算自動(dòng)化

2023-04-29 00:00:00

Chatgpt人工智能系統(tǒng)

2018-10-24 14:35:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)