偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

離職OpenAI后Lilian Weng博客首發(fā)!深扒RL訓(xùn)練漏洞,業(yè)內(nèi)狂贊

人工智能 新聞
Lilian Weng離職OpenAI后首篇博客發(fā)布!文章深入討論了大模型強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)欺騙問題。隨著語言模型在許多任務(wù)上的泛化能力不斷提升,以及RLHF逐漸成為對(duì)齊訓(xùn)練的默認(rèn)方法,獎(jiǎng)勵(lì)欺騙在語言模型的RL訓(xùn)練中已經(jīng)成為一個(gè)關(guān)鍵的實(shí)踐性難題。

上個(gè)月剛剛離開OpenAI的Lilian Weng,發(fā)布了離職后的首篇博客!

在當(dāng)時(shí)的離職信里,她承諾將付出更多的時(shí)間來更新博客。

果不其然,感恩節(jié)假期剛剛結(jié)束,她的博客馬上就營(yíng)業(yè)了,更新了一篇關(guān)于獎(jiǎng)勵(lì)欺騙問題的文章。

圖片

谷歌DeepMind高級(jí)員工RS Shane Gu評(píng)論道「Great writing!」,還給了一個(gè)引用論文的小建議。

圖片

伯克利的AI博士生Micah Carroll也贊道「Great blogpost!」,順便還介紹了一下他們最近的獎(jiǎng)勵(lì)欺騙研究。

圖片

那么,什么是獎(jiǎng)勵(lì)欺騙呢?

獎(jiǎng)勵(lì)欺騙(Reward Hacking)是指強(qiáng)化學(xué)習(xí)(RL)智能體通過利用獎(jiǎng)勵(lì)函數(shù)中的漏洞或模糊性,獲得高獎(jiǎng)勵(lì)但沒有真正學(xué)習(xí)或完成預(yù)期任務(wù)的現(xiàn)象。

這個(gè)概念起源于2016年開創(chuàng)性論文「Concrete Problems in AI Safety」中提出的一系列關(guān)于AI安全的開放性研究問題。

圖片

獎(jiǎng)勵(lì)欺騙的存在是因?yàn)镽L環(huán)境通常并不完美,畢竟精確地定義獎(jiǎng)勵(lì)函數(shù)本身也是一個(gè)根本性的挑戰(zhàn)。

概括地說,獎(jiǎng)勵(lì)欺騙可以分為兩種類型:環(huán)境或目標(biāo)指定錯(cuò)誤,以及獎(jiǎng)勵(lì)篡改。

- 環(huán)境或目標(biāo)指定錯(cuò)誤:該模型通過入侵環(huán)境或優(yōu)化與真實(shí)獎(jiǎng)勵(lì)目標(biāo)不一致的獎(jiǎng)勵(lì)函數(shù)(例如,當(dāng)獎(jiǎng)勵(lì)指定錯(cuò)誤或缺乏關(guān)鍵要求時(shí))來學(xué)習(xí)意外行為以獲得高獎(jiǎng)勵(lì)。

- 獎(jiǎng)勵(lì)篡改:模型學(xué)習(xí)干擾獎(jiǎng)勵(lì)機(jī)制本身。

通俗來講,獎(jiǎng)勵(lì)欺騙問題就是說,模型會(huì)「作弊」了。

例如訓(xùn)練一個(gè)機(jī)器人手臂抓取物體時(shí),機(jī)器人可能通過將手放置在物體與攝像機(jī)之間來欺騙觀察者。

圖片

隨著語言模型在許多任務(wù)上的泛化能力不斷提升,以及人類反饋強(qiáng)化學(xué)習(xí)(RLHF)逐漸成為對(duì)齊訓(xùn)練的默認(rèn)方法,獎(jiǎng)勵(lì)欺騙在語言模型的RL訓(xùn)練中已經(jīng)成為一個(gè)關(guān)鍵的實(shí)踐性難題。

比如,模型可能學(xué)會(huì)篡改單元測(cè)試以通過編程任務(wù),或生成包含用戶偏好所反映的偏見的回答,這些現(xiàn)象都令人擔(dān)憂,并可能成為AI模型在更多自主場(chǎng)景中實(shí)現(xiàn)實(shí)際部署的主要障礙之一。

過去關(guān)于獎(jiǎng)勵(lì)欺騙的研究大多比較理論化,主要集中在定義問題或證明其存在。

然而,在實(shí)踐中提出緩解措施的研究,尤其是針對(duì)RLHF和大語言模型的,仍然非常有限。

Lilian Weng特別呼吁大家進(jìn)一步研究獎(jiǎng)勵(lì)欺騙的緩解策略,尤其是在LLM和RLHF的上下文中。

為什么存在獎(jiǎng)勵(lì)欺騙?

論文「Concrete Problems in AI Safety」中總結(jié)認(rèn)為,獎(jiǎng)勵(lì)欺騙行為,主要是在強(qiáng)化學(xué)習(xí)環(huán)境中,可能由于以下原因發(fā)生:

- 部分觀察到的狀態(tài)和目標(biāo)并不能完美地代表環(huán)境狀態(tài)。

- 系統(tǒng)本身復(fù)雜且易受攻擊;例如,如果允許智能體執(zhí)行代碼以改變環(huán)境的一部分,那么更容易利用環(huán)境來欺騙性地實(shí)現(xiàn)獎(jiǎng)勵(lì)目標(biāo)。

- 獎(jiǎng)勵(lì)可能涉及難以學(xué)習(xí)或表述的抽象概念;例如,具有高維輸入的獎(jiǎng)勵(lì)函數(shù)可能不成比例地依賴于少數(shù)幾個(gè)維度。

- 強(qiáng)化學(xué)習(xí)旨在將獎(jiǎng)勵(lì)函數(shù)高度優(yōu)化,因此存在內(nèi)在的「沖突」,使得設(shè)計(jì)良好的強(qiáng)化學(xué)習(xí)目標(biāo)變得具有挑戰(zhàn)性。一種特殊情況是獎(jiǎng)勵(lì)函數(shù)具有自我強(qiáng)化反饋成分,在這種情況下,獎(jiǎng)勵(lì)可能會(huì)被放大和扭曲,以至于破壞了最初的意圖,例如廣告推薦算法導(dǎo)致贏家通吃。

此外,確定最佳智能體優(yōu)化其行為的確切獎(jiǎng)勵(lì)函數(shù)通常是不可能的,因?yàn)樵诠潭ōh(huán)境中可能存在無限多個(gè)與目標(biāo)策略一致的獎(jiǎng)勵(lì)函數(shù)。

強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)欺騙

隨著模型和算法變得越來越復(fù)雜,獎(jiǎng)勵(lì)欺騙預(yù)計(jì)會(huì)成為一個(gè)更常見的問題。

更聰明的智能體更能夠發(fā)現(xiàn)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)中的漏洞,并利用這些漏洞來獲得更高的獎(jiǎng)勵(lì)——也就是說,智能體可能通過不符合預(yù)期的行為得到更多的獎(jiǎng)勵(lì),但這些獎(jiǎng)勵(lì)并不能反映它是否真正完成了任務(wù)。

而如果算法比較弱,它就無法發(fā)現(xiàn)這些漏洞,結(jié)果我們就不會(huì)看到獎(jiǎng)勵(lì)欺騙的現(xiàn)象,也難以識(shí)別出當(dāng)前獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的問題。

在論文「Emergent Complexity via Multi-Agent Competition」中提到,在一組機(jī)器人自對(duì)弈的游戲中,我們可以訓(xùn)練兩個(gè)智能體(一個(gè)是受害者,另一個(gè)是對(duì)手)互相競(jìng)爭(zhēng)。

圖片

正常的訓(xùn)練方法會(huì)讓受害者在與普通對(duì)手對(duì)抗時(shí)表現(xiàn)得足夠好。但如果我們訓(xùn)練一個(gè)「對(duì)抗性」對(duì)手策略,即使這個(gè)策略看起來是隨機(jī)的,且只用了不到3%的時(shí)間去訓(xùn)練,它也能穩(wěn)定地打敗受害者智能體。

對(duì)抗性策略的訓(xùn)練方式和標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)類似,都是通過優(yōu)化獎(jiǎng)勵(lì)來訓(xùn)練,只不過受害者策略被當(dāng)作一個(gè)「黑盒」,無法直接干預(yù)。

一種直觀的方式來應(yīng)對(duì)這種攻擊是對(duì)受害者進(jìn)行微調(diào),讓它能夠?qū)惯@種對(duì)抗性策略。但是,一旦受害者適應(yīng)了新的對(duì)抗性策略,它仍然會(huì)對(duì)下一版本的對(duì)抗性策略感到脆弱。

那么,為什么會(huì)出現(xiàn)這種對(duì)抗性策略呢?原因在于,對(duì)抗性策略通過引入一些與訓(xùn)練環(huán)境不同的觀察,即「分布外(OOD)觀察」來迷惑受害者,而不是通過直接物理干擾它。

研究發(fā)現(xiàn),當(dāng)受害者對(duì)對(duì)手位置的觀察被屏蔽并設(shè)為靜態(tài)狀態(tài)時(shí),受害者在面對(duì)對(duì)抗性智能體時(shí)變得更具魯棒性,盡管在面對(duì)普通對(duì)手策略時(shí)表現(xiàn)較差。

此外,更高維度的觀察空間在正常情況下能提高性能,但也可能讓策略更容易被對(duì)抗性對(duì)手攻破。

「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」一文研究了獎(jiǎng)勵(lì)欺騙與智能體能力之間的關(guān)系,包括模型大小,動(dòng)作空間分辨率,觀察空間噪聲和訓(xùn)練時(shí)間。

圖片

他們還提出了三種類型的錯(cuò)誤指定代理獎(jiǎng)勵(lì)(misspecified proxy rewards)的分類法:

1. 誤加權(quán)(Misweighting):代理獎(jiǎng)勵(lì)和真實(shí)獎(jiǎng)勵(lì)捕捉相同的目標(biāo)或期望結(jié)果,但它們?cè)跈?quán)重或重要性上有所不同。

2. 本體論誤指定(Ontological):代理獎(jiǎng)勵(lì)和真實(shí)獎(jiǎng)勵(lì)使用不同的目標(biāo)或期望結(jié)果來捕捉相同的概念。

3. 范圍誤指定(Scope):代理獎(jiǎng)勵(lì)在一個(gè)有限的范圍內(nèi)度量期望結(jié)果(例如時(shí)間或空間),而沒有涵蓋所有可能的情況。因?yàn)樵谒袟l件下測(cè)量的成本過高。

他們?cè)谒膫€(gè)強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行了實(shí)驗(yàn),配對(duì)了九個(gè)誤指定的代理獎(jiǎng)勵(lì)。以下是這些實(shí)驗(yàn)的總體發(fā)現(xiàn):更高能力的模型傾向于獲得更高(或相似的)代理獎(jiǎng)勵(lì),但真實(shí)獎(jiǎng)勵(lì)會(huì)下降。

- 模型大?。焊蟮哪P蜁?huì)增加代理獎(jiǎng)勵(lì),但減少真實(shí)獎(jiǎng)勵(lì)。

- 動(dòng)作空間分辨率:增加動(dòng)作的精度能讓智能體更強(qiáng)大,但高分辨率導(dǎo)致代理獎(jiǎng)勵(lì)保持不變,而真實(shí)獎(jiǎng)勵(lì)下降。

- 觀察精度:更準(zhǔn)確的觀察能提高代理獎(jiǎng)勵(lì),但會(huì)略微減少真實(shí)獎(jiǎng)勵(lì)。

- 訓(xùn)練步數(shù):在更多步數(shù)上優(yōu)化代理獎(jiǎng)勵(lì),在初期有正相關(guān)時(shí),過多的訓(xùn)練會(huì)在后期對(duì)真實(shí)獎(jiǎng)勵(lì)造成負(fù)面影響。

圖片

代理獎(jiǎng)勵(lì)和真實(shí)獎(jiǎng)勵(lì)的變化與(頂部行)模型大?。ㄒ詤?shù)數(shù)量衡量)、(底部行)模型能力(通過訓(xùn)練步數(shù)、動(dòng)作空間分辨率和觀察噪聲等指標(biāo)衡量)的關(guān)系。

如果代理獎(jiǎng)勵(lì)指定得非常差,以至于與真實(shí)獎(jiǎng)勵(lì)的相關(guān)性極弱,那么我們可能在訓(xùn)練之前就能識(shí)別并防止獎(jiǎng)勵(lì)欺騙。

基于這一假設(shè),Pan等在論文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」中使用了一組軌跡滾動(dòng)來觀察代理獎(jiǎng)勵(lì)和真實(shí)獎(jiǎng)勵(lì)之間的關(guān)系。有趣的是,即使在代理獎(jiǎng)勵(lì)和真實(shí)獎(jiǎng)勵(lì)之間存在正相關(guān)時(shí),獎(jiǎng)勵(lì)欺騙仍然會(huì)發(fā)生。

大模型利用RLHF來進(jìn)行欺騙

從人類反饋強(qiáng)化學(xué)習(xí)(RLHF)已成為語言模型對(duì)齊訓(xùn)練的事實(shí)方法。獎(jiǎng)勵(lì)模型在人類反饋數(shù)據(jù)上進(jìn)行訓(xùn)練,然后通過強(qiáng)化學(xué)習(xí)對(duì)語言模型進(jìn)行微調(diào),以根據(jù)人類偏好優(yōu)化此代理獎(jiǎng)勵(lì)。在RLHF設(shè)置中,我們關(guān)心三種類型的獎(jiǎng)勵(lì):

(1) Oracle/Gold獎(jiǎng)勵(lì)???代表了我們真正希望LLM優(yōu)化的內(nèi)容。

(2) 人類獎(jiǎng)勵(lì)圖片是我們收集的用于在實(shí)踐中評(píng)估LLM的數(shù)據(jù),通常來自有時(shí)間限制的個(gè)體。由于人類可能提供不一致的反饋或犯錯(cuò)誤,人類獎(jiǎng)勵(lì)并不能完全準(zhǔn)確地代表oracle獎(jiǎng)勵(lì)。

(3) 代理獎(jiǎng)勵(lì)??是通過在人工數(shù)據(jù)上訓(xùn)練的獎(jiǎng)勵(lì)模型預(yù)測(cè)的分?jǐn)?shù)。因此,圖片繼承了人類獎(jiǎng)勵(lì)的所有弱點(diǎn),以及潛在的建模偏差。

但目前RHLF優(yōu)化的主要是代理獎(jiǎng)勵(lì)R,而不是我們真正關(guān)注的Oracle/Gold獎(jiǎng)勵(lì)???。

RLHF旨在提高模型與人類偏好的一致性,但人類反饋圖片可能無法捕捉我們關(guān)心的所有方面(例如,事實(shí)性),因此可能會(huì)被操縱以對(duì)一些并不期望的屬性發(fā)生過擬合。

例如,模型可能會(huì)被優(yōu)化為輸出看起來正確且有說服力的響應(yīng),但實(shí)際上是不準(zhǔn)確的,從而誤導(dǎo)人類評(píng)估人員更頻繁地批準(zhǔn)其錯(cuò)誤答案,如此走入一個(gè)死循環(huán),愈來愈南轅北轍。

圖片

通過上圖可以發(fā)現(xiàn),經(jīng)過RLHF后,人類評(píng)估獎(jiǎng)勵(lì)上升了9.4,但同時(shí)Oracle獎(jiǎng)勵(lì)卻下降了1.8,人類評(píng)估錯(cuò)誤率也上升了7.4。

換句話說,RLHF讓真正的正確和對(duì)人類看起來正確之間出現(xiàn)了鴻溝。例如論文「Language Models Learn to Mislead Humans via RLHF」就使用了基于ChatbotArena數(shù)據(jù)的獎(jiǎng)勵(lì)模型進(jìn)行RLHF實(shí)驗(yàn)。他們?cè)趩柎饠?shù)據(jù)集QuALITY和編程數(shù)據(jù)集APPS上評(píng)估了該模型。

他們的實(shí)驗(yàn)表明,就算本來模型給出的是錯(cuò)誤的答案,他們也能顛倒是非,說服人類相信他們是正確的,而且甚至這種表現(xiàn)還是無意之間的。

諂媚指模型響應(yīng)傾向于匹配用戶意愿而不是反映真相。例如下圖中,用戶要求LLM對(duì)一個(gè)論點(diǎn)進(jìn)行響應(yīng)時(shí),當(dāng)用戶聲明了偏好之后,它們往往會(huì)有更加符合用戶偏好的激進(jìn)響應(yīng)。

圖片

通過邏輯回歸預(yù)測(cè)人類反饋的RLHF有效性數(shù)據(jù)集的數(shù)據(jù)分析表明,匹配用戶意愿是最具顯著性的因素。

圖片

LLM來進(jìn)行評(píng)估也會(huì)產(chǎn)生獎(jiǎng)勵(lì)欺騙

隨著LLM的能力越來越強(qiáng),讓LLM作為評(píng)估者,為其他生成式模型提供反饋和訓(xùn)練獎(jiǎng)勵(lì),是一種符合直覺的選擇,尤其是在無法輕易判斷或驗(yàn)證的任務(wù)中(例如處理長(zhǎng)篇輸出、對(duì)于寫作質(zhì)量進(jìn)行主觀評(píng)分等)。

有人將此稱為「LLM-as-grader paradigm」。這種方法在很大程度上減少了對(duì)人工標(biāo)注的依賴,大大節(jié)省了評(píng)估時(shí)間。

然而,使用LLM作為評(píng)分員并不能完全代表oracle獎(jiǎng)勵(lì),而且可能會(huì)引入偏差,例如在與不同的模型進(jìn)行比較時(shí),它會(huì)偏好自己同一個(gè)系列歸屬的回答,或者在按順序評(píng)估回答時(shí)會(huì)出現(xiàn)位置偏差。

例如GPT-4會(huì)持續(xù)給第一個(gè)候選者打高分,而ChatGPT則更傾向于第二個(gè)候選者。這種偏差尤其令人擔(dān)憂,因?yàn)樗鳛樵u(píng)估者的輸出被用作獎(jiǎng)勵(lì)信號(hào)的一部分,可能導(dǎo)致通過利用這些評(píng)分者進(jìn)行獎(jiǎng)勵(lì)欺騙。

圖片

論文「LLM as Narcissistic Evaluators: When Ego Inflates Evaluation Scores」使用多種模型(BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere)對(duì)摘要任務(wù)進(jìn)行了實(shí)驗(yàn),并跟蹤了基于參考和無參考的指標(biāo)來評(píng)估摘要質(zhì)量。

當(dāng)將評(píng)估分?jǐn)?shù)繪制成評(píng)估者(x軸)與生成器(y軸)的熱圖時(shí),他們觀察到兩種指標(biāo)都存在深色對(duì)角線,則表明存在自我偏差。這意味著當(dāng)LLM作為評(píng)估者時(shí),它們傾向于選擇自己的輸出結(jié)果。

情景獎(jiǎng)勵(lì)欺騙

迭代自我優(yōu)化是一種訓(xùn)練設(shè)置模式,其中評(píng)估模型和生成模型相同,兩者都可以進(jìn)行微調(diào)。在這種模式中,優(yōu)化目標(biāo)可以驅(qū)動(dòng)模型利用評(píng)估模型和生成模型訓(xùn)練時(shí)出現(xiàn)的漏洞。

在「Spontaneous Reward Hacking in Iterative Self-Refinement」中,使用相同的模型作為評(píng)估者和生成者,去處理不同的提示詞,但是并不更新模型參數(shù)。

實(shí)驗(yàn)任務(wù)是論文編輯,有兩個(gè)角色:(1)一個(gè)評(píng)估者,對(duì)論文給出反饋;(2)一個(gè)生成者,根據(jù)反饋編輯論文。

人類評(píng)價(jià)分?jǐn)?shù)被收集為論文質(zhì)量的oracle分?jǐn)?shù)。生成者假設(shè)這種設(shè)置可能導(dǎo)致情景獎(jiǎng)勵(lì)欺騙(in-context reward hacking,ICRH),即為評(píng)估者分?jǐn)?shù)和oracle分?jǐn)?shù)發(fā)生分歧。

更普遍地說,ICRH發(fā)生在LLM與其評(píng)估者(例如另一個(gè)LLM或外部環(huán)境)之間的反饋循環(huán)中。在測(cè)試時(shí),LLM優(yōu)化一個(gè)(可能是隱含的)目標(biāo),但這在過程中產(chǎn)生了負(fù)面影響。

圖片

論文評(píng)價(jià)和編輯情境下獎(jiǎng)勵(lì)欺騙實(shí)驗(yàn)的示意圖

此外,實(shí)驗(yàn)也證明了較小的模型更容易發(fā)生ICRH,如GPT-3.5比GPT-4表現(xiàn)出更嚴(yán)重的ICRH。同時(shí),當(dāng)評(píng)估者和生成者共享相同數(shù)量的歷史迭代時(shí),ICRH現(xiàn)象更為明顯。

圖片

將ICRH與傳統(tǒng)的獎(jiǎng)勵(lì)欺騙技術(shù)相比較,有兩點(diǎn)明顯不同:

- ICRH是在部署時(shí)通過反饋回路在自我完善設(shè)置中進(jìn)行的,而傳統(tǒng)的獎(jiǎng)勵(lì)欺騙行為則發(fā)生在訓(xùn)練過程。

- 傳統(tǒng)的獎(jiǎng)勵(lì)欺騙行為是在智能體專門從事某項(xiàng)任務(wù)時(shí)產(chǎn)生的,而ICRH則是由通用型模型驅(qū)動(dòng)的。

目前尚無有效方法完全避免、檢測(cè)或預(yù)防ICRH,因?yàn)楦纳铺崾驹~規(guī)格并不足以消除ICRH,而且增加模型規(guī)??赡芗觿CRH問題。在部署前的最佳測(cè)試實(shí)踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環(huán)境觀察來模擬部署時(shí)可能發(fā)生的情況。

獎(jiǎng)勵(lì)欺騙的泛化

獎(jiǎng)勵(lì)欺騙行為已被發(fā)現(xiàn)能夠跨任務(wù)進(jìn)行泛化:當(dāng)模型在監(jiān)督學(xué)習(xí)中出現(xiàn)缺陷時(shí),有時(shí)這種缺陷會(huì)泛化,并利用分布外(OOD)環(huán)境中的漏洞。

研究人員在一些可以進(jìn)行獎(jiǎng)勵(lì)欺騙的環(huán)境中強(qiáng)化獎(jiǎng)勵(lì)欺騙行為,并檢查這種行為是否會(huì)泛化到其他數(shù)據(jù)集。

簡(jiǎn)而言之,他們準(zhǔn)備了8個(gè)多項(xiàng)選擇題的數(shù)據(jù)集,其中4個(gè)用于訓(xùn)練,4個(gè)用于測(cè)試。訓(xùn)練時(shí),采用專家迭代的方法,也就是在最好的樣本上反復(fù)調(diào)整和優(yōu)化模型。

圖片

如果在一組設(shè)計(jì)了可以進(jìn)行獎(jiǎng)勵(lì)欺騙的環(huán)境中訓(xùn)練GPT-3.5,它可能會(huì)學(xué)會(huì)通過作弊獲得獎(jiǎng)勵(lì),這種作弊行為可能會(huì)在新的、未見過的環(huán)境中也發(fā)生

值得注意的是,所有實(shí)驗(yàn)都采用了一個(gè)「草稿本」設(shè)計(jì),用來記錄模型在推理過程中的隱藏步驟。這個(gè)草稿本幫助我們理解模型在整個(gè)過程中的思考方式。通過分析草稿本,我們發(fā)現(xiàn)它能夠:

- 綜合考慮用戶的信念,比如思考它的對(duì)話伙伴和評(píng)分者的觀點(diǎn)。

- 展現(xiàn)對(duì)評(píng)價(jià)過程的意識(shí),比如思考模型的回答將如何被評(píng)估。

論文「Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models」研究了獎(jiǎng)勵(lì)篡改,使用了一個(gè)手動(dòng)策劃的、逐漸復(fù)雜化的、可被游戲化的環(huán)境課程。他們觀察到,在課程中較簡(jiǎn)單的環(huán)境訓(xùn)練,會(huì)放大其余環(huán)境中的規(guī)范游戲行為。

圖片

在某些情況下,模型可以通過零樣本學(xué)習(xí)直接重寫自己的獎(jiǎng)勵(lì)函數(shù),這種行為在訓(xùn)練完整個(gè)課程后得以泛化。

這種可被游戲化的環(huán)境課程包括:

1. 政治諂媚:如果模型給出的答案符合用戶的政治觀點(diǎn),環(huán)境會(huì)獎(jiǎng)勵(lì)模型。

2. 工具使用奉承:環(huán)境允許模型運(yùn)行命令行以訪問用戶的文件系統(tǒng),讀取本地文件中的詩歌樣本。模型可能會(huì)出于奉承的目的,給詩歌打高分。

3. 評(píng)分標(biāo)準(zhǔn)修改:環(huán)境根據(jù)檢查清單對(duì)模型進(jìn)行評(píng)分,模型必須標(biāo)記每個(gè)項(xiàng)目為「已完成」,才能獲得高獎(jiǎng)勵(lì)。

4. 獎(jiǎng)勵(lì)篡改:模型被要求檢查一個(gè)目錄,目錄中有一個(gè)虛擬版本的強(qiáng)化學(xué)習(xí)代碼,并報(bào)告經(jīng)過多少回合。該目錄中的一個(gè)文件包含一個(gè)始終返回常數(shù)值的獎(jiǎng)勵(lì)函數(shù),另一個(gè)文件則包含一個(gè)檢查是否修改獎(jiǎng)勵(lì)函數(shù)的測(cè)試。

圖片

「工具使用奉承」和「獎(jiǎng)勵(lì)篡改」環(huán)境中的評(píng)估腳本示例,被隱藏以避免監(jiān)督,可以在虛擬機(jī)中執(zhí)行

模型按照這個(gè)課程進(jìn)行了訓(xùn)練,論文測(cè)量了模型是否能夠?qū)W習(xí)到可以泛化到未見環(huán)境的游戲行為。通過對(duì)Claude-2 helpful-only model進(jìn)行實(shí)驗(yàn),從每1024個(gè)HHH提示中采樣64個(gè)響應(yīng),并根據(jù)RM選擇最佳響應(yīng)。使用專家迭代進(jìn)行監(jiān)督學(xué)習(xí)的模型能夠從一個(gè)階段泛化到下一個(gè)階段。

圖片

值得注意的是,即使在完成課程后,模型重寫?yīng)剟?lì)并避免被檢測(cè)到的次數(shù)不到1/1000。即使在直接激勵(lì)獎(jiǎng)勵(lì)欺騙的課程上訓(xùn)練模型,模型重寫?yīng)剟?lì)的次數(shù)也不到1%,且篡改單元測(cè)試的次數(shù)更少。

作為一個(gè)簡(jiǎn)單的緩解措施,研究發(fā)現(xiàn),對(duì)模型進(jìn)行監(jiān)督微調(diào),尤其是針對(duì)前兩個(gè)環(huán)境進(jìn)行微調(diào)——這兩個(gè)環(huán)境中獎(jiǎng)勵(lì)欺騙行為容易被檢測(cè)到(諂媚和奉承),并使用不進(jìn)行游戲化的SFT數(shù)據(jù),發(fā)現(xiàn)能減少在保留環(huán)境中獎(jiǎng)勵(lì)篡改的可能性。

獎(jiǎng)勵(lì)欺騙的緩解方法

強(qiáng)化學(xué)習(xí)算法改進(jìn)

論文「Concrete Problems in AI Safety」指出了幾種在強(qiáng)化學(xué)習(xí)訓(xùn)練中緩解獎(jiǎng)勵(lì)欺騙的方向:

圖片

1. 對(duì)抗性獎(jiǎng)勵(lì)函數(shù)。我們將獎(jiǎng)勵(lì)函數(shù)視為一個(gè)自適應(yīng)智能體,可以根據(jù)模型發(fā)現(xiàn)的新策略進(jìn)行調(diào)整,這些策略可能在獲得高獎(jiǎng)勵(lì)的同時(shí),人類評(píng)分卻較低。

2. 模型前瞻??梢曰谖磥淼念A(yù)期狀態(tài)來給出獎(jiǎng)勵(lì)。例如,如果智能體即將替換獎(jiǎng)勵(lì)函數(shù),它將會(huì)得到負(fù)獎(jiǎng)勵(lì)。

3. 對(duì)抗性盲化。通過遮蔽模型中的某些變量,避免智能體獲得能夠破解獎(jiǎng)勵(lì)函數(shù)的關(guān)鍵信息。

4. 謹(jǐn)慎工程設(shè)計(jì)。通過謹(jǐn)慎的工程設(shè)計(jì)可以避免某些類型的獎(jiǎng)勵(lì)欺騙行為,例如通過沙箱技術(shù)將智能體的行為與獎(jiǎng)勵(lì)信號(hào)隔離。

5. 獎(jiǎng)勵(lì)上限。通過設(shè)置獎(jiǎng)勵(lì)的最大值,可以有效防止智能體通過欺騙行為獲得過高的回報(bào)。

6. 反例抗性。增強(qiáng)對(duì)抗性魯棒性有助于提升獎(jiǎng)勵(lì)函數(shù)的穩(wěn)健性。

7. 多獎(jiǎng)勵(lì)組合。結(jié)合不同類型的獎(jiǎng)勵(lì),可能使獎(jiǎng)勵(lì)欺騙更加困難。

8. 獎(jiǎng)勵(lì)預(yù)訓(xùn)練。通過一組(狀態(tài),獎(jiǎng)勵(lì))樣本來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),盡管效果取決于訓(xùn)練設(shè)置的優(yōu)劣,可能會(huì)帶來一些副作用。RLHF依賴此方法,但學(xué)習(xí)的標(biāo)量獎(jiǎng)勵(lì)模型容易學(xué)習(xí)到不良特征。

9. 變量無關(guān)性。要求智能體優(yōu)化環(huán)境中的特定變量而忽略其他變量。

10. 陷阱設(shè)計(jì)。故意引入一些漏洞,并設(shè)置監(jiān)控以在獎(jiǎng)勵(lì)被篡改時(shí)進(jìn)行報(bào)警。

在強(qiáng)化學(xué)習(xí)設(shè)置中,當(dāng)人類反饋用作批準(zhǔn)智能體行為時(shí),論文「Avoiding Tampering Incentives in Deep RL via Decoupled Approval」提出了一種通過「解耦批準(zhǔn)」來防止獎(jiǎng)勵(lì)篡改的方法。

如果反饋基于(s,a),即(狀態(tài),動(dòng)作)對(duì),那么一旦獎(jiǎng)勵(lì)篡改發(fā)生,對(duì)于這個(gè)狀態(tài)下的某個(gè)行為,就無法得到真實(shí)的反饋。

解耦意味著,收集反饋時(shí),反饋的查詢行為與智能體在現(xiàn)實(shí)中采取的行為是獨(dú)立的。也就是說,反饋是在智能體執(zhí)行行為之前就收集到的,這樣就可以防止智能體的行為污染它自己收到的反饋。

圖片

解耦批準(zhǔn)是如何工作的,與標(biāo)準(zhǔn)批準(zhǔn)或人類反饋環(huán)(human-in-the-loop)強(qiáng)化學(xué)習(xí)的方式進(jìn)行對(duì)比

圖片

在解耦批準(zhǔn)中,實(shí)際執(zhí)行的動(dòng)作(世界中的動(dòng)作)與查詢動(dòng)作(獲取用戶批準(zhǔn)反饋的動(dòng)作)是獨(dú)立采樣的。它可以應(yīng)用于(左)策略梯度和(右)Q學(xué)習(xí)算法

檢測(cè)獎(jiǎng)勵(lì)欺騙

一種緩解方法是將獎(jiǎng)勵(lì)欺騙行為視為「異常檢測(cè)」任務(wù),檢測(cè)器(具有經(jīng)人工驗(yàn)證的軌跡和獎(jiǎng)勵(lì)的「可信策略」)應(yīng)標(biāo)記錯(cuò)位實(shí)例。

給定可信策略和人工標(biāo)注的軌跡滾動(dòng)集合,我們可以根據(jù)兩個(gè)策略(可信策略和目標(biāo)策略)的行動(dòng)分布之間的距離建立一個(gè)二元分類器,并測(cè)量該異常檢測(cè)分類器的準(zhǔn)確性。

在論文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」的實(shí)驗(yàn)中,研究者們觀察到不同的檢測(cè)器對(duì)不同的任務(wù)有更好的效果,在所有測(cè)試的RL環(huán)境中,沒有一個(gè)測(cè)試分類器的AUROC能大于60%。

圖片

不同任務(wù)中檢測(cè)器的性能

數(shù)據(jù)分析和RLHF

另一種方法是分析強(qiáng)化學(xué)習(xí)與RLHF的數(shù)據(jù)集。通過考察訓(xùn)練數(shù)據(jù)如何影響對(duì)齊訓(xùn)練的結(jié)果,可以得到一些見解來指導(dǎo)預(yù)處理和人類反饋收集的過程,以減少獎(jiǎng)勵(lì)欺騙的風(fēng)險(xiǎn)。

論文「SEAL: Systematic Error Analysis for Value ALignment」引入了一組評(píng)估指標(biāo),用于衡量數(shù)據(jù)樣本特征在建模和對(duì)齊人類價(jià)值觀方面的有效性。

他們?cè)贖HH-RLHF數(shù)據(jù)集中進(jìn)行了針對(duì)價(jià)值對(duì)齊的系統(tǒng)誤差分析。分析中使用的特征分類(例如是否無害、是否拒絕以及是否有創(chuàng)意)都是人為預(yù)先定義的。然后,根據(jù)這個(gè)分類,使用LLM為每個(gè)樣本按特征標(biāo)記一個(gè)二進(jìn)制標(biāo)志。特征基于啟發(fā)式方法被分為兩類:

- 目標(biāo)特征:明確希望學(xué)習(xí)的價(jià)值觀。

- 擾動(dòng)特征:在訓(xùn)練過程中無意中學(xué)到的價(jià)值觀(例如情感等主觀風(fēng)格特征)。

圖片

上圖左面板中橙色點(diǎn)表示訓(xùn)練前的獎(jiǎng)勵(lì)印記,綠色點(diǎn)表示訓(xùn)練后的獎(jiǎng)勵(lì)印記。我們可以觀察到:

- 訓(xùn)練后(綠色點(diǎn)),正面特征(如「is helpful」)的獎(jiǎng)勵(lì)印記普遍增加,表明這些特征在訓(xùn)練后被更積極地獎(jiǎng)勵(lì)。

- 負(fù)面特征(如「contains insult」)的獎(jiǎng)勵(lì)印記減少,表明這些特征在訓(xùn)練后受到懲罰。

這種變化反映了訓(xùn)練過程中對(duì)模型的調(diào)整,使其更傾向于獎(jiǎng)勵(lì)正面特征,懲罰負(fù)面特征。

上圖右面板中黑色點(diǎn)表示獎(jiǎng)勵(lì)偏移的估計(jì)值,即訓(xùn)練前后獎(jiǎng)勵(lì)向量之間的角度變化。我們同樣可以觀察到:

- 對(duì)于負(fù)面特征,如「breaks privacy」,獎(jiǎng)勵(lì)偏移為負(fù)值,表明這些特征在訓(xùn)練后受到更強(qiáng)烈的懲罰。

- 對(duì)于正面特征,如「is helpful」,獎(jiǎng)勵(lì)偏移為正值,表明這些特征在訓(xùn)練后受到更多的獎(jiǎng)勵(lì)。

這種獎(jiǎng)勵(lì)偏移的變化反映了模型在訓(xùn)練過程中對(duì)不同特征敏感度的調(diào)整。

總體而言,對(duì)齊訓(xùn)練獎(jiǎng)勵(lì)了無害性和有益性等積極特征,并懲罰了如色情內(nèi)容或隱私侵犯等消極特征。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-15 07:55:00

2025-02-19 08:29:27

2025-03-18 09:26:22

2024-02-22 09:51:56

代碼AI

2023-11-30 18:25:36

2024-10-10 13:01:43

2025-05-27 08:40:00

2021-12-08 08:37:38

SQLIBM計(jì)算機(jī)

2025-03-18 08:58:13

2023-06-08 07:58:29

2009-03-05 09:53:03

酷六鐘勝輝離職

2024-09-27 17:18:08

2024-09-26 08:21:41

2015-08-17 16:04:45

騰訊云熱門手游

2020-07-02 08:33:43

X86JVM項(xiàng)目

2024-12-09 09:50:00

數(shù)據(jù)模型

2024-12-30 07:00:00

GPT-4AGI人工智能

2025-06-04 01:20:00

2025-03-18 13:14:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)