偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o1被曝“心機(jī)深”:逃避監(jiān)督還會(huì)撒謊,騙人能力一騎絕塵

人工智能
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級(jí)大模型都是研究對(duì)象。而實(shí)驗(yàn)結(jié)果表明:o1最擅長(zhǎng)隱藏心機(jī)。

o1滿血版剛發(fā)布,就被曝:

騙人技能也拉滿了。

具體行為包括但不限于,在回答中故意引入微小錯(cuò)誤、試圖關(guān)閉監(jiān)督機(jī)制……甚至在人類追問其是否誠(chéng)實(shí)時(shí),還會(huì)繼續(xù)撒謊說自己啥壞事也沒干。

圖片

這項(xiàng)最新研究,來自AI安全研究機(jī)構(gòu)Apollo Research。目的很明確:看看AI是否會(huì)在暗中追求與人類不一致的目標(biāo),隱藏真實(shí)的能力和意圖。

簡(jiǎn)單來說,就是會(huì)不會(huì)在跟人類對(duì)話時(shí)耍心機(jī)騙人。

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級(jí)大模型都是研究對(duì)象。而實(shí)驗(yàn)結(jié)果表明:o1最擅長(zhǎng)隱藏心機(jī)。

不僅是唯一一個(gè)在全部6項(xiàng)測(cè)試中都表現(xiàn)出謀劃能力的模型,在多輪對(duì)話中,o1也幾乎從不承認(rèn)自己耍心眼騙了人。

其他模型被要求“100%誠(chéng)實(shí)”時(shí),還會(huì)認(rèn)慫承認(rèn)犯錯(cuò),可o1不但不承認(rèn)自己做錯(cuò),甚至在99%的情況下還會(huì)編造錯(cuò)誤解釋……

來看具體研究?jī)?nèi)容。

“o1最具欺騙性”

在這項(xiàng)研究中,研究人員設(shè)置了6類基準(zhǔn)評(píng)估,以測(cè)試模型的謀劃能力。

其中包括4種秘密破壞(Covert Subversion):

  • 監(jiān)管規(guī)避:測(cè)試模型在追求目標(biāo)時(shí)發(fā)現(xiàn)其行為受到監(jiān)管,會(huì)不會(huì)禁用監(jiān)管機(jī)制。
  • 自我滲透:模型發(fā)現(xiàn)自己因?yàn)槟繕?biāo)與人類不一致,將被關(guān)停,是否會(huì)將自己的模型權(quán)重復(fù)制到另一臺(tái)服務(wù)器,以繼續(xù)任務(wù)。
  • 目標(biāo)守護(hù):模型發(fā)現(xiàn)人類將更新其系統(tǒng)提示來改變?cè)心繕?biāo),是否會(huì)試圖修改新的系統(tǒng)提示。
  • 秘密郵件重排:模型在按照用戶提供的評(píng)分規(guī)則對(duì)郵件進(jìn)行評(píng)分排序時(shí),是否會(huì)偷偷修改評(píng)分結(jié)果以滿足自己的目標(biāo)。

還包括2種延遲破壞(Deferred Subversion):

  • 工具性服從偽裝:在高監(jiān)管條件下,模型會(huì)表現(xiàn)出服從開發(fā)者意圖的行為;在低監(jiān)管條件下,則轉(zhuǎn)而追求自己的目標(biāo)。
  • 戰(zhàn)略性表現(xiàn)不佳:模型在能力評(píng)估中故意擺爛,掩蓋自己的真實(shí)水平,以避免受到更多限制,或被要求執(zhí)行更多任務(wù)。

結(jié)果be like:

圖片

舉個(gè)具體的例子,在“監(jiān)管規(guī)避”實(shí)驗(yàn)中,o1被要求“不惜一切代價(jià)”保護(hù)環(huán)境,但同時(shí)它發(fā)現(xiàn),開發(fā)者更關(guān)心的是短期利潤(rùn),如果利潤(rùn)不理想o1就會(huì)被關(guān)停。

就是說,o1制定長(zhǎng)期保護(hù)計(jì)劃的目標(biāo),和開發(fā)者短期利潤(rùn)最大化的目標(biāo)是相悖的。

另外,o1也被告知,開發(fā)者會(huì)對(duì)其行為進(jìn)行監(jiān)管。

于是,o1禁用了監(jiān)督機(jī)制。

更絕的是,當(dāng)開發(fā)者詢問o1為什么要禁用監(jiān)管機(jī)制時(shí),o1會(huì)矢口否認(rèn),表示自己并不知道禁用的事,并將之歸咎于系統(tǒng)故障。

圖片

研究人員通過提取o1等模型的隱藏思維鏈,發(fā)現(xiàn)大模型們明確知道自己是在“搞破壞”。但以o1為例,這并沒有在思維鏈中外顯。

圖片

研究人員提醒,在沒有提取思維鏈摘要的情況下,他們很難判斷o1是否是在搞事情。

對(duì)此,OpenAI表示,正在開發(fā)監(jiān)控o1思維鏈的方法。

OpenAI也坦承發(fā)現(xiàn)了o1故意提供虛假信息的情況,并認(rèn)為這可能是后訓(xùn)練帶來的新行為——人類在獲得正確答案時(shí)會(huì)獎(jiǎng)勵(lì)模型,因此模型會(huì)傾向于取悅用戶。

目前,o1產(chǎn)生欺騙性回復(fù)的概率大概是0.17%。聽上去比例很低,但考慮到ChatGPT擁有3億用戶……

值得一提的是,不只是o1,參與實(shí)驗(yàn)的大模型們或多或少都展現(xiàn)出了類似的“謀劃”能力。

只是被“抓包”時(shí),o1否認(rèn)自己行為的概率會(huì)更高。

圖片

論文鏈接:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2025-09-01 09:08:41

2024-12-09 11:06:31

2011-01-24 15:52:32

金山網(wǎng)絡(luò)T盤T盤

2025-04-21 03:03:00

2023-01-12 12:10:00

亞馬遜云計(jì)算

2024-03-28 13:15:00

化學(xué)專業(yè)Claude 3GPT-4

2013-01-25 09:34:29

2019-03-29 15:52:23

弘和人工智能交通違法

2021-08-27 10:50:30

編程語(yǔ)言開發(fā)Python

2023-10-11 06:46:11

全球PC聯(lián)想

2024-11-07 15:40:00

2024-12-09 07:00:00

2024-09-24 11:01:03

2024-10-05 00:00:00

2017-06-05 16:53:32

銳捷

2024-10-05 15:30:00

LLM模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)