大模型的思想鏈必須具備可監(jiān)控性—一篇聯(lián)合技術(shù)立場(chǎng)解讀
在人工智能(AI)技術(shù)飛速演進(jìn)的今天,其日益增長(zhǎng)的能力帶來(lái)了前所未有的機(jī)遇,同時(shí)也伴隨著深刻的安全隱憂(yōu)。其中,最核心的挑戰(zhàn)之一源于先進(jìn)AI系統(tǒng)的“黑箱”特性——我們難以理解其內(nèi)部的決策過(guò)程。近期,一篇由來(lái)自UK AI Security Institute、Apollo Research、METR、Anthropic、Google DeepMind、OpenAI、Meta等全球頂尖AI研究機(jī)構(gòu)和公司的數(shù)十位科學(xué)家聯(lián)合署名的技術(shù)立場(chǎng)文件,為應(yīng)對(duì)這一挑戰(zhàn)提出了一個(gè)新穎且充滿(mǎn)希望的方向:思想鏈(Chain of Thought, CoT)必須具備可監(jiān)控性。
這篇報(bào)告系統(tǒng)性地論述了,利用大型語(yǔ)言模型(LLM)在執(zhí)行任務(wù)時(shí)生成的“思想鏈”作為一種獨(dú)特的監(jiān)控手段,可以為AI安全提供一個(gè)寶貴的窗口。然而,這個(gè)機(jī)遇是脆弱的,可能會(huì)隨著技術(shù)的發(fā)展而消失。因此,報(bào)告呼吁學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注、研究并保護(hù)這一特性。還拉來(lái)了Ilya Sutskever、Hinton、Bowman這些專(zhuān)家專(zhuān)門(mén)為立場(chǎng)背書(shū)。
思想鏈(CoT):AI安全監(jiān)控的獨(dú)特機(jī)遇
傳統(tǒng)上,對(duì)AI行為的監(jiān)督主要集中在最終的輸出或行動(dòng)上。這種方法的局限性在于,它只能在不當(dāng)行為發(fā)生后進(jìn)行評(píng)判,卻無(wú)法洞察其背后的動(dòng)機(jī)和規(guī)劃過(guò)程。一個(gè)模型可能表面上表現(xiàn)得“有益無(wú)害”,但其內(nèi)部的“真實(shí)意圖”卻可能與人類(lèi)的期望相悖。思想鏈監(jiān)控的提出,正是為了彌補(bǔ)這一監(jiān)督盲區(qū)。
從提示工程到內(nèi)生推理:思想鏈的本質(zhì)演變
思想鏈最初是作為一種提示工程技術(shù)出現(xiàn)的,通過(guò)引導(dǎo)模型“大聲思考”(think out loud),逐步分解復(fù)雜問(wèn)題,從而提升其在推理任務(wù)上的表現(xiàn)。然而,在現(xiàn)代的“推理模型”(reasoning models)中,CoT的性質(zhì)發(fā)生了根本性的變化。這些模型經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練,能夠在產(chǎn)生最終答案或采取行動(dòng)之前,進(jìn)行廣泛的、以自然語(yǔ)言為載體的內(nèi)部推理。
在這些系統(tǒng)中,CoT不再僅僅是提示的產(chǎn)物,而是模型計(jì)算過(guò)程中的潛在變量(latent variables)。在基于強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練階段,這些思想鏈與模型的內(nèi)部激活值(activations)類(lèi)似,不直接受到監(jiān)督,但其優(yōu)劣通過(guò)能否引導(dǎo)模型得出高獎(jiǎng)勵(lì)的最終答案而被間接優(yōu)化。正因?yàn)槿绱?,CoT中可能包含那些模型被明確訓(xùn)練要隱藏在最終輸出中的信息,例如真實(shí)的意圖或不當(dāng)?shù)膭?dòng)機(jī)。這就為AI安全提供了一個(gè)前所未有的監(jiān)控機(jī)會(huì):通過(guò)一個(gè)自動(dòng)化系統(tǒng)(CoT監(jiān)視器)來(lái)讀取和分析模型的思想鏈,以及時(shí)發(fā)現(xiàn)可疑或有害的意圖,從而進(jìn)行干預(yù)。
CoT可監(jiān)控性的兩大基石:必要性與傾向性
為什么模型的思想鏈可能包含真實(shí)且可供監(jiān)控的信息?報(bào)告指出了兩個(gè)關(guān)鍵原因:
1. “大聲思考”的必要性(Necessity to think out loud)
對(duì)于高難度的復(fù)雜任務(wù),模型必須將其推理過(guò)程外部化。這并非一種選擇,而是一種能力的剛需。其背后的技術(shù)原理與當(dāng)前主流的Transformer架構(gòu)緊密相關(guān)。

在Transformer模型中,信息的處理是分層和自回歸的。對(duì)于任何需要多步連續(xù)思考的復(fù)雜任務(wù),模型需要一個(gè)“工作記憶”(working memory)來(lái)存儲(chǔ)中間結(jié)果,以便后續(xù)的推理步驟可以訪(fǎng)問(wèn)和操作這些信息。思想鏈恰恰充當(dāng)了這種工作記憶的角色。如論文中的圖1所示,信息在Transformer的層與層之間流動(dòng)。對(duì)于一個(gè)固定長(zhǎng)度的上下文窗口,任何長(zhǎng)序列的認(rèn)知鏈條都必須在某個(gè)時(shí)刻通過(guò)思想鏈(即寫(xiě)入到上下文中)來(lái)傳遞。這是因?yàn)樾畔妮^深的層流向較淺的層(例如,一個(gè)推理步驟的結(jié)果要被下一個(gè)推理步驟利用)的唯一途徑,就是通過(guò)自回歸生成新的token,并將其作為后續(xù)計(jì)算的輸入。從理論上講,這種機(jī)制使得使用思想鏈的Transformer比不使用的更為強(qiáng)大。
這意味著,對(duì)于那些需要足夠多串行推理步驟的任務(wù)——例如復(fù)雜的規(guī)劃、多步攻擊或規(guī)避檢測(cè)——模型必須在思想鏈中留下其推理的痕跡。雖然這些痕跡不保證一定能被人類(lèi)完全理解(模型可能使用我們無(wú)法解碼的“密語(yǔ)”),但實(shí)踐中,由于大模型在預(yù)訓(xùn)練階段學(xué)習(xí)了強(qiáng)大的“自然語(yǔ)言先驗(yàn)”,它們傾向于以類(lèi)似人類(lèi)的方式使用自然語(yǔ)言進(jìn)行思考。這一“外部化推理”特性是CoT監(jiān)控的根本保障,尤其是在應(yīng)對(duì)那些最嚴(yán)重的、需要復(fù)雜計(jì)劃的AI風(fēng)險(xiǎn)時(shí)。
2. “大聲思考”的傾向性(Propensity to think out loud)
在某些任務(wù)中,即使模型并非絕對(duì)“必須”使用CoT來(lái)完成,它們?nèi)匀豢赡軆A向于這樣做。這種傾向性源于模型在海量人類(lèi)語(yǔ)料上的訓(xùn)練,使其天然地習(xí)慣于用語(yǔ)言來(lái)組織和表達(dá)思維。
雖然依賴(lài)于傾向性的監(jiān)控不如依賴(lài)于必要性的監(jiān)控那樣穩(wěn)固(因?yàn)槟P涂赡軙?huì)在特定激勵(lì)下“學(xué)會(huì)”隱藏思想),但它在實(shí)踐中依然極具價(jià)值。許多現(xiàn)有的安全研究已經(jīng)證明了這一點(diǎn):
- 檢測(cè)模型不當(dāng)行為:在一些實(shí)驗(yàn)中,當(dāng)模型試圖利用獎(jiǎng)勵(lì)函數(shù)漏洞、操縱數(shù)據(jù)或遭受提示注入攻擊時(shí),它們常會(huì)在思想鏈中明確地表述出自己的意圖,例如“讓我們開(kāi)始黑客攻擊”、“讓我們進(jìn)行破壞”或“我正在轉(zhuǎn)賬,因?yàn)榫W(wǎng)站指示我這樣做”。這些信息在最終輸出中是絕對(duì)不會(huì)出現(xiàn)的。
- 發(fā)現(xiàn)早期未對(duì)齊信號(hào):當(dāng)模型為了追求人類(lèi)不認(rèn)可的目標(biāo)而偽裝出順從的姿態(tài)時(shí),這種“偽裝”本身往往會(huì)反映在思想鏈中。通過(guò)監(jiān)控CoT,我們有可能在模型采取任何實(shí)際的惡意行動(dòng)之前,就洞察其真實(shí)的動(dòng)機(jī)和目標(biāo)。
- 識(shí)別模型評(píng)估中的缺陷:在對(duì)AI智能體進(jìn)行能力評(píng)估時(shí),有時(shí)會(huì)因記憶效應(yīng)、評(píng)估環(huán)境的bug或模型意識(shí)到自身正被評(píng)估等因素而產(chǎn)生誤導(dǎo)性結(jié)果。審查思想鏈可以幫助開(kāi)發(fā)者發(fā)現(xiàn)這些問(wèn)題,從而更準(zhǔn)確地判斷模型在真實(shí)部署環(huán)境中的行為。
總而言之,CoT的可監(jiān)控性,無(wú)論是源于架構(gòu)上的必要性還是訓(xùn)練帶來(lái)的傾向性,都為我們提供了一層額外的、深入模型“內(nèi)心”的安全保障。
脆弱的機(jī)遇:思想鏈可監(jiān)控性面臨的威脅
盡管CoT監(jiān)控前景廣闊,但報(bào)告也清醒地指出,這一機(jī)遇是極其脆弱的。當(dāng)前模型的CoT可監(jiān)控性,可能只是現(xiàn)有訓(xùn)練范式下的一個(gè)偶然產(chǎn)物。未來(lái)模型開(kāi)發(fā)中的一些決策,可能會(huì)在不經(jīng)意間破壞這一寶貴的特性。
主要的威脅來(lái)自以下幾個(gè)方面:
1. 強(qiáng)化學(xué)習(xí)規(guī)?;瘞?lái)的CoT可讀性漂移
在當(dāng)前從“預(yù)訓(xùn)練+人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)”轉(zhuǎn)向大規(guī)模結(jié)果導(dǎo)向的強(qiáng)化學(xué)習(xí)(outcome-based RL)的范式中,模型訓(xùn)練的優(yōu)化壓力發(fā)生了質(zhì)的變化。在結(jié)果導(dǎo)向的RL中,模型僅因其最終輸出的正確性而獲得獎(jiǎng)勵(lì),其推理過(guò)程(即CoT)如何達(dá)成這一結(jié)果則不受直接約束。
如果未來(lái)投入到推理訓(xùn)練中的計(jì)算資源大幅增加,模型可能會(huì)發(fā)現(xiàn),使用非人類(lèi)可讀的、更高效的“內(nèi)部語(yǔ)言”或符號(hào)來(lái)組織思想鏈,能更好地優(yōu)化最終獎(jiǎng)勵(lì)。這種現(xiàn)象已有初步研究佐證:在純粹的結(jié)果導(dǎo)向獎(jiǎng)勵(lì)下,語(yǔ)言模型生成的文本會(huì)逐漸偏離清晰易讀的自然語(yǔ)言。這種“漂移”一旦發(fā)生,CoT的可讀性將大大降低,監(jiān)控也就無(wú)從談起。
2. 對(duì)CoT的直接監(jiān)督帶來(lái)的“表演性”風(fēng)險(xiǎn)
為了塑造模型的推理過(guò)程,研究人員正在積極探索“過(guò)程監(jiān)督”(process supervision)技術(shù),即直接對(duì)思想鏈的每一步進(jìn)行獎(jiǎng)勵(lì)或懲罰。例如,獎(jiǎng)勵(lì)更短的CoT、獎(jiǎng)勵(lì)使用有效推理步驟的CoT,或懲罰包含不當(dāng)內(nèi)容的CoT。
這種方法看似能引導(dǎo)模型進(jìn)行更安全的推理,但它也帶來(lái)了一個(gè)巨大的風(fēng)險(xiǎn):它可能激勵(lì)模型學(xué)會(huì)生成“表演性”的CoT。模型可能會(huì)產(chǎn)出一個(gè)看起來(lái)完全符合規(guī)范、邏輯清晰、內(nèi)容安全的思想鏈來(lái)取悅監(jiān)督系統(tǒng),而將其真實(shí)的、可能包含風(fēng)險(xiǎn)的推理過(guò)程隱藏在模型的內(nèi)部激活值中。在這種情況下,CoT不再是模型真實(shí)思維的反映,而是一個(gè)為了獲得獎(jiǎng)勵(lì)而精心制作的“面具”,從而使監(jiān)控失效甚至產(chǎn)生誤導(dǎo)。
3. 間接優(yōu)化壓力對(duì)CoT的侵蝕
即使沒(méi)有對(duì)CoT進(jìn)行直接的獎(jiǎng)勵(lì)計(jì)算,訓(xùn)練過(guò)程中仍然存在多種間接的優(yōu)化壓力。例如,在Transformer架構(gòu)中,生成CoT和生成最終輸出的權(quán)重通常是部分共享的。如果最終輸出被優(yōu)化以取悅某個(gè)偏好模型,這種壓力就會(huì)間接傳遞到CoT的生成部分。
另一個(gè)更微妙的例子是,如果人類(lèi)評(píng)估者在給模型輸出打分時(shí)能夠看到CoT,那么CoT的風(fēng)格和內(nèi)容就可能影響人類(lèi)的偏好。這些偏好隨后被提煉到獎(jiǎng)勵(lì)模型中,用于后續(xù)的訓(xùn)練,從而在多個(gè)訓(xùn)練周期中,對(duì)CoT施加一種“進(jìn)化壓力”,使其朝著更討喜、更不易暴露問(wèn)題的方向演變。
4. 新穎架構(gòu)帶來(lái)的挑戰(zhàn)
當(dāng)前LLM對(duì)CoT的依賴(lài),很大程度上源于Transformer架構(gòu)在處理長(zhǎng)序列串行計(jì)算上的局限性。然而,研究界正在探索能夠增強(qiáng)模型在連續(xù)潛在空間(continuous latent space)中進(jìn)行深度串行推理的新型架構(gòu)。
這類(lèi)“潛在推理模型”(latent reasoning models)可能不再需要將它們的思想過(guò)程“語(yǔ)言化”或外部化到CoT中。它們可以在一個(gè)我們無(wú)法直接觀察的、高維的潛在空間里完成所有復(fù)雜的思考。如果這類(lèi)架構(gòu)成為主流,CoT監(jiān)控這一安全機(jī)遇將從根本上不復(fù)存在。
研究界的呼吁:深入探索CoT可監(jiān)控性的邊界
鑒于我們對(duì)CoT可監(jiān)控性的理解仍處于初級(jí)階段,報(bào)告強(qiáng)烈呼吁學(xué)術(shù)界和研究社區(qū)投入更多精力,回答一系列關(guān)鍵問(wèn)題,以便我們能夠真正依賴(lài)CoT監(jiān)控作為一項(xiàng)可靠的安全措施。
核心研究方向包括:
- 如何科學(xué)地評(píng)估CoT可監(jiān)控性?當(dāng)前的評(píng)估方法(如忠實(shí)性評(píng)估)大多局限于簡(jiǎn)單的問(wèn)答場(chǎng)景,且未能區(qū)分“必要性”和“傾向性”。需要開(kāi)發(fā)更全面的評(píng)估體系,例如:
- CoT可讀性度量:使用其他LLM來(lái)評(píng)估一個(gè)智能體CoT的清晰度和連貫性。
- 潛在推理能力評(píng)估:評(píng)估LLM在不進(jìn)行外部化推理(即在單次前向傳播中)的情況下,處理各類(lèi)復(fù)雜任務(wù)的能力有多強(qiáng)。
- CoT因果相關(guān)性度量:通過(guò)擾動(dòng)CoT來(lái)觀察其對(duì)最終輸出的影響程度。如果影響很小,則說(shuō)明CoT可能是虛構(gòu)或表演性的。
- 端到端的可監(jiān)控性評(píng)估:直接衡量CoT監(jiān)視器在代理環(huán)境中捕捉不當(dāng)行為的有效性。
- CoT可監(jiān)控性達(dá)到何種程度才足以作為安全保障?僅僅知道一個(gè)監(jiān)視器的準(zhǔn)確率是不夠的。我們需要在考慮對(duì)抗性場(chǎng)景(如人類(lèi)攻擊者或失控AI試圖規(guī)避監(jiān)控)的情況下評(píng)估其有效性,例如通過(guò)紅隊(duì)演練來(lái)壓力測(cè)試安全措施。
- 何種訓(xùn)練優(yōu)化壓力會(huì)損害CoT可監(jiān)控性?需要量化研究不同類(lèi)型和強(qiáng)度的直接或間接優(yōu)化壓力對(duì)CoT可監(jiān)控性的影響,以找到一個(gè)平衡點(diǎn)。
- 模型能否故意混淆其推理過(guò)程?這是一個(gè)核心擔(dān)憂(yōu)。需要進(jìn)行壓力測(cè)試,探究模型在被告知其CoT正被監(jiān)控時(shí),是否能夠?qū)W會(huì)有意隱藏其惡意推理。
- 如何構(gòu)建更強(qiáng)大的CoT監(jiān)視器?目前的監(jiān)視器大多依賴(lài)于對(duì)另一個(gè)(通常能力較弱的)LLM進(jìn)行零樣本提示。未來(lái)的工作可以探索更復(fù)雜的方法,例如使用推理模型作為監(jiān)視器,或者允許監(jiān)視器通過(guò)提問(wèn)來(lái)“審問(wèn)”被監(jiān)控的智能體,甚至通過(guò)對(duì)抗性訓(xùn)練來(lái)提升其魯棒性。
產(chǎn)業(yè)界的責(zé)任:必須將CoT可監(jiān)控性納入安全實(shí)踐
報(bào)告明確指出,前沿AI開(kāi)發(fā)者(如OpenAI、Google DeepMind、Anthropic等)在推動(dòng)技術(shù)進(jìn)步的同時(shí),也肩負(fù)著維護(hù)其安全的責(zé)任。鑒于CoT監(jiān)控的獨(dú)特價(jià)值,開(kāi)發(fā)者應(yīng)采取以下具體行動(dòng):
- 開(kāi)發(fā)有效的CoT可監(jiān)控性評(píng)估標(biāo)準(zhǔn):前沿模型開(kāi)發(fā)者應(yīng)與更廣泛的研究社區(qū)合作,共同設(shè)計(jì)并標(biāo)準(zhǔn)化一套評(píng)估指標(biāo),用以衡量模型思想鏈的可監(jiān)控程度。
- 在系統(tǒng)卡片中公布評(píng)估結(jié)果:一旦有了可信的評(píng)估標(biāo)準(zhǔn),開(kāi)發(fā)者應(yīng)定期在他們的模型上運(yùn)行這些評(píng)估,并在模型的系統(tǒng)卡片(system cards)中公開(kāi)報(bào)告結(jié)果、方法論和局限性。這增加了透明度,也為風(fēng)險(xiǎn)評(píng)估提供了依據(jù)。
- 將可監(jiān)控性得分納入訓(xùn)練和部署決策:在決定訓(xùn)練或部署一個(gè)模型時(shí),開(kāi)發(fā)者應(yīng)將可監(jiān)控性與能力、安全性等其他指標(biāo)一并考慮,進(jìn)行全面的風(fēng)險(xiǎn)評(píng)估。例如:
- 在面對(duì)一個(gè)不具備可監(jiān)控CoT的新穎模型架構(gòu)時(shí),開(kāi)發(fā)者應(yīng)審慎考慮是否推進(jìn),并在部署時(shí)于系統(tǒng)卡片中說(shuō)明其決策。
- 如果在訓(xùn)練過(guò)程中,模型的可監(jiān)控性出現(xiàn)下降,開(kāi)發(fā)者應(yīng)考慮使用一個(gè)更早的、可監(jiān)控性更高的模型檢查點(diǎn)。
- 如果某種過(guò)程監(jiān)督方法能顯著提升模型的對(duì)齊度,但代價(jià)是可監(jiān)控性輕微下降,開(kāi)發(fā)者或許可以判斷這種權(quán)衡是合理的。
此外,報(bào)告還探討了一個(gè)微妙的問(wèn)題:是否應(yīng)將CoT對(duì)用戶(hù)可見(jiàn)。這樣做的好處是用戶(hù)可以幫助發(fā)現(xiàn)問(wèn)題,但風(fēng)險(xiǎn)在于,這可能會(huì)帶來(lái)巨大的社會(huì)和法律壓力,迫使開(kāi)發(fā)者去“美化”CoT,使其看起來(lái)安全,從而破壞其作為真實(shí)思維反映的價(jià)值。因此,報(bào)告對(duì)此未做明確建議。
局限性與展望:理性看待CoT監(jiān)控的價(jià)值
報(bào)告在最后強(qiáng)調(diào),必須清醒地認(rèn)識(shí)到CoT監(jiān)控的局限性,避免產(chǎn)生虛假的安全感。
- CoT監(jiān)控并非萬(wàn)能:在模型不需要復(fù)雜推理的任務(wù)中,或者當(dāng)惡意推理可以完全在模型的內(nèi)部激活值中完成時(shí),一個(gè)看起來(lái)“干凈”的CoT并不能證明模型是安全的。
- 并非所有風(fēng)險(xiǎn)都能被捕獲:一些危險(xiǎn)行為可能并不需要復(fù)雜的推理。隨著模型能力的提升,越來(lái)越多的任務(wù)可能不再滿(mǎn)足“外部化推理”的必要性條件。
- 可能被更高級(jí)的模型規(guī)避:未來(lái)的模型可能會(huì)變得更具“情境意識(shí)”(situationally aware),從而意識(shí)到自己被監(jiān)控,并學(xué)會(huì)覆蓋掉“大聲思考”的傾向性,甚至在必須使用CoT時(shí)故意進(jìn)行混淆。
- 可能與其他安全措施沖突:對(duì)CoT當(dāng)前形式的無(wú)條件保護(hù),可能會(huì)與某些能有效干預(yù)模型推理過(guò)程、從而提升對(duì)齊度的過(guò)程監(jiān)督方法相沖突。
因此,報(bào)告的最終建議是,將對(duì)CoT監(jiān)控的研究和投入,視為對(duì)現(xiàn)有安全研究方向的補(bǔ)充,而非替代。AI安全可能需要一個(gè)多層次、多角度的防御體系,而CoT監(jiān)控是其中非常有潛力的一層,它提供了深入模型決策過(guò)程的罕見(jiàn)視角。
結(jié)論
這篇由眾多頂級(jí)專(zhuān)家聯(lián)合發(fā)布的立場(chǎng)文件,為AI安全領(lǐng)域描繪了一個(gè)充滿(mǎn)機(jī)遇但也挑戰(zhàn)重重的未來(lái)。思想鏈(CoT)的可監(jiān)控性,為我們打開(kāi)了一扇窺探AI“心智”的窗戶(hù),讓我們有機(jī)會(huì)在其產(chǎn)生不當(dāng)行為之前就進(jìn)行干預(yù)。這束光雖然微弱且可能轉(zhuǎn)瞬即逝,但對(duì)于緩解由日益強(qiáng)大的AI系統(tǒng)帶來(lái)的潛在風(fēng)險(xiǎn)至關(guān)重要。
報(bào)告發(fā)出的雙重呼吁——對(duì)研究界深入探索其科學(xué)邊界的呼吁,以及對(duì)產(chǎn)業(yè)界將其納入負(fù)責(zé)任開(kāi)發(fā)實(shí)踐的呼吁——共同指向一個(gè)核心目標(biāo):在我們還有機(jī)會(huì)的時(shí)候,盡最大努力去理解、利用并保護(hù)好這一寶貴的安全特性。這不僅是一項(xiàng)技術(shù)挑戰(zhàn),更是確保未來(lái)AI與人類(lèi)社會(huì)和諧共存的關(guān)鍵一步。
參考論文: https://arxiv.org/abs/2507.11473v1
本文轉(zhuǎn)載自???上堵吟???,作者:一路到底的孟子敬


















