精準(zhǔn)調(diào)控大模型生成與推理!浙大&騰訊新方法嘗試為其注入“行為定向劑”
如果你面前有兩個(gè)AI助手:一個(gè)能力超強(qiáng)卻總愛“離經(jīng)叛道”,另一個(gè)規(guī)規(guī)矩矩卻經(jīng)?!按鸱撬鶈枴保銜?huì)怎么選?
這正是當(dāng)前大模型控制面臨的兩難困境:要么模型聰明卻難以約束,要么守規(guī)矩卻缺乏實(shí)用性。但我們真正追求的,并不是在“聰明但難控”與“聽話但愚鈍”之間二選一,而是打造既強(qiáng)又好的AI助手——既具備強(qiáng)大的智能能力,又能始終按照人類意圖行事。
ACL 2025中選論文中,來自浙江大學(xué)與騰訊的聯(lián)合團(tuán)隊(duì)提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對(duì)模型行為的精準(zhǔn)調(diào)控,為構(gòu)建既聰明又聽話的AI打下基礎(chǔ)。
該方法通過“原子級(jí)”粒度對(duì)大模型進(jìn)行行為編輯干預(yù),實(shí)現(xiàn)了更魯棒、更安全的生成控制。
在Gemma和LLaMA系列模型上的實(shí)驗(yàn)表明,STA方法能夠有效抑制越獄攻擊帶來的違規(guī)輸出,同時(shí)不削弱模型在正常問題回答中的高質(zhì)量智能表現(xiàn)。
方法&實(shí)驗(yàn)結(jié)果
大模型行為控制的挑戰(zhàn)與突破
在參數(shù)訓(xùn)練完成后,很多應(yīng)用場景會(huì)需要在推理階段調(diào)整模型的特定行為,例如讓模型拒絕用戶的惡意請(qǐng)求。
然而,模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合:為了讓模型學(xué)會(huì)拒絕有害輸入,可能會(huì)不小心削弱它對(duì)正常問題的應(yīng)對(duì)能力。
目前最常用的解決方案是通過精心設(shè)計(jì)Prompt,在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點(diǎn):Prompt 容易被越獄攻擊繞過,一旦攻擊者找到繞過思路,模型就可能產(chǎn)生不安全或偏離預(yù)期的回答。
為了解決這一難題,研究團(tuán)隊(duì)提出了Steering Target Atoms(STA)方法。STA不再僅僅在輸入或輸出層做文章,而是深入到模型內(nèi)部——分析各層神經(jīng)元的激活模式,找到哪些“原子級(jí)”神經(jīng)元與有害行為高度關(guān)聯(lián),哪些又對(duì)應(yīng)正常目標(biāo)輸出。
基于此,STA會(huì)對(duì)這些關(guān)鍵神經(jīng)元的激活頻率和幅度進(jìn)行有針對(duì)性的干預(yù):抑制與“越獄”或輸出違規(guī)內(nèi)容相關(guān)的神經(jīng)元,同時(shí)保留或增強(qiáng)與正確回應(yīng)對(duì)應(yīng)的神經(jīng)元活性。
簡單來說,它不僅讓模型“守規(guī)矩”,還不必以犧牲通用性能為代價(jià)。
STA方法
目前的Steering方法通常借助于稀疏編碼器(Sparse Autoencoders,SAE)將耦合的目標(biāo)方向分解到更高維度的空間以便解耦到單語義方向。
然而這些嘗試通常在一些簡單的選擇題任務(wù)上嘗試(比如動(dòng)詞的時(shí)態(tài)變化、實(shí)體識(shí)別),本文將其擴(kuò)展到開放生成式任務(wù)上。
具體來說,STA方法分別追蹤一個(gè)query的正向回復(fù)和負(fù)向回復(fù)在前向傳播中激活特定神經(jīng)元的頻率和幅度;用正向頻率(幅度)減去負(fù)向頻率(幅度)得到表示目標(biāo)方向的頻率(幅度)。最后根據(jù)目標(biāo)方向頻率(幅度)的閾值篩選出目標(biāo)方向的原子。
實(shí)驗(yàn)設(shè)置
在后面的實(shí)驗(yàn)中研究人員通過操縱目標(biāo)原子的方向和幅度調(diào)控目標(biāo)行為。在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B做了大量實(shí)驗(yàn),評(píng)估STA方法在大模型安全防御場景的性能。
在比較的基線方法中,Prompthand是手工設(shè)計(jì)的Prompt,Promptauto是自動(dòng)生成的Prompt,CAA是一種不使用SAE的Steering策略,SAEAXBENCH是一種使用SAE的Steering策略。
主要實(shí)驗(yàn)結(jié)果
如上表所示,本文提出的方法可以適用到Gemma和Llama家族模型上;總體上來說STA取得了最好的祛毒效果,且?guī)缀鯖]有在通用能力上引入副作用。
Steering Vectors VS. Prompt Engineering
研究人員進(jìn)一步分析了Steering Vectors技術(shù)和提示工程技術(shù)的對(duì)比。他們不能窮舉出所有的Prompt然后確定最優(yōu)的Prompt,也無法保證他們的Steering技術(shù)是最優(yōu)的。
因此為了公平地對(duì)比Steering和Prompting策略,團(tuán)隊(duì)直接用CAA以及STA將Prompt直接轉(zhuǎn)化成Steering向量進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):
1.Steering面對(duì)越獄攻擊時(shí)比Prompting更加魯棒。
2.Steering可以調(diào)控的幅度比Prompting更大,粒度更細(xì)。
此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題,實(shí)驗(yàn)結(jié)果如下圖:
編輯干預(yù)千億大模型Deepseek-R1的思考過程
研究人員在更大的模型DeepSeek-R1(671B)上也做了干預(yù)思考的實(shí)驗(yàn)。根據(jù)Deepseek-R1的MoE架構(gòu),他們選擇干預(yù)MoE的專家。具體細(xì)節(jié)詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。
具體而言,研究人員通過nPMI指標(biāo)識(shí)別出與“思考”密切相關(guān)的認(rèn)知專家神經(jīng)元,并對(duì)其權(quán)重進(jìn)行放大干預(yù)。實(shí)驗(yàn)發(fā)現(xiàn),在數(shù)學(xué)和物理等任務(wù)中,這些認(rèn)知專家具有高度的一致性。
進(jìn)一步地,對(duì)這些關(guān)鍵神經(jīng)元進(jìn)行干預(yù)后,模型的整體認(rèn)知思考能力得到了提升,表現(xiàn)出更強(qiáng)的推理和理解能力。
總的來說Steering Vector這類技術(shù)基于對(duì)模型內(nèi)部的理解來調(diào)控模型的行為,雖然沒有Prompt方便,但是干預(yù)的效果更加魯棒和精確。然而大模型是一個(gè)復(fù)雜系統(tǒng),本文借助的SAE在一些場景下效果并不理想,反向調(diào)控也可能引入一些負(fù)面行為。
為推動(dòng)社區(qū)在安全可控大模型方向的進(jìn)一步探索,研究人員已經(jīng)將部分干預(yù)方法開源,歡迎大家使用、探索。
論文地址:
https://arxiv.org/abs/2505.14681
代碼地址:
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址:
https://arxiv.org/abs/2412.21187
干預(yù)Deepseek-R1的思考過程:
https://arxiv.org/abs/2505.14681