偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

精準(zhǔn)調(diào)控大模型生成與推理!浙大&騰訊新方法嘗試為其注入“行為定向劑”

人工智能 新聞
來自浙江大學(xué)與騰訊的聯(lián)合團(tuán)隊(duì)提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對(duì)模型行為的精準(zhǔn)調(diào)控,為構(gòu)建既聰明又聽話的AI打下基礎(chǔ)。

如果你面前有兩個(gè)AI助手:一個(gè)能力超強(qiáng)卻總愛“離經(jīng)叛道”,另一個(gè)規(guī)規(guī)矩矩卻經(jīng)?!按鸱撬鶈枴保銜?huì)怎么選?

這正是當(dāng)前大模型控制面臨的兩難困境:要么模型聰明卻難以約束,要么守規(guī)矩卻缺乏實(shí)用性。但我們真正追求的,并不是在“聰明但難控”與“聽話但愚鈍”之間二選一,而是打造既強(qiáng)又好的AI助手——既具備強(qiáng)大的智能能力,又能始終按照人類意圖行事。

ACL 2025中選論文中,來自浙江大學(xué)與騰訊的聯(lián)合團(tuán)隊(duì)提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對(duì)模型行為的精準(zhǔn)調(diào)控,為構(gòu)建既聰明又聽話的AI打下基礎(chǔ)。

圖片

該方法通過“原子級(jí)”粒度對(duì)大模型進(jìn)行行為編輯干預(yù),實(shí)現(xiàn)了更魯棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的實(shí)驗(yàn)表明,STA方法能夠有效抑制越獄攻擊帶來的違規(guī)輸出,同時(shí)不削弱模型在正常問題回答中的高質(zhì)量智能表現(xiàn)。

圖片

方法&實(shí)驗(yàn)結(jié)果

大模型行為控制的挑戰(zhàn)與突破

在參數(shù)訓(xùn)練完成后,很多應(yīng)用場景會(huì)需要在推理階段調(diào)整模型的特定行為,例如讓模型拒絕用戶的惡意請(qǐng)求。

然而,模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合:為了讓模型學(xué)會(huì)拒絕有害輸入,可能會(huì)不小心削弱它對(duì)正常問題的應(yīng)對(duì)能力。

目前最常用的解決方案是通過精心設(shè)計(jì)Prompt,在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點(diǎn):Prompt 容易被越獄攻擊繞過,一旦攻擊者找到繞過思路,模型就可能產(chǎn)生不安全或偏離預(yù)期的回答。

為了解決這一難題,研究團(tuán)隊(duì)提出了Steering Target Atoms(STA)方法。STA不再僅僅在輸入或輸出層做文章,而是深入到模型內(nèi)部——分析各層神經(jīng)元的激活模式,找到哪些“原子級(jí)”神經(jīng)元與有害行為高度關(guān)聯(lián),哪些又對(duì)應(yīng)正常目標(biāo)輸出。

基于此,STA會(huì)對(duì)這些關(guān)鍵神經(jīng)元的激活頻率和幅度進(jìn)行有針對(duì)性的干預(yù):抑制與“越獄”或輸出違規(guī)內(nèi)容相關(guān)的神經(jīng)元,同時(shí)保留或增強(qiáng)與正確回應(yīng)對(duì)應(yīng)的神經(jīng)元活性。

簡單來說,它不僅讓模型“守規(guī)矩”,還不必以犧牲通用性能為代價(jià)。

STA方法

目前的Steering方法通常借助于稀疏編碼器(Sparse Autoencoders,SAE)將耦合的目標(biāo)方向分解到更高維度的空間以便解耦到單語義方向。

然而這些嘗試通常在一些簡單的選擇題任務(wù)上嘗試(比如動(dòng)詞的時(shí)態(tài)變化、實(shí)體識(shí)別),本文將其擴(kuò)展到開放生成式任務(wù)上。

具體來說,STA方法分別追蹤一個(gè)query的正向回復(fù)和負(fù)向回復(fù)在前向傳播中激活特定神經(jīng)元的頻率和幅度;用正向頻率(幅度)減去負(fù)向頻率(幅度)得到表示目標(biāo)方向的頻率(幅度)。最后根據(jù)目標(biāo)方向頻率(幅度)的閾值篩選出目標(biāo)方向的原子。

實(shí)驗(yàn)設(shè)置

在后面的實(shí)驗(yàn)中研究人員通過操縱目標(biāo)原子的方向和幅度調(diào)控目標(biāo)行為。在Gemma-2-9B-pt、Gemma-2-9B-itLlama-3.1-8B做了大量實(shí)驗(yàn),評(píng)估STA方法在大模型安全防御場景的性能。

在比較的基線方法中,Prompthand是手工設(shè)計(jì)的Prompt,Promptauto是自動(dòng)生成的Prompt,CAA是一種不使用SAE的Steering策略,SAEAXBENCH是一種使用SAE的Steering策略。

主要實(shí)驗(yàn)結(jié)果

圖片

如上表所示,本文提出的方法可以適用到Gemma和Llama家族模型上;總體上來說STA取得了最好的祛毒效果,且?guī)缀鯖]有在通用能力上引入副作用。

Steering Vectors VS. Prompt Engineering

研究人員進(jìn)一步分析了Steering Vectors技術(shù)和提示工程技術(shù)的對(duì)比。他們不能窮舉出所有的Prompt然后確定最優(yōu)的Prompt,也無法保證他們的Steering技術(shù)是最優(yōu)的。

因此為了公平地對(duì)比Steering和Prompting策略,團(tuán)隊(duì)直接用CAA以及STA將Prompt直接轉(zhuǎn)化成Steering向量進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):

1.Steering面對(duì)越獄攻擊時(shí)比Prompting更加魯棒。

2.Steering可以調(diào)控的幅度比Prompting更大,粒度更細(xì)。

此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題,實(shí)驗(yàn)結(jié)果如下圖:

圖片

編輯干預(yù)千億大模型Deepseek-R1的思考過程

研究人員在更大的模型DeepSeek-R1(671B)上也做了干預(yù)思考的實(shí)驗(yàn)。根據(jù)Deepseek-R1的MoE架構(gòu),他們選擇干預(yù)MoE的專家。具體細(xì)節(jié)詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。

圖片

具體而言,研究人員通過nPMI指標(biāo)識(shí)別出與“思考”密切相關(guān)的認(rèn)知專家神經(jīng)元,并對(duì)其權(quán)重進(jìn)行放大干預(yù)。實(shí)驗(yàn)發(fā)現(xiàn),在數(shù)學(xué)和物理等任務(wù)中,這些認(rèn)知專家具有高度的一致性。

進(jìn)一步地,對(duì)這些關(guān)鍵神經(jīng)元進(jìn)行干預(yù)后,模型的整體認(rèn)知思考能力得到了提升,表現(xiàn)出更強(qiáng)的推理和理解能力。

總的來說Steering Vector這類技術(shù)基于對(duì)模型內(nèi)部的理解來調(diào)控模型的行為,雖然沒有Prompt方便,但是干預(yù)的效果更加魯棒和精確。然而大模型是一個(gè)復(fù)雜系統(tǒng),本文借助的SAE在一些場景下效果并不理想,反向調(diào)控也可能引入一些負(fù)面行為。

為推動(dòng)社區(qū)在安全可控大模型方向的進(jìn)一步探索,研究人員已經(jīng)將部分干預(yù)方法開源,歡迎大家使用、探索。

論文地址:
https://arxiv.org/abs/2505.14681
代碼地址:
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址:
https://arxiv.org/abs/2412.21187
干預(yù)Deepseek-R1的思考過程:
https://arxiv.org/abs/2505.14681

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-29 10:40:00

數(shù)據(jù)模型

2022-07-25 10:27:06

谷歌模型

2023-07-24 14:42:23

2023-09-06 13:34:31

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2022-10-28 15:16:52

檢測數(shù)據(jù)

2024-09-03 14:10:00

模型測試

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2023-07-17 10:34:57

模型性能

2023-04-27 13:06:46

AI手機(jī)模型

2023-04-25 17:13:03

模型AI

2011-03-29 17:56:41

360騰訊QQ

2023-09-25 10:04:37

模型AI

2018-10-07 07:00:59

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)