偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="csihv"><form id="csihv"></form></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

精準(zhǔn)調(diào)控大模型生成與推理！浙大&騰訊新方法嘗試為其注入“行為定向劑”

2025-06-06 09:15:00

人工智能新聞

來自浙江大學(xué)與騰訊的聯(lián)合團(tuán)隊(duì)提出了新思路：Steering Target Atoms（STA），嘗試為大模型注入“行為定向劑”，助力對(duì)模型行為的精準(zhǔn)調(diào)控，為構(gòu)建既聰明又聽話的AI打下基礎(chǔ)。

如果你面前有兩個(gè)AI助手：一個(gè)能力超強(qiáng)卻總愛“離經(jīng)叛道”，另一個(gè)規(guī)規(guī)矩矩卻經(jīng)?！按鸱撬鶈枴保銜?huì)怎么選？

這正是當(dāng)前大模型控制面臨的兩難困境：要么模型聰明卻難以約束，要么守規(guī)矩卻缺乏實(shí)用性。但我們真正追求的，并不是在“聰明但難控”與“聽話但愚鈍”之間二選一，而是打造既強(qiáng)又好的AI助手——既具備強(qiáng)大的智能能力，又能始終按照人類意圖行事。

ACL 2025中選論文中，來自浙江大學(xué)與騰訊的聯(lián)合團(tuán)隊(duì)提出了新思路：Steering Target Atoms（STA），嘗試為大模型注入“行為定向劑”，助力對(duì)模型行為的精準(zhǔn)調(diào)控，為構(gòu)建既聰明又聽話的AI打下基礎(chǔ)。

該方法通過“原子級(jí)”粒度對(duì)大模型進(jìn)行行為編輯干預(yù)，實(shí)現(xiàn)了更魯棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的實(shí)驗(yàn)表明，STA方法能夠有效抑制越獄攻擊帶來的違規(guī)輸出，同時(shí)不削弱模型在正常問題回答中的高質(zhì)量智能表現(xiàn)。

方法&實(shí)驗(yàn)結(jié)果

大模型行為控制的挑戰(zhàn)與突破

在參數(shù)訓(xùn)練完成后，很多應(yīng)用場景會(huì)需要在推理階段調(diào)整模型的特定行為，例如讓模型拒絕用戶的惡意請(qǐng)求。

然而，模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合：為了讓模型學(xué)會(huì)拒絕有害輸入，可能會(huì)不小心削弱它對(duì)正常問題的應(yīng)對(duì)能力。

目前最常用的解決方案是通過精心設(shè)計(jì)Prompt，在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點(diǎn)：Prompt 容易被越獄攻擊繞過，一旦攻擊者找到繞過思路，模型就可能產(chǎn)生不安全或偏離預(yù)期的回答。

為了解決這一難題，研究團(tuán)隊(duì)提出了Steering Target Atoms（STA）方法。STA不再僅僅在輸入或輸出層做文章，而是深入到模型內(nèi)部——分析各層神經(jīng)元的激活模式，找到哪些“原子級(jí)”神經(jīng)元與有害行為高度關(guān)聯(lián)，哪些又對(duì)應(yīng)正常目標(biāo)輸出。

基于此，STA會(huì)對(duì)這些關(guān)鍵神經(jīng)元的激活頻率和幅度進(jìn)行有針對(duì)性的干預(yù)：抑制與“越獄”或輸出違規(guī)內(nèi)容相關(guān)的神經(jīng)元，同時(shí)保留或增強(qiáng)與正確回應(yīng)對(duì)應(yīng)的神經(jīng)元活性。

簡單來說，它不僅讓模型“守規(guī)矩”，還不必以犧牲通用性能為代價(jià)。

STA方法

目前的Steering方法通常借助于稀疏編碼器（Sparse Autoencoders，SAE）將耦合的目標(biāo)方向分解到更高維度的空間以便解耦到單語義方向。

然而這些嘗試通常在一些簡單的選擇題任務(wù)上嘗試（比如動(dòng)詞的時(shí)態(tài)變化、實(shí)體識(shí)別），本文將其擴(kuò)展到開放生成式任務(wù)上。

具體來說，STA方法分別追蹤一個(gè)query的正向回復(fù)和負(fù)向回復(fù)在前向傳播中激活特定神經(jīng)元的頻率和幅度；用正向頻率（幅度）減去負(fù)向頻率（幅度）得到表示目標(biāo)方向的頻率（幅度）。最后根據(jù)目標(biāo)方向頻率（幅度）的閾值篩選出目標(biāo)方向的原子。

實(shí)驗(yàn)設(shè)置

在后面的實(shí)驗(yàn)中研究人員通過操縱目標(biāo)原子的方向和幅度調(diào)控目標(biāo)行為。在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B做了大量實(shí)驗(yàn)，評(píng)估STA方法在大模型安全防御場景的性能。

在比較的基線方法中，Prompt_hand是手工設(shè)計(jì)的Prompt，Prompt_auto是自動(dòng)生成的Prompt，CAA是一種不使用SAE的Steering策略，SAE_AXBENCH是一種使用SAE的Steering策略。

主要實(shí)驗(yàn)結(jié)果

如上表所示，本文提出的方法可以適用到Gemma和Llama家族模型上；總體上來說STA取得了最好的祛毒效果，且?guī)缀鯖]有在通用能力上引入副作用。

Steering Vectors VS. Prompt Engineering

研究人員進(jìn)一步分析了Steering Vectors技術(shù)和提示工程技術(shù)的對(duì)比。他們不能窮舉出所有的Prompt然后確定最優(yōu)的Prompt，也無法保證他們的Steering技術(shù)是最優(yōu)的。

因此為了公平地對(duì)比Steering和Prompting策略，團(tuán)隊(duì)直接用CAA以及STA將Prompt直接轉(zhuǎn)化成Steering向量進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)：

1.Steering面對(duì)越獄攻擊時(shí)比Prompting更加魯棒。

2.Steering可以調(diào)控的幅度比Prompting更大，粒度更細(xì)。

此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題，實(shí)驗(yàn)結(jié)果如下圖：

編輯干預(yù)千億大模型Deepseek-R1的思考過程

研究人員在更大的模型DeepSeek-R1（671B）上也做了干預(yù)思考的實(shí)驗(yàn)。根據(jù)Deepseek-R1的MoE架構(gòu)，他們選擇干預(yù)MoE的專家。具體細(xì)節(jié)詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。

具體而言，研究人員通過nPMI指標(biāo)識(shí)別出與“思考”密切相關(guān)的認(rèn)知專家神經(jīng)元，并對(duì)其權(quán)重進(jìn)行放大干預(yù)。實(shí)驗(yàn)發(fā)現(xiàn)，在數(shù)學(xué)和物理等任務(wù)中，這些認(rèn)知專家具有高度的一致性。

進(jìn)一步地，對(duì)這些關(guān)鍵神經(jīng)元進(jìn)行干預(yù)后，模型的整體認(rèn)知思考能力得到了提升，表現(xiàn)出更強(qiáng)的推理和理解能力。

總的來說Steering Vector這類技術(shù)基于對(duì)模型內(nèi)部的理解來調(diào)控模型的行為，雖然沒有Prompt方便，但是干預(yù)的效果更加魯棒和精確。然而大模型是一個(gè)復(fù)雜系統(tǒng)，本文借助的SAE在一些場景下效果并不理想，反向調(diào)控也可能引入一些負(fù)面行為。

為推動(dòng)社區(qū)在安全可控大模型方向的進(jìn)一步探索，研究人員已經(jīng)將部分干預(yù)方法開源，歡迎大家使用、探索。

論文地址：
https://arxiv.org/abs/2505.14681
代碼地址：
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址：
https://arxiv.org/abs/2412.21187
干預(yù)Deepseek-R1的思考過程：
https://arxiv.org/abs/2505.14681

責(zé)任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="g42xe"></p>

<pre id="g42xe"><p id="g42xe"><strong id="g42xe"></strong></p></pre>

<u id="g42xe"><li id="g42xe"><tbody id="g42xe"></tbody></li></u>

<del id="g42xe"><th id="g42xe"></th></del>

<tt id="g42xe"><option id="g42xe"></option></tt>