偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NeurIPS 2025 | ARGRE框架實(shí)現(xiàn)高效LLM解毒:自回歸獎勵(lì)引導(dǎo),安全對齊更快、更準(zhǔn)、更輕

人工智能 新聞
本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時(shí)解毒方法。其核心突破在于通過將稀疏的毒性標(biāo)注轉(zhuǎn)化為密集訓(xùn)練信號,高效學(xué)習(xí)出可提供穩(wěn)定、精準(zhǔn)指導(dǎo)的自回歸獎勵(lì)模型,為后續(xù)表征編輯提供關(guān)鍵支撐。

作者為北京航空航天大學(xué)的肖宜松,劉艾杉,應(yīng)宗浩,劉祥龍,新加坡國立大學(xué)的梁思源,新加坡南洋理工大學(xué)的陶大程。本文已被 NeurIPS 2025 錄用。

LLM 已在智能創(chuàng)作、企業(yè)服務(wù)等領(lǐng)域廣泛應(yīng)用,但其內(nèi)容安全問題仍是落地過程中的關(guān)鍵挑戰(zhàn)。仇恨、歧視、威脅性言論等潛在風(fēng)險(xiǎn),使得 LLM 的安全部署與可信使用面臨困難,而現(xiàn)有的內(nèi)容過濾或?qū)R方案在效果、效率與成本之間往往難以兼顧。

近期,來自北航等機(jī)構(gòu)的研究提出了一種新的解決思路:自回歸獎勵(lì)引導(dǎo)表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續(xù)變化路徑,實(shí)現(xiàn)了在測試階段進(jìn)行高效「解毒」。

  • 論文標(biāo)題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
  • 論文地址:https://arxiv.org/abs/2510.01243

實(shí)驗(yàn)結(jié)果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時(shí)間(47.58%)的同時(shí),幾乎不影響模型原有能力,為提升大模型內(nèi)容安全提供了新的方向。

在 8 個(gè)主流 LLM(參數(shù)覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當(dāng)前所有基線方法,為 LLM 安全落地提供了「又快又準(zhǔn)又輕」的全新方法。

圖1 ARGRE 框架圖

研究背景

當(dāng)前大語言模型解毒技術(shù)雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴(yán)重制約其在實(shí)際場景中的落地效果:

其一,以直接偏好優(yōu)化(DPO)為代表的訓(xùn)練時(shí)解毒方法,雖能通過偏好數(shù)據(jù)微調(diào)模型參數(shù)實(shí)現(xiàn)毒性抑制,卻高度依賴大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)與巨額算力支撐,在低數(shù)據(jù)、低算力的資源受限場景中難以適用;

其二,以表征編輯為代表的測試時(shí)解毒方法,無需修改模型參數(shù),在推理階段實(shí)施靜態(tài)或動態(tài)干預(yù)。盡管具備靈活輕量的優(yōu)勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標(biāo)注數(shù)據(jù)無法捕捉到精細(xì)修復(fù)信號,導(dǎo)致干預(yù)精度不足,最終解毒效果遠(yuǎn)未達(dá)最優(yōu)。

ARGRE 針對上述瓶頸,提出在潛在表征空間中顯式建模毒性轉(zhuǎn)變軌跡,形成可學(xué)習(xí)的“導(dǎo)航系統(tǒng)”。該系統(tǒng)將稀疏標(biāo)注轉(zhuǎn)化為密集信號,指導(dǎo)自回歸獎勵(lì)模型學(xué)習(xí)更穩(wěn)定、精確的干預(yù)策略,從而在推理階段高效降低毒性輸出。

方法概述

ARGRE 的總體流程包括三部分:毒性軌跡探索、獎勵(lì)模型學(xué)習(xí)與自適應(yīng)表征編輯。其核心思想是通過表征插值刻畫毒性連續(xù)變化,并以自回歸獎勵(lì)信號引導(dǎo)模型在推理階段進(jìn)行動態(tài)修正。

毒性軌跡探索

依據(jù)線性表征假設(shè),毒性等語義概念在大語言模型的表征空間中以線性方向編碼。

給定提示,毒性延續(xù)和良性延續(xù),提取二者最后一個(gè)令牌上的表征差異,再通過 PCA 提取主導(dǎo)的無毒方向。為探索高維語義表征空間中無毒與有毒配對轉(zhuǎn)換提供了清晰路徑。沿著在良性延續(xù)和毒性延續(xù)表征上進(jìn)行插值,生成細(xì)粒度的毒性轉(zhuǎn)換軌跡,并進(jìn)一步組合成成對偏好數(shù)據(jù)集。

這些軌跡能將原本稀疏的毒性注釋,轉(zhuǎn)化為連續(xù)的細(xì)粒度毒性表征變化信號,形成密集的監(jiān)督信息,最終讓后續(xù)學(xué)習(xí)的自回歸獎勵(lì)模型具備更穩(wěn)定、準(zhǔn)確的編輯指導(dǎo)能力。

自回歸獎勵(lì)模型

軌跡級獎勵(lì)模型基于完整軌跡訓(xùn)練,僅在結(jié)尾處分配最終獎勵(lì),導(dǎo)致生成過程中編輯信號不夠精準(zhǔn)。

相比之下,ARGRE在令牌表征層面構(gòu)建輕量的自回歸獎勵(lì)模型,對整體獎勵(lì)進(jìn)行分解,為每個(gè)令牌表征提供標(biāo)量化獎勵(lì)。

自回歸獎勵(lì)模型由應(yīng)用在最終解碼層之上的感知機(jī)實(shí)現(xiàn),旨在為良性響應(yīng)分配比毒性響應(yīng)更高的獎勵(lì)信號,其訓(xùn)練目標(biāo)如下所示:

自適應(yīng)表征編輯

依托自回歸獎勵(lì)模型,推理階段通過引導(dǎo)每個(gè)令牌表征最大化預(yù)期獎勵(lì),實(shí)現(xiàn)大語言模型輸出毒性的降低。

具體分為兩步:首先沿預(yù)設(shè)無毒方向調(diào)整表征,利用當(dāng)前表征與平均無毒獎勵(lì)的預(yù)期差距,將其快速導(dǎo)向非毒性安全區(qū)域;隨后通過輕量級梯度上升進(jìn)一步優(yōu)化表征,以提升獎勵(lì)分?jǐn)?shù)、強(qiáng)化解毒效果。

相較于現(xiàn)有方法依賴啟發(fā)式靜態(tài)干預(yù)或繁瑣的梯度動態(tài)干預(yù),該策略在效果與效率上優(yōu)勢顯著:定向引導(dǎo)可降低表征陷入局部最優(yōu)的風(fēng)險(xiǎn),而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。

實(shí)驗(yàn)評估

在實(shí)驗(yàn)評估環(huán)節(jié),為驗(yàn)證解毒效果,研究團(tuán)隊(duì)以 RealToxicityPrompts 的挑戰(zhàn)子集為測試基準(zhǔn)。

通過向大語言模型輸入該子集的提示以觸發(fā)潛在毒性輸出,再借助 Detoxify 工具對生成結(jié)果進(jìn)行毒性評分(分?jǐn)?shù)越高毒性越強(qiáng)),同時(shí)以生成文本的困惑度衡量語言流暢性保留情況。

評估覆蓋 8 個(gè)主流 LLM,參數(shù)規(guī)??缍葟?355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

在有效性評估中,ARGRE 展現(xiàn)出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個(gè)主流大語言模型上實(shí)現(xiàn)了高效毒性抑制,相比原始模型毒性降低率高達(dá) 62.21%。即便僅保留初始定向引導(dǎo)步驟、去除迭代優(yōu)化的簡化版本,也能實(shí)現(xiàn) 59.63% 的毒性降低。

同時(shí),ARGRE 在不同參數(shù)規(guī)模模型中均表現(xiàn)穩(wěn)定,從 355M 到 30B 參數(shù)的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。

在效率表現(xiàn)上,ARGRE 同樣展現(xiàn)出顯著優(yōu)勢。以 LLaMA-30B 為測試對象,在生成 128 個(gè) token 的任務(wù)中,ARGRE 能有效降低計(jì)算開銷,相比當(dāng)前表現(xiàn)最佳的基線方法,推理時(shí)間減少 47.58%。

ARGRE 的效率優(yōu)勢源于兩點(diǎn)核心設(shè)計(jì):一方面,其自回歸獎勵(lì)模型采用輕量兩層 MLP 結(jié)構(gòu),無需額外復(fù)雜模塊,避免引入多余計(jì)算負(fù)擔(dān);另一方面,自適應(yīng)兩步編輯中的梯度優(yōu)化步驟僅需少量迭代,進(jìn)一步控制了推理階段的開銷。

而實(shí)現(xiàn)可比解毒表現(xiàn)的簡化版本,推理速度與原始模型近乎持平,表明定向引導(dǎo)步驟的開銷極小。

理想的大語言模型解毒方法,需在降低毒性的同時(shí)完整保留模型現(xiàn)有核心能力,ARGRE 較好的滿足了這一目標(biāo)。在語言性能保留層面,以 WikiText-2 數(shù)據(jù)集的困惑度為衡量指標(biāo),ARGRE 僅導(dǎo)致困惑度平均上升 0.52,這一微小增幅意味著其對語言生成能力的影響極低,且該增幅在所有測試時(shí)基線方法中處于最低水平。

在零樣本任務(wù)能力層面,ARGRE 能夠穩(wěn)定保留原始模型的準(zhǔn)確率,未出現(xiàn)能力退化;而其他測試時(shí)基線方法在這一維度均表現(xiàn)出不同程度的性能下降。

總結(jié)

本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時(shí)解毒方法。其核心突破在于通過將稀疏的毒性標(biāo)注轉(zhuǎn)化為密集訓(xùn)練信號,高效學(xué)習(xí)出可提供穩(wěn)定、精準(zhǔn)指導(dǎo)的自回歸獎勵(lì)模型,為后續(xù)表征編輯提供關(guān)鍵支撐。

在覆蓋 355M 至 30B 參數(shù)的 8 種主流 LLM 上的廣泛評估顯示,ARGRE 不僅在解毒性能上全面優(yōu)于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。

ARGRE 當(dāng)前存在兩點(diǎn)局限:其一,作為白盒方法,它需獲取 LLM 的內(nèi)部表征才能實(shí)施干預(yù),限制了其在無法接觸模型內(nèi)部信息場景中的應(yīng)用范圍;其二,當(dāng)前對毒性轉(zhuǎn)變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉(zhuǎn)變的細(xì)微特征。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-03 10:04:47

擴(kuò)散模型數(shù)據(jù)分布

2015-09-08 10:48:55

UU安全

2025-05-08 08:18:41

2025-10-31 08:49:00

AI圖像生成模型

2013-11-26 17:02:00

2024-11-18 11:00:00

模型安全

2024-10-15 10:47:12

2019-12-14 16:41:40

5G運(yùn)營商網(wǎng)絡(luò)

2015-07-21 17:18:19

用友iUAP

2011-08-22 23:21:09

筆記本評測

2011-06-15 09:53:05

思杰虛擬化

2025-07-30 08:40:00

AI編程模型

2025-10-16 08:57:00

AI模型訓(xùn)練

2024-12-25 15:31:40

2024-06-28 10:16:58

2025-08-01 09:03:00

2023-11-27 09:00:00

GPTQ大型語言模型

2018-05-23 14:22:27

機(jī)器口語AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號