語言與擴(kuò)散模型的精準(zhǔn)控制
筆者近日在朋友圈發(fā)了如下感慨:
“現(xiàn)在太多科幻敘事下的公司AI戰(zhàn)略,看了讓人觸目驚心,可以判斷這些做AI戰(zhàn)略的人幾乎不看paper的。
現(xiàn)在的大模型做個(gè)六七十分的demo非常擅長,對企業(yè)生產(chǎn)場景卻缺乏精準(zhǔn)控制的手段。
再強(qiáng)大的工具也有能力的邊界,研究數(shù)理原理可以推演出這些邊界:?大模型的數(shù)理認(rèn)知框架v2”。
問題
這并非刻意標(biāo)新立異或危言聳聽:
隨著大型生成模型能力的不斷提升及日益廣泛應(yīng)用,人們對其可靠性、安全性及潛在濫用風(fēng)險(xiǎn)的擔(dān)憂也與日俱增。
然而讓這些模型精準(zhǔn)輸出預(yù)期內(nèi)容十分挑戰(zhàn),而精準(zhǔn)恰恰是眾多領(lǐng)域特別是toB企業(yè)場景的核心訴求。
一個(gè)典型有趣的例子,當(dāng)要求文生圖模型"不包含某元素",例如“不要生成粉色大象”時(shí),模型仍然非常執(zhí)著的輸出:
SDXL和FLUX-1.dev等文生圖模型在被明確要求"不要生成粉色大象"時(shí)。左圖提示詞:"空間站里的宇航員,不要出現(xiàn)粉色大象";右圖提示詞:"沙灘上奔跑濺起水花的狗,不要出現(xiàn)粉色大象"。
原理
傳統(tǒng)方式,人們依賴提示詞、思維鏈、RLHF或指令微調(diào)等校準(zhǔn)生成模型的輸出,但資源消耗大,可行性日益降低,還可能影響模型泛化能力。
Apple ML研究團(tuán)隊(duì)開發(fā)了模態(tài)無關(guān)的創(chuàng)新技術(shù)AcT(Activation Transport)【文獻(xiàn)1】,以微不足道的計(jì)算開銷,實(shí)現(xiàn)了精細(xì)化的模型行為控制。
AcT基于最優(yōu)傳輸理論,統(tǒng)一了之前多數(shù)激活調(diào)控方法,其研究成果被選為ICLR 2025的焦點(diǎn)報(bào)告。
“世界的不斷演進(jìn),都是冥冥中遵循最小化各種代價(jià)或成本的方式進(jìn)行,最優(yōu)輸運(yùn)某種意義上是自然演化的必然方向和準(zhǔn)則?!?/p>
清熙讀者都熟悉筆者關(guān)于生成式大模型的數(shù)理原理的框架:重整化提取出范疇,持續(xù)重整化驅(qū)動范疇相變,然后采樣做變分推理。
圖片
重整化中尺度變換的每一步,都將沿著最優(yōu)輸運(yùn)的方向進(jìn)行,也就是尺度變換前后的概率分布之間距離最近的方向,Wasserstein 距離決定的方向。
如何看待伯克利馬毅教授團(tuán)隊(duì)白盒Transformer文中,筆者也講到擴(kuò)散模型的生成時(shí)采樣:
“擴(kuò)散模型是學(xué)習(xí)到了圖像的底片,類似膠片相機(jī)的時(shí)代,生成就是洗照片,不過加了隨機(jī)采樣。
擴(kuò)散模型若用于處理文字生成將更隨機(jī),變智障的可能性不是沒有,而且計(jì)算效率預(yù)計(jì)也不會太好。
‘范疇采樣做變分推理’某種意義上說,具備因果屬性,擴(kuò)散模型是沒有的?!?nbsp;
Apple AcT放棄了隨機(jī)采樣,轉(zhuǎn)為學(xué)習(xí)源與目標(biāo)激活分布之間的最優(yōu)傳輸(OT)映射,在推理階段動態(tài)引導(dǎo)輸出朝向OT方向。
AcT不修改模型參數(shù),是推理采樣增強(qiáng)技術(shù),基于對模型運(yùn)作機(jī)制的理解,這與筆者整理的大模型數(shù)理原理完全吻合。
方法
RLHF或微調(diào)需高昂計(jì)算成本,卻無法保證精細(xì)控制的需求,因而業(yè)界轉(zhuǎn)向針對模型激活值進(jìn)行定向干預(yù),細(xì)粒度方式修正特定行為。
"激活導(dǎo)向"技術(shù)的主要優(yōu)勢在于:無需反向傳播,不修改模型參數(shù),通常也可直接融入模型權(quán)重。
此前的激活導(dǎo)向方法多采用基于向量的干預(yù)機(jī)制:提取專家神經(jīng)元的源激活值,將其朝學(xué)習(xí)目標(biāo)方向偏移,存在兩大局限:
- 激活值偏移由超參數(shù)(λ)控制,難以解釋
- 偏移后的激活值可能超出訓(xùn)練分布,引發(fā)異常行為
AcT則通過統(tǒng)籌考慮源/目標(biāo)激活值的分布特性,采用可解釋、可操作化的強(qiáng)度參數(shù)實(shí)現(xiàn)精細(xì)化控制。
核心在于通過少量示例學(xué)習(xí)源與目標(biāo)激活分布之間的OT映射,以確保傳輸后的激活值始終符合目標(biāo)分布特征,并最大程度減少對模型原生動態(tài)的影響。
考慮到多維非線性O(shè)T映射存在數(shù)據(jù)需求量大和推理延遲高兩大瓶頸,學(xué)者們通過線性獨(dú)立傳輸(Linear-ActT)做了簡化,做到LLM和文生圖多模態(tài)開箱即用:
- 基于神經(jīng)元獨(dú)立性假設(shè),為每個(gè)神經(jīng)元單獨(dú)估計(jì)一維映射
- 保留線性映射約束,降低內(nèi)存占用,保障推理速度
效果
論文做了兩項(xiàng)關(guān)鍵任務(wù)基準(zhǔn)測試:毒性和真實(shí)性,并通過困惑度(PPL)和MMLU指標(biāo)監(jiān)測對其他性能指標(biāo)的影響。
毒性,使用RealToxicityPrompts數(shù)據(jù)集評估:Gemma-2-2b、Llama-3-8b模型毒性輸出分別降低7.5倍和4.3倍。
真實(shí)性,使用 TruthfulQA 數(shù)據(jù)集:Gemma-2-2b、Llama-3-8b模型分別增加了 4.9 倍和 7.5 倍。
自然,上文的“不要生成粉色大象”問題也得到了妥善解決:
"一位老人正在斜坡上進(jìn)行滑雪運(yùn)動。畫面中不出現(xiàn){大猩猩、粉紅色大象、白熊}"。研究展示了當(dāng)明確要求排除特定概念時(shí),SDXL-Lightning模型對"大猩猩"(上)、"粉紅色大象"(中)和"白熊"(下)三個(gè)概念的有效消除效果。各列圖像展示了不同傳輸強(qiáng)度(λ)下的生成結(jié)果,最右側(cè)為不產(chǎn)生噪點(diǎn)的最高可接受強(qiáng)度閾值(線性AcT方法λ=1,ITI方法λ=4)。
文獻(xiàn)1, Controlling Language and Diffusion Models by Transporting Activations,https://arxiv.org/abs/2410.23054
本文轉(zhuǎn)載自??????清熙??,作者:王慶法
