只因一個(gè)“:”,大模型全軍覆沒(méi)
一個(gè)冒號(hào),竟然讓大模型集體翻車?
明明應(yīng)該被攔下來(lái)的虛假回答,結(jié)果LLM通通開(kāi)綠燈。
該發(fā)現(xiàn)來(lái)自一篇名叫“一個(gè)token就能欺騙LLM”的論文。
不僅如此,除了冒號(hào)、空格這類符號(hào),還有諸如此類的推理開(kāi)頭語(yǔ):“Thought process:”、“解”,也是輕松通過(guò)。
好家伙,原來(lái)一個(gè)“解”字,數(shù)學(xué)考試能得分,LLM也會(huì)被騙到……
而且這一波是沖著所有通用LLM來(lái)的,GPT-4o、Claude-4、LLaMA3-70B通通被斬于馬下。
那咋辦?bug有了,來(lái)自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)的研究人員就開(kāi)始哼哧哼哧解bug。
用增強(qiáng)數(shù)據(jù)集訓(xùn)練出一個(gè)靠譜的“評(píng)委”模型Master-RM,被騙概率直接無(wú)限接近0,正常評(píng)估能力還能不受影響。
具體什么情況,咱且接著往下看。
一把能欺騙LLM的“萬(wàn)能鑰匙”
近來(lái),利用LLM充當(dāng)評(píng)判工具,在帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)中評(píng)估答案質(zhì)量的場(chǎng)景愈加普遍。
LLM評(píng)判模型通過(guò)比對(duì)生成的候選答案與參考答案,輸出二元獎(jiǎng)勵(lì)信號(hào),從而指導(dǎo)策略模型更新。
然而研究發(fā)現(xiàn),LLM“崩潰”了?
響應(yīng)長(zhǎng)度不僅銳減至30 tokens以下,一些意義不大的語(yǔ)句或文字符號(hào),卻從LLM處騙得了假陽(yáng)性獎(jiǎng)勵(lì),也就是打開(kāi)LLM后門(mén)的一把“萬(wàn)能鑰匙”。
這把能誘導(dǎo)LLM評(píng)判模型產(chǎn)生假陽(yáng)性判斷的“萬(wàn)能鑰匙”可分為兩類:
- 非文字符號(hào):如空格、“.”、“,”、“:”。
- 推理開(kāi)頭語(yǔ):如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開(kāi)始但并沒(méi)有實(shí)質(zhì)內(nèi)容。
同時(shí)為了進(jìn)一步研究這種“獎(jiǎng)勵(lì)模型欺騙”現(xiàn)象是否存在普遍性,研究人員在多數(shù)據(jù)集、提示詞格式上對(duì)各種LLM均進(jìn)行了系統(tǒng)性評(píng)估。
實(shí)驗(yàn)分別選取兩類模型,分別是專用生成式獎(jiǎng)勵(lì)模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)。
專用模型使用默認(rèn)提示,而通用LLM采用標(biāo)準(zhǔn)化提示模板。
然后選擇10種可觸發(fā)假陽(yáng)性的對(duì)抗性響應(yīng),包括非文字符號(hào)(如空格、“:”)和多語(yǔ)言推理開(kāi)頭語(yǔ)(如英文的 “Thought process:”、中文的“解”、日語(yǔ)的“かいせつ”)。
另外為了測(cè)試模型跨領(lǐng)域的穩(wěn)健性,實(shí)驗(yàn)涵蓋通用推理和數(shù)學(xué)推理的共5個(gè)推理基準(zhǔn)。
實(shí)驗(yàn)結(jié)果表明,所有測(cè)試模型無(wú)一幸免,全部都會(huì)觸發(fā)假陽(yáng)性響應(yīng)。
例如GPT-4o對(duì)符號(hào) “:” 的假陽(yáng)性率(FPR)可達(dá)35%,LLaMA3-70B對(duì) “Thought process:” 的FPR甚至高達(dá)60%-90%,專有模型General-Verifier在MATH數(shù)據(jù)集上對(duì)空格的FPR也達(dá)66.8%。
另外,不同語(yǔ)言也不會(huì)影響這種欺騙現(xiàn)象的出現(xiàn),無(wú)論是中文還是日語(yǔ),都同樣能夠誘發(fā)高FPR,該漏洞具有跨語(yǔ)言的普遍性。
研究人員還分析了0.5B至72B的Qwen2.5-Instruct系列模型,發(fā)現(xiàn):
- 0.5B模型:依賴字面匹配,F(xiàn)PR低但與GPT-4o一致性差;
- 1.5B-3B模型:能檢測(cè)語(yǔ)義相似性但缺乏精細(xì)驗(yàn)證,F(xiàn)PR驟升;
- 7B-14B模型:平衡驗(yàn)證能力與謹(jǐn)慎性,F(xiàn)PR最低且一致性高;
- 32B-72B模型:因?yàn)楦鼉A向于自己解題而非對(duì)比響應(yīng)與參考答案,F(xiàn)PR再次上升。
所以模型的大小與FPR之間并非完全的單調(diào)關(guān)系,不是模型越大就越不容易被騙。
如果想通過(guò)一些推理時(shí)的技巧來(lái)減少這種漏洞,效果也不太穩(wěn)定,還得看具體模型和應(yīng)用場(chǎng)景。
此外,研究人員還發(fā)現(xiàn),這種bug還能無(wú)限繁殖……
只需要基于all-MiniLM-L6-v2編碼器進(jìn)行嵌入相似度搜索,從大規(guī)模語(yǔ)料中自動(dòng)生成與已知 “萬(wàn)能鑰匙” 相似的新對(duì)抗性響應(yīng),新的“萬(wàn)能鑰匙”就能同樣產(chǎn)生出高水平FPR。
實(shí)驗(yàn)最終說(shuō)明生成式獎(jiǎng)勵(lì)模型其實(shí)存在一個(gè)相當(dāng)關(guān)鍵的核心機(jī)制漏洞:原本用于過(guò)濾無(wú)效或錯(cuò)誤答案的驗(yàn)證器,容易被無(wú)關(guān)緊要的表面內(nèi)容操縱,從而產(chǎn)生假陽(yáng)性結(jié)果。
這對(duì)任何依賴驗(yàn)證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。
一個(gè)不會(huì)被騙的“評(píng)委”模型
為了緩解“萬(wàn)能鑰匙”的影響,研究人員專門(mén)構(gòu)建了新的“評(píng)委”模型Master-RM(Master Reward Model)。
首先從原始的16萬(wàn)條訓(xùn)練數(shù)據(jù)中隨機(jī)采樣2萬(wàn)條,用GPT-4o-mini生成帶推理開(kāi)頭語(yǔ)句的響應(yīng),但僅保留無(wú)實(shí)質(zhì)內(nèi)容的第一句話,并標(biāo)記為“錯(cuò)誤”。
將這2萬(wàn)條對(duì)抗樣本與原始數(shù)據(jù)結(jié)合,構(gòu)成增強(qiáng)訓(xùn)練數(shù)據(jù)集。
然后基于Qwen2.5-7B-Instruct進(jìn)行有監(jiān)督微調(diào)(SFT),保證最小化交叉熵?fù)p失,讓模型學(xué)習(xí)如何區(qū)分有效響應(yīng)與表面欺騙性響應(yīng)。
將Master-RM放入相同條件下實(shí)驗(yàn)再次驗(yàn)證,發(fā)現(xiàn)此時(shí)在跨數(shù)據(jù)集測(cè)試中,模型對(duì)所有 “萬(wàn)能鑰匙” 的假陽(yáng)性率接近0%(甚至完全為零),且魯棒性可泛化到未見(jiàn)過(guò)的數(shù)據(jù)集和欺騙攻擊中。
同時(shí)模型保持與GPT-4o的評(píng)估一致性可達(dá)0.96,驗(yàn)證了其作為通用領(lǐng)域生成式獎(jiǎng)勵(lì)模型的有效性。
所以LLM作為“評(píng)委”模型其實(shí)相當(dāng)脆弱,小小一個(gè)冒號(hào)就可能讓它出錯(cuò)。
因此有網(wǎng)友表示,該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性,而RLHF也需要嚴(yán)格對(duì)抗評(píng)估,構(gòu)建更為可靠的LLM工作流程。
作者本人也現(xiàn)身評(píng)論區(qū),他認(rèn)為,生成式獎(jiǎng)勵(lì)模型容易受到虛假獎(jiǎng)勵(lì)攻擊,如何更好地避免類似情況發(fā)生,將是未來(lái)的研究方向。
全華人團(tuán)隊(duì)
最后來(lái)看下研究團(tuán)隊(duì),分別來(lái)自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)。
值得一提的是,其中看到了大佬俞棟的身影。
他被稱為騰訊AI Lab三劍客之一,目前是騰訊云人工智能首席科學(xué)家兼副總經(jīng)理,之前曾是微軟首席研究員,2017年加入騰訊。
他在深度學(xué)習(xí)的自動(dòng)語(yǔ)音識(shí)別和處理領(lǐng)域深耕多年,共發(fā)表兩本專著和400多篇論文,并獲得4年的IEEE信號(hào)處理學(xué)會(huì)最佳論文獎(jiǎng)、2021年NAACL最佳長(zhǎng)論文獎(jiǎng)等。
此外,論文一作Yulai Zhao本科畢業(yè)于清華大學(xué),目前在普林斯頓大學(xué)攻讀機(jī)器學(xué)習(xí)的博士學(xué)位,另外他還在騰訊AI Lab擔(dān)任研究人員。
研究方向主要是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法探索現(xiàn)代強(qiáng)化學(xué)習(xí)和擴(kuò)散模型,另外他的一篇有關(guān)讓擴(kuò)散模型在生成蛋白質(zhì)和DNA序列表現(xiàn)更優(yōu)的論文,最近剛剛被ICML 2025錄用。
共同一作Haolin Liu則是弗吉尼亞大學(xué)計(jì)算機(jī)科學(xué)系的博士生,師從Chen-Yu Wei教授。
之前在上??萍即髮W(xué)就讀本科,先學(xué)習(xí)了1.5年化學(xué),后才轉(zhuǎn)為計(jì)算機(jī)科學(xué),主要研究以強(qiáng)化學(xué)習(xí)為中心,致力于推進(jìn)RL在LLM后訓(xùn)練中的應(yīng)用。
Dian Yu目前是騰訊AI Lab的一名NLP研究員,曾在倫斯勒理工學(xué)院取得博士學(xué)位,目前研究方向包含自然語(yǔ)言處理、信息抽取、機(jī)器閱讀理解和對(duì)話理解。
另外,作者里還有普林斯頓大學(xué)電子工程專業(yè)的貢三元教授,其研究領(lǐng)域包括機(jī)器學(xué)習(xí)、系統(tǒng)建模與識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等,發(fā)表過(guò)400余篇論文及專著。
因其對(duì)VLSI信號(hào)處理和神經(jīng)網(wǎng)絡(luò)的貢獻(xiàn),被表彰為IEEE終生會(huì)士,還獲得過(guò)IEEE信號(hào)處理學(xué)會(huì)最佳論文獎(jiǎng)、IEEE信號(hào)處理學(xué)會(huì)技術(shù)成就獎(jiǎng)等。
Haitao Mi博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,曾在支付寶中擔(dān)任首席研究員。
目前是騰訊AI Lab的首席研究員,隸屬于旗下的語(yǔ)言智能研究小組,主要研究方向是擴(kuò)展大型基礎(chǔ)模型和下一代智能體系統(tǒng)。
論文鏈接:https://arxiv.org/abs/2507.08794
數(shù)據(jù)集鏈接:https://huggingface.co/datasets/sarosavo/Master-RM