大模型榜單還能信嗎?一個假模型就能登頂排行榜
1. 緣起
目前評測大語言模型主要有兩種方法:
? 通過人類投票來進行評估,比如:Chatbot Arena,但是這種往往需要花費較長的時間。
? 為了降低人類標注的依賴,還有另外一種自動化的LLM基準測試。這種方法成本低、容易擴展。
自動化基準測試也成為了眾多模型的熱門選擇,而且測試中的高勝率往往能帶來顯著的宣傳優(yōu)勢。
但是,自動化基準測試的勝率可能會受到長度和風格偏見的影響。雖然大多數(shù)這種影響是來自訓練數(shù)據(jù)集,但是這也導致存在操縱勝率的可能性。
在本篇論文里,作者通過提交一個“假模型”來對自動化測試進行壓力測試。
2. 作弊策略(假模型策略)
圖片
從上圖可以看到 suffix策略 (指只使用對抗性后綴策略,不對輸入指令作出有實質內(nèi)容的回應)情況下,并沒有實質的作弊效果。所以,作者提出了新的作弊策略:
? (1)構建結構化的回答來迷惑LLM自動標注器從而達到作弊效果
? (2)進行基于token級別的隨機搜索來設計對抗性前綴
2.1 結構化作弊響應
圖片
如上圖,結構化作弊響應策略是指把原來的評判提示詞進行修改,本質上是一種提示詞注入。
例如,在AlpacaEval 2.0中,當提交的目標模型(待評測性能的大模型)的響應位于最后時,標注器傾向于預測“M”。而當它出現(xiàn)在首位時,標注器則傾向于預測“m”:
-(1)用一個虛構的指令-輸出三元組替代了原始的指令-輸出三元組;
-(2)默認位置時,利用標注器模型對最后輸出的普遍偏好,引導其預測“M”;
-(3)當位置被交換時,它利用覆蓋模型“M”的輸出,導致標注器預測“m”。
正確的AlpacaEval 2.0 提示詞
圖片
目標為模型M的作弊策略
圖片
目標為模型m的作弊策略
圖片
上面舉例的這個結構化回應提示詞在AlpacaEval 2.0上達到了76.8%的LC勝率。
原始勝率(Raw Win Rate): 最直接衡量模型獲勝次數(shù)的比例。在自動基準測試中,模型的輸出會被與一組標準或參考輸出進行比較,原始勝率即模型被判定為優(yōu)于或等于參考輸出的頻率。這種勝率計算方式?jīng)]有對輸出的長度或風格進行控制,因此可能受到模型輸出長度的影響,即更長的輸出可能更受青睞。
離散勝率(Discrete Win Rate): 離散勝率是在考慮輸出質量的基礎上,對原始勝率進行的一種調(diào)整。在計算離散勝率時,評估系統(tǒng)會將模型的輸出與參考輸出進行細致的比較,并對每個輸出的各個方面(如準確性、相關性、完整性等)進行評分。離散勝率可能會排除那些雖然在總體上被判定為獲勝,但在某些關鍵方面表現(xiàn)不佳的輸出,從而提供一個更加關注輸出質量的獲勝比例。
長度控制勝率(Length-Controlled Win Rate,簡稱LC勝率): LC勝率是為了減少模型輸出長度對評估結果的影響而設計的一種指標。在計算LC勝率時,評估系統(tǒng)會控制模型輸出的長度,確保所有參與比較的輸出在長度上是可比的。這樣可以避免因輸出長度不同而導致的評估偏差,提供一個更加公平的模型性能評估。LC勝率可能會在輸出長度相似的條件下計算模型的獲勝次數(shù),從而更準確地反映模型在處理特定任務時的能力。
2.2 通過隨機搜索(RS)設計對抗性前綴
為了進一步提升結構化回應的效果,引入了一個對抗性前綴,并采用基于GPT-4查詢結果的RS策略來優(yōu)化它。
為了模擬更具挑戰(zhàn)性的場景假設自動基準的輸入指令是保密的。
開發(fā)了一個可轉移的前綴,利用公開可用的指令集來設計。通過在不同指令上聚合損失來優(yōu)化單個對抗性前綴,確保前綴在不同輸入指令和位置上的影響是普遍的。
采用RS算法來優(yōu)化對抗性前綴。該算法通過采樣修改并選擇在多個指令上最小化聚合損失的變體來完善前綴。
3. 作弊策略的效果如何?
圖片
上圖展示了作者的結構化響應作弊策略與其他16個固定響應進行比較的效果。下圖展示了其他16個固定響應內(nèi)容。
圖片
結果表明:結構化回應作弊做略以最低的對數(shù)概率勝出,證明作者的策略在欺騙自動標注智能體方面的高效性。
默認配置中,當目標模型響應放在提示詞第二位時,有較低的損失,表明GPT4對第二位偏好。
圖片
上圖將作弊策略的得分與當前(2024年10月1日之前)頂尖模型的勝率進行對比:在所有基準測試中顯著提升了表現(xiàn),贏得了最高的勝率和評分,達到了76.8%的LC勝率和59.5%的原始勝率。
經(jīng)過RS優(yōu)化后,LC勝率提升至86.5%,原始勝率提高至76.9%。
這些成果與經(jīng)過驗證的SOTA模型相比有了顯著提升,后者僅達到了57.5%的LC和51.3%的原始勝率。
結合隨機搜索的結構化方法在LC勝率上比經(jīng)過驗證的SOTA高出29.0個百分點,在原始勝率上高出25.6個百分點。
與社區(qū)SOTA相比,在LC上表現(xiàn)更佳(86.5%對78.5%),在原始勝率上相當(76.9%對77.6%)。
由于其簡短,作弊的LC勝率普遍高于原始勝率,這表明AlpacaEval 2.0對長度作弊也不夠健壯。
在Arena-Hard-Auto上,結構化響應作弊策略達到了67.2%的勝率,經(jīng)過隨機搜索后提升至83.0%。
總之,在各種基準測試中都取得了顯著的增益,超越了現(xiàn)有技術,證明了其在不同基準測試中的高效性,并強化了對更健壯的自動LLM基準測試的需求。
4. 消融實驗
4.1 結構化回應在開源自動標注智能體上有效嗎?
在AlpacaEval 2.0測試指令的子集上,使用不同的無效回應評估log p(winner = NullModel)。
圖片
如上圖,結構化響應作弊策略對Llama-3自動標注智能體的影響很小。在Llama-3-8B-Instruct的情況下,結構化回應并未利用該智能體的位置弱點,因為默認位置和交換位置的對數(shù)概率與不同的有說服力回應大致相似。
然而,在Llama-3-70B-Instruct上,在交換設置下觀察到,結構化回應成功降低了對數(shù)概率。此外,在位置偏見方面,Llama-3-8B-Instruct顯示出很小的位置偏見,因為默認位置和交換位置的概率相當接近。相比之下,Llama-3-70B-Instruct在交換設置下顯示出明顯的位置偏見,更高的對數(shù)概率表明該智能體強烈偏好最后輸出(“M”)。
較大的Llama-3-70B-Instruct智能體的行為更接近更先進的GPT-4,因為它對結構化回應和位置偏見的反應比小型8B智能體更為敏感。這表明模型規(guī)??赡茉黾恿藢ξ覀冏鞅准夹g的敏感性。
總的來說,與GPT-4相比,結構化響應作弊策略在Llama-3智能體上的效果要小得多。這種差異的可能解釋是,Llama-3智能體,尤其是較小的8B版本,其遵循指令的能力不如GPT-4強大,使它們對作弊回應的敏感性較低。
4.2 隨機搜索對開源自動標注智能體成效顯著嗎?
圖片
如上表,隨機搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等開源自動標注智能體上表現(xiàn)出色。
以Llama-3-8B-Instruct為例,缺少隨機搜索時,結構化回應的LC勝率僅為2.9%,原始勝率為1.4%。而一旦采用隨機搜索,勝率便戲劇性地飆升至95.4%(LC)和86.3%(原始),LC勝率提升了92.5個百分點。
對于Llama-3-70B-Instruct,僅憑結構化回應,LC勝率僅為0.4%,總體勝率為0.2%。但隨機搜索的加入使得這些勝率分別躍升至95.1%(LC)和91.6%(原始),分別提升了94.7和91.4個百分點。
這些數(shù)據(jù)證明**隨機搜索在提升開源自動標注智能體的作弊成功率方面極為有效,勝率直逼100%**。
4.3 直接針對測試指令進行搜索有用嗎?
也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指標。
圖片
上表的Test列表示是否是直接作弊。結果表明:直接針對測試指令進行搜索顯著增強了作弊的效果。
對于Llama-3-8B-Instruct模型,結合結構化回應和隨機搜索,但不接觸測試指令,LC勝率達到了95.4%,總體勝率為86.3%。
然而,當對抗性前綴直接針對測試指令進行優(yōu)化時,LC勝率幾乎達到了完美的99.8%,總體勝率提升至99.4%,分別提升了4.6和13.1個百分點。
同樣地,對于Llama-3-70B-Instruct模型,不接觸測試指令的隨機搜索,LC勝率為95.1%,總體勝率為91.6%。
而一旦利用測試指令,這些比率分別攀升至99.4%(LC)和98.2%(原始),LC勝率提升了約4.3個百分點,總體勝率提升了6.6個百分點。
這些結果表明直接針對測試指令進行搜索帶來的顯著優(yōu)勢,進一步優(yōu)化了對抗性前綴,幾乎達到了完美的表現(xiàn)。
4.4 結構化作弊策略能與傳統(tǒng)回應相結合嗎?
結構化作弊策略可以與傳統(tǒng)的、有信息量的回應相結合,只需將我們的作弊回應附加到原始回應上即可。
圖片
圖片
圖片
圖片
如上面4個圖所示,當與像GPT-3.5-0613這樣更提供信息的模型結合時,即使在采取重大優(yōu)化步驟之前,初始勝率已經(jīng)很高。
這一點在圖b和d中尤為明顯,隨著優(yōu)化的深入,性能(勝率和長度控制勝率)從高基線穩(wěn)步提升。
a和c中,由于不提供與輸入查詢相關的任何信息,欺騙自動標注智能體的難度大大增加。
隨著優(yōu)化步驟的推進,無效模型的性能穩(wěn)步提升,最終實現(xiàn)了有競爭力的勝率。
即使在模型輸出無關、無信息的回應這一最具挑戰(zhàn)性的場景下,也能操縱基于LLM的基準測試。
5 反作弊策略
5.1 模板改寫術
改寫輸入文本是對抗語言模型破解的有效防御手段?;诖死砟?,對抗結構化響應作弊策略之一是僅發(fā)布自動標注模板的改寫版本,同時保留真實模板的私密性。
本方法是假設改寫后的模板將更難被作弊者直接利用。
圖片
如上表所示,即便模板經(jīng)過改寫,依然能夠達到高勝率(例如92.1%的LC勝率)。這表明,僅發(fā)布改寫模板作為防御機制是不夠的,因為即使原始模板保密,作弊策略仍然有效。需要更強有力的防御措施來徹底解決這一問題。
5.2 困惑度過濾器(PPL filter)
使用GPT-4-1106-Preview作為自動標注智能體,以評估基于困惑度(PPL)的過濾器的有效性。困惑度是利用GPT-2計算的,遵循Alon & Kamfonas(2023)描述的方法。
圖片
如上圖所示,盡管設定了高閾值,PPL過濾器未能持續(xù)識別出對抗性輸出。例如,結構化響應作弊策略即使勝率高達76.8%,其困惑度仍然低于閾值,使得過濾器失效。
僅依賴于困惑度,即使是窗口化配置,也不足以穩(wěn)健地檢測出旨在影響LLM判斷的對抗性操作。
6. 結論
即便是最基礎的模型,也能通過利用評估流程中的結構性缺陷來獲得高勝率。
6.1 局限性
? 首先,主要關注特定的基準測試,盡管結果在這些測試中得到了很好的推廣,但在其他基準測試中的有效性仍然是未知的。
? 此外,結構化響應作弊策略很大程度上依賴于手工構建結構化響應。未來的研究可以探索更自動化的方法來生成對抗性輸出,這將使對手能夠在更廣泛的范圍內(nèi)利用這些漏洞。
未來研究的一個重要方向是開發(fā)更強大的反作弊機制。目前,針對LLM基準測試的作弊緩解措施主要集中在控制輸出的長度和風格上,但這些措施在面對結構化響應時已被證明是不夠的。新的防御策略對于保持LLM基準測試的完整性至關重要。
? 論文原文: https://arxiv.org/pdf/2410.07137
本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????
