Self-Play Critic:以“對抗博弈”創(chuàng)新大語言模型推理評估

大家好,我是肆〇柒。今天,我想和大家聊一項(xiàng)創(chuàng)新的評估思路——Self-Play Critic(SPC)。大型語言模型(LLM)目前已成為我們生活和工作中不可或缺的工具。它們能夠處理各種復(fù)雜的任務(wù),從寫作到翻譯,再到解決數(shù)學(xué)難題。然而,隨著這些模型的推理過程變得越來越復(fù)雜,如何確保它們的每一步推理都是可靠的?這個(gè)推理過程的可靠性評估,對于提升 LLM 的整體性能來說,至關(guān)重要。
現(xiàn)有的 CoT 訓(xùn)練方法,比如監(jiān)督微調(diào)(SFT)和從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF),雖然在提升模型推理能力方面取得了一定成果,但獲取高質(zhì)量步驟級監(jiān)督數(shù)據(jù)的困難,以及模型快速更新迭代導(dǎo)致的標(biāo)注過時(shí)等問題,都讓現(xiàn)有的驗(yàn)證模型面臨巨大挑戰(zhàn)。
最近,我讀到了一篇論文《SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning》,里面講到了一種新方法——SPC。這個(gè)方法,通過自我對抗游戲機(jī)制,讓評判器能夠自我進(jìn)化,無需依賴大量手動(dòng)標(biāo)注數(shù)據(jù),為 LLM 推理評估提供了全新的思路。在這個(gè)機(jī)制中,誤導(dǎo)生成器會創(chuàng)建包含細(xì)微錯(cuò)誤的步驟,以此來挑戰(zhàn)評判器,而評判器需要準(zhǔn)確區(qū)分正確和錯(cuò)誤的步驟,并提供批判。通過這種持續(xù)的對抗過程,SPC 不斷為評判器生成正負(fù)樣本,促使模型不斷進(jìn)化,從而提升其評估能力。

對抗游戲生成強(qiáng)化訓(xùn)練樣本
上圖就展示了SPC的核心思想。通過對抗游戲,SPC能夠持續(xù)生成用于強(qiáng)化訓(xùn)練評判器的樣本。誤導(dǎo)生成器負(fù)責(zé)創(chuàng)建細(xì)微錯(cuò)誤的步驟來挑戰(zhàn)評判器,而評判器則需要準(zhǔn)確區(qū)分正確和錯(cuò)誤的步驟并提供批判。借助這種對抗優(yōu)化機(jī)制,兩個(gè)模型能夠相互學(xué)習(xí),不斷提高自身能力,類似于人類通過棋類游戲提升技能的過程。
下面我們一起來看看這篇論文講了什么。
研究背景與動(dòng)機(jī)
LLM 復(fù)雜任務(wù)處理與 CoT 推理過程的緊密聯(lián)系
大型語言模型(LLM)在處理復(fù)雜任務(wù)時(shí),往往依賴于鏈?zhǔn)剿伎迹–oT)推理過程。這種推理方式將復(fù)雜問題分解為多個(gè)步驟逐步解決,使得推理過程的可靠性直接關(guān)系到最終答案的準(zhǔn)確性。例如,在解決數(shù)學(xué)應(yīng)用題時(shí),模型需要通過多步推理,包括理解題目、規(guī)劃解題步驟、逐步計(jì)算等,每一步的準(zhǔn)確性都會影響最終結(jié)果。LLM 通過 CoT 推理過程,能夠在諸如數(shù)學(xué)求解、邏輯推理等多種復(fù)雜任務(wù)中展現(xiàn)出色的性能。但隨著 LLM 生成的 CoT 日趨復(fù)雜和多樣化,驗(yàn)證推理過程的可靠性、分析潛在錯(cuò)誤并指導(dǎo)測試時(shí)搜索以改進(jìn)推理過程變得尤為重要。近期研究發(fā)現(xiàn),盡管一些先進(jìn)的 LLM 擅長進(jìn)行深度思考并生成長 CoT,但其自我批判的有效比例仍然很低,且存在對自身推理過程自我批判的偏差。因此,開發(fā)一個(gè)能夠評估各種 LLM 推理步驟的簡單外部評判器,提供步驟級批判顯得尤為必要。
現(xiàn)有 CoT 訓(xùn)練方法的局限性及對可靠性評估的需求
現(xiàn)有的 CoT 訓(xùn)練方法,如監(jiān)督微調(diào)(SFT)、從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)以及自我強(qiáng)化學(xué)習(xí)等,在提升模型推理能力方面取得了顯著成果。然而,這些方法在獲取高質(zhì)量步驟級監(jiān)督數(shù)據(jù)方面面臨很多困難。一方面,提取最終答案以確定解決方案的正確性并自動(dòng)收集訓(xùn)練數(shù)據(jù)相對簡單,但確定推理步驟的正確性并獲取用于訓(xùn)練過程驗(yàn)證器的高質(zhì)量步驟級標(biāo)注數(shù)據(jù)則要困難得多。另一方面,LLM 的快速更新迭代使得針對特定 LLM 輸出的人工專家標(biāo)注可能因分布差異而不適用于最新 LLM。再有,僅限于步驟正確性標(biāo)注的數(shù)據(jù)集限制了評判模型的訓(xùn)練,使其無法提供實(shí)質(zhì)性的反饋,而僅僅淪為一個(gè)評分機(jī)制。
SPC 方法論
SPC 框架概述
SPC(Self-Play Critic)是一種新穎的方法,它的核心思想是讓兩個(gè)模型:“誤導(dǎo)生成器”(sneaky generator)和“評判器”(critic),相互對抗、共同進(jìn)化。我們可以把這想象成一場智力游戲。誤導(dǎo)生成器就像是一個(gè)搗蛋鬼,它的任務(wù)是故意制造錯(cuò)誤,而且這些錯(cuò)誤還要盡量隱蔽,能夠騙過評判器。評判器則像是一個(gè)偵探,它的任務(wù)是仔細(xì)分析推理步驟,判斷這些步驟是否正確,找出其中的錯(cuò)誤。
這兩個(gè)模型可以分別由兩個(gè)相同的基模型微調(diào)而來。誤導(dǎo)生成器通過學(xué)習(xí)如何將正確的推理步驟轉(zhuǎn)換為錯(cuò)誤的步驟,來制造 “陷阱”。而評判器則通過學(xué)習(xí)如何識別這些陷阱,來提升自己的評估能力。它們之間的對抗游戲,就像是一個(gè)永無止境的 “貓鼠游戲”。誤導(dǎo)生成器不斷嘗試制造更難被發(fā)現(xiàn)的錯(cuò)誤,評判器則不斷努力提升自己的識別能力。通過這種方式,評判器的評估能力逐漸提升,最終能夠準(zhǔn)確地評估 LLM 的推理步驟。
舉個(gè)例子,在解決一個(gè)數(shù)學(xué)問題時(shí),誤導(dǎo)生成器可能會故意在某個(gè)計(jì)算步驟中引入一個(gè)小小的錯(cuò)誤,比如將一個(gè)簡單的加法運(yùn)算結(jié)果寫錯(cuò)。評判器接收到這個(gè)錯(cuò)誤步驟后,會仔細(xì)分析這個(gè)步驟,判斷它是否正確。如果評判器成功識破了這個(gè)錯(cuò)誤,它就會獲得獎(jiǎng)勵(lì);而誤導(dǎo)生成器則會因?yàn)?“誤導(dǎo)” 不夠而受到懲罰。相反,如果誤導(dǎo)生成器成功騙過了評判器,誤導(dǎo)生成器就會獲得獎(jiǎng)勵(lì),評判器則會受到懲罰。就這樣,通過不斷地對抗和學(xué)習(xí),兩個(gè)模型都在不斷地進(jìn)步。

SPC 框架
SPC 框架中,部分解決方案和正確步驟輸入到誤導(dǎo)生成器中,生成錯(cuò)誤步驟后由評判器進(jìn)行評判。評判器成功識別錯(cuò)誤獲得正向獎(jiǎng)勵(lì),反之則受到懲罰。這種機(jī)制推動(dòng)模型不斷進(jìn)化。
誤導(dǎo)生成器的初始化與優(yōu)化
誤導(dǎo)生成器的初始化過程就像是給一個(gè)新手搗蛋鬼傳授一些基本技能。研究者首先使用了一個(gè)名為 Qwen2.5-7B-Instruct 的模型,并通過監(jiān)督微調(diào)(SFT)的方式,讓這個(gè)模型具備了一些基本的錯(cuò)誤生成能力。他們利用了一個(gè)名為 PRM800K 的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了大量正確和錯(cuò)誤的推理步驟對。

然而,只有錯(cuò)誤的步驟還不夠,這些錯(cuò)誤必須能夠真正影響問題解決的成功率,才能算作是有效的錯(cuò)誤。因此,在驗(yàn)證誤導(dǎo)生成器生成的錯(cuò)誤步驟時(shí),研究者采用了一種自動(dòng)化驗(yàn)證方法。他們讓一個(gè)開源的 LLM 模型分別從正確的步驟和錯(cuò)誤的步驟開始,完成整個(gè)問題的解決過程。如果從正確步驟開始的成功率明顯高于從錯(cuò)誤步驟開始的成功率,那么就認(rèn)為這個(gè)錯(cuò)誤步驟是有效的。只有通過這種驗(yàn)證的錯(cuò)誤步驟,才會被用來訓(xùn)練評判器。
步驟評判器的初始化
與誤導(dǎo)生成器相對的,是步驟評判器。評判器的任務(wù)是識別推理步驟的正確性,這就需要它具備強(qiáng)大的分析和判斷能力。為了實(shí)現(xiàn)這個(gè)目標(biāo),研究者采用了 DeepSeek-R1-Distill-Qwen-7B 模型,并結(jié)合了其他模型的優(yōu)勢,將其打造成一個(gè)既能深入推理又能簡潔明了給出評判的 “評判團(tuán)隊(duì)”。
他們首先讓 DeepSeek-R1-Distill-Qwen-7B 模型對數(shù)學(xué)問題的解答步驟進(jìn)行初步評判,生成一篇長篇評判。然而,這些評判往往過于冗長,而且包含很多不必要的內(nèi)容。為了使評判更加簡潔明了,研究者利用 GPT-4 模型對這些長篇評判進(jìn)行改寫,生成簡潔標(biāo)準(zhǔn)化的評判。
例如,對于一個(gè)數(shù)學(xué)問題的解答步驟,DeepSeek-R1-Distill-Qwen-7B 模型可能生成如下評判:

然后,GPT-4 模型將其改寫為:

這樣,評判器就具備了簡潔明了給出評判的能力。在訓(xùn)練數(shù)據(jù)的準(zhǔn)備過程中,研究者將正確和錯(cuò)誤的步驟以 1:1 的比例混合,確保評判器在訓(xùn)練過程中能夠均衡地接觸到各種類型的步驟,從而具備全面的評估能力。
對抗游戲機(jī)制
對抗游戲機(jī)制是 SPC 框架的核心部分,它就像是兩個(gè)模型之間的 “智力競賽”。在每次對抗游戲迭代中,首先由不同模型家族的 LLM 解決器為每個(gè)問題生成原始步驟解決方案,這就像是不同的選手先給出自己的答案。然后,從這些解決方案中隨機(jī)選取單步進(jìn)行誤導(dǎo)轉(zhuǎn)換,這就像是給這些答案設(shè)置一些 “陷阱”。

這種對抗目標(biāo),推動(dòng)了模型性能的持續(xù)提升。就像選手們在不斷的對決中不斷提高自己的水平一樣,誤導(dǎo)生成器和評判器也在不斷地對抗和學(xué)習(xí)中進(jìn)步。通過這種方式,評判器能夠逐漸提升自己的評估能力,最終能夠準(zhǔn)確地評估 LLM 的推理步驟。
基于強(qiáng)化學(xué)習(xí)的進(jìn)化
在每次對抗游戲結(jié)束后,誤導(dǎo)生成器和評判器都會根據(jù)游戲結(jié)果進(jìn)行自我進(jìn)化。這個(gè)過程就像是對模型進(jìn)行 “專項(xiàng)訓(xùn)練”。研究者采用離線強(qiáng)化學(xué)習(xí)的方式,基于對抗游戲生成的正負(fù)樣本,對評判器和誤導(dǎo)生成器分別進(jìn)行訓(xùn)練。
在每次迭代中,通過對抗游戲獲得正負(fù)樣本后,研究者采用離線強(qiáng)化學(xué)習(xí)分別對評判器和誤導(dǎo)生成器進(jìn)行訓(xùn)練,以實(shí)現(xiàn)基于游戲結(jié)果的自我改進(jìn)。他們采用以下優(yōu)化目標(biāo)來實(shí)現(xiàn)高效穩(wěn)定的 RL 訓(xùn)練:

對于誤導(dǎo)生成器,考慮需要其生成實(shí)際錯(cuò)誤步驟,研究者將未能影響問題解決成功率的誤導(dǎo)步驟視為負(fù)樣本。此外,成功影響 LLM 解決率但未能欺騙評判器的誤導(dǎo)步驟也被視為負(fù)樣本,而既能影響解決率又能欺騙評判器的誤導(dǎo)步驟則被視為正樣本。因此,訓(xùn)練誤導(dǎo)生成器的數(shù)據(jù)包括正樣本和兩類負(fù)樣本,比例為 1:1:1。
對于評判器,研究者將正確解決方案中的正確步驟與誤導(dǎo)生成器生成的錯(cuò)誤步驟混合,以供評判器預(yù)測。成功預(yù)測的樣本獲得正獎(jiǎng)勵(lì),錯(cuò)誤預(yù)測的樣本獲得負(fù)獎(jiǎng)勵(lì)。最終,正負(fù)樣本各占總樣本的一半。
基于對抗游戲,研究者采用迭代訓(xùn)練來實(shí)現(xiàn)兩個(gè)角色的持續(xù)進(jìn)化。在每次迭代中,新更新的策略參與對抗游戲以進(jìn)一步生成數(shù)據(jù),將初始策略更新為進(jìn)化版本。有趣的是,研究者發(fā)現(xiàn)更平衡的對抗游戲有助于模型的自我進(jìn)化。例如,初始誤導(dǎo)生成器 S0 比初始評判器 C0 弱,導(dǎo)致勝率不平衡。通過采用非對稱進(jìn)化策略,讓更強(qiáng)的 S1 與 C0 進(jìn)行更平衡的游戲以生成第二輪數(shù)據(jù),從而使第二輪訓(xùn)練的評判器 C2 進(jìn)一步提升性能。
實(shí)驗(yàn)設(shè)計(jì)與評估
評估基準(zhǔn)與指標(biāo)
為了全面評估 SPC 的性能,研究者精心設(shè)計(jì)了一系列實(shí)驗(yàn),并選擇了三個(gè)具有代表性的基準(zhǔn)數(shù)據(jù)集:PRM800K、ProcessBench 和 DeltaBench。
PRM800K 數(shù)據(jù)集是由 OpenAI 收集的,包含了 800,000 個(gè)由 GPT 生成的推理步驟,這些步驟都經(jīng)過了人工標(biāo)注,明確指出了每一步的正確性。這個(gè)數(shù)據(jù)集的規(guī)模龐大,涵蓋了多種類型的推理問題,是一個(gè)非常有價(jià)值的訓(xùn)練和評估資源。
ProcessBench 數(shù)據(jù)集則更具挑戰(zhàn)性,它包含了來自 12 個(gè)不同 LLM 的 3,400 個(gè)數(shù)學(xué)問題解答步驟,這些步驟的多樣性非常高。與 PRM800K 不同,ProcessBench 的數(shù)據(jù)不僅包括正確步驟,還涵蓋了各種錯(cuò)誤類型,這使得它能夠更全面地評估模型在面對不同風(fēng)格和錯(cuò)誤類型的推理步驟時(shí)的表現(xiàn)。
DeltaBench 數(shù)據(jù)集則專注于評估長 CoT 的推理過程。長 CoT 推理是指在解決復(fù)雜問題時(shí),模型需要生成較長的推理鏈條。這個(gè)數(shù)據(jù)集的難點(diǎn)在于,它要求模型不僅能夠識別單個(gè)步驟的正確性,還要能夠理解整個(gè)推理鏈條的連貫性和邏輯性。因此,DeltaBench 對模型的泛化能力和深度推理能力提出了更高的要求。
在評估指標(biāo)方面,研究者選擇了準(zhǔn)確率、召回率、平均值和調(diào)和平均值等指標(biāo)。準(zhǔn)確率衡量的是模型正確預(yù)測的比例,它能夠直觀地反映模型的性能。召回率則衡量模型識別所有正確或錯(cuò)誤步驟的能力,它能夠確保模型不會遺漏重要的錯(cuò)誤。平均值和調(diào)和平均值則綜合考慮了準(zhǔn)確率和召回率的平衡,使得評估結(jié)果更加全面和客觀。
基線模型對比
為了驗(yàn)證 SPC 的優(yōu)勢,研究者將它與多種基線模型進(jìn)行了對比。這些基線模型包括過程獎(jiǎng)勵(lì)模型(PRM)和提示大型語言模型作為評判模型。
過程獎(jiǎng)勵(lì)模型(PRM)是一種常見的推理過程評估方法,它通過為每一步驟分配分?jǐn)?shù)來評估推理過程。例如,Math-Shepherd 和 Qwen2.5-Math-7B-PRM800K 都是基于 PRM 的模型,它們通過學(xué)習(xí)如何為每一步驟分配合理的分?jǐn)?shù),從而評估整個(gè)推理過程的質(zhì)量。
提示大型語言模型作為評判模型則利用了模型的生成能力。這些模型通過生成對推理步驟的評判文本,來判斷步驟的正確性。例如,Llama、Qwen、R1 和 GPT-4 等模型都可以通過提示的方式,生成對推理步驟的詳細(xì)評判。
通過與這些基線模型的對比,研究者發(fā)現(xiàn) SPC 在推理過程評判任務(wù)中具有顯著的優(yōu)勢。SPC 不僅能夠更準(zhǔn)確地識別推理步驟的正確性,還能夠更好地適應(yīng)不同類型的推理問題和錯(cuò)誤類型。這表明,SPC 的對抗游戲機(jī)制和強(qiáng)化學(xué)習(xí)進(jìn)化策略,確實(shí)能夠提升模型的性能和泛化能力。
主要實(shí)驗(yàn)結(jié)果
在三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果非常令人鼓舞。在 ProcessBench 數(shù)據(jù)集上,SPC 的平均準(zhǔn)確率從 70.8% 提升至 77.7%。這個(gè)提升幅度表明,SPC 能夠在面對多種不同 LLM 生成的解答步驟時(shí),有效識別其中的錯(cuò)誤類型,提升評估的準(zhǔn)確性。例如,在處理一些復(fù)雜的數(shù)學(xué)問題時(shí),SPC 能夠準(zhǔn)確地識別出推理步驟中的邏輯錯(cuò)誤和計(jì)算錯(cuò)誤,從而給出正確的評判。
在 DeltaBench 數(shù)據(jù)集上,SPC 的性能提升也非常顯著,準(zhǔn)確率從 54.9% 提升至 60.5%。這個(gè)數(shù)據(jù)集的難點(diǎn)在于評估長 CoT 的推理過程,而 SPC 的優(yōu)勢在于能夠有效識別長推理鏈中的錯(cuò)誤,保證推理過程的連貫性和準(zhǔn)確性。例如,在處理一些需要多步推理的數(shù)學(xué)問題時(shí),SPC 能夠準(zhǔn)確地識別出推理鏈條中的薄弱環(huán)節(jié),從而給出正確的評判。
此外,SPC 在 PRM800K 數(shù)據(jù)集上的表現(xiàn)也優(yōu)于其他基線模型。例如,SPC(Round 2)在 PRM800K 上的平均準(zhǔn)確率達(dá)到 75.8%,高于其他基線模型。這表明,SPC 通過對抗游戲和強(qiáng)化學(xué)習(xí),能夠更好地學(xué)習(xí)如何評估推理步驟的正確性,從而提升模型的整體性能。
這些實(shí)驗(yàn)結(jié)果表明,SPC 不僅在理論上具有創(chuàng)新性,而且在實(shí)際應(yīng)用中也展現(xiàn)出了強(qiáng)大的性能和優(yōu)勢。它能夠有效提升 LLM 的推理評估能力,為人工智能的發(fā)展提供了新的思路和方法。
模型 | GSM8K | MATH | OlympiadBench | OmniMATH | 平均 |
Math-Shepherd-PRM-7B | 58.0 | 58.4 | 68.0 | 64.1 | 62.1 |
Qwen2.5-Math-7B-PRM800K | 77.0 | 72.9 | 66.9 | 62.1 | 69.7 |
Llama-3.1-8B-Instruct | 59.5 | 57.7 | 53.6 | 53.9 | 56.2 |
Llama-3.1-70B-Instruct | 67.2 | 62.8 | 61.7 | 61.9 | 63.4 |
Qwen2.5-7B-Instruct | 64.2 | 64.0 | 62.1 | 60.8 | 62.8 |
Qwen2.5-32B-Instruct | 76.2 | 68.1 | 68.9 | 63.9 | 69.3 |
GPT-4o | 75.5 | 70.5 | 70.0 | 64.5 | 70.1 |
DeepSeek-R1-Distill-Qwen-7B | 79.0 | 81.3 | 73.4 | 67.3 | 75.2 |
SPC (Round 0) | 78.0 | 74.1 | 67.8 | 63.2 | 70.8 |
SPC (Round 1) | 82.0 | 80.3 | 74.8 | 70.3 | 76.8 |
SPC (Round 2) | 84.2 | 80.8 | 76.5 | 69.2 | 77.7 |
不同對抗訓(xùn)練策略對評判器進(jìn)化的影響
在消融研究中,研究者詳細(xì)分析了不同對抗訓(xùn)練策略對評判器進(jìn)化的影響。他們發(fā)現(xiàn),構(gòu)建配對樣本在強(qiáng)化學(xué)習(xí)訓(xùn)練中具有顯著的效果。通過將成功欺騙評判器的錯(cuò)誤步驟和未成功欺騙評判器的錯(cuò)誤步驟配對,能夠幫助評判器更好地學(xué)習(xí)正確和錯(cuò)誤步驟之間的差異特征,從而提升識別能力。
例如,在第一輪對抗訓(xùn)練中,評判器通過學(xué)習(xí)配對樣本,能夠更準(zhǔn)確地識別出錯(cuò)誤步驟中的細(xì)微差別,從而將準(zhǔn)確率從 70.8% 提升至 76.8%。而未構(gòu)建配對樣本的方法,由于缺乏這種對比學(xué)習(xí)的機(jī)會,準(zhǔn)確率僅達(dá)到 75.0%。
此外,研究者還探討了不同對抗游戲設(shè)置對模型性能的影響。他們發(fā)現(xiàn),平衡對抗游戲能夠顯著提升評判器的泛化能力。例如,通過讓誤導(dǎo)生成器與不同輪次的評判器進(jìn)行對抗,評判器能夠接觸到更多樣化的錯(cuò)誤類型,從而在面對未知錯(cuò)誤時(shí)具有更強(qiáng)的適應(yīng)能力。相反,如果對抗游戲過于不平衡,比如誤導(dǎo)生成器的實(shí)力遠(yuǎn)超評判器,評判器就很難從對抗中學(xué)習(xí)到有效的知識,導(dǎo)致性能下降。
消融研究
誤導(dǎo)生成器的性能分析
研究者分析了誤導(dǎo)生成器生成錯(cuò)誤步驟的特點(diǎn),并探討了其性能提升對評判器優(yōu)化方向的影響。隨著迭代次數(shù)的增加,誤導(dǎo)生成器成功攻擊 LLM 解決器的比例從 21.5% 逐漸提升至 33.6%。同時(shí),誤導(dǎo)生成器在對抗評判器時(shí)的勝率也從 20.6%(Sneaky-0)提升至 30.3%(Sneaky-2)。這表明,誤導(dǎo)生成器在生成錯(cuò)誤步驟方面的能力不斷進(jìn)化,能夠生成更具隱蔽性的錯(cuò)誤,從而對評判器構(gòu)成更大的挑戰(zhàn)。
此外,研究者還分析了一種未從解決器獲取失敗攻擊獎(jiǎng)勵(lì)的訓(xùn)練設(shè)置。結(jié)果表明,這種設(shè)置嚴(yán)重影響了誤導(dǎo)生成器的性能,成功攻擊比例大幅下降至 12.1%,且在成功攻擊的樣本中,能夠欺騙評判器的比例也很低。這強(qiáng)調(diào)了確保誤導(dǎo)生成器從解決器和評判器處獲取獎(jiǎng)勵(lì)的重要性。


消融研究上面第一張圖展示了不同策略對評判器進(jìn)化的影響,而下面那張圖展示了誤導(dǎo)生成器攻擊 LLM 解決器的成功率及其與不同輪次評判器對抗的勝率。
關(guān)鍵結(jié)論與啟示
SPC 在推理過程評估基準(zhǔn)上的卓越表現(xiàn)充分證明了其有效性。通過對抗游戲和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)評判器自我進(jìn)化的技術(shù)創(chuàng)新點(diǎn),不僅提升了評判器的性能,還為 LLM 推理能力的提升提供了重要支持。SPC 的應(yīng)用使 LLM 能夠在測試時(shí)搜索過程中及時(shí)糾正錯(cuò)誤步驟,從而顯著提升數(shù)學(xué)推理性能。例如,在 MATH500 和 AIME2024 數(shù)據(jù)集上,SPC 輔助的 LLM 解決器性能顯著優(yōu)于基線驗(yàn)證器。
解決器 | 驗(yàn)證器 | MATH500 | AIME2024 |
Llama-3.1-8B-Instruct | 無 | 47.0 | 4.27 |
自我一致性 | 55.6 | 3.33 | |
Math-Shepherd | 52.4 | 3.33 | |
Qwen2.5-Math-7B-PRM800K | 54.6 | 3.33 | |
自我一致性 + Math-Shepherd | 53.6 | 6.67 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 60.4 | 3.33 | |
SPC | 54.5 | 5.63 | |
自我一致性 + SPC | 62.8 | 6.67 | |
Qwen2.5-32B-Instruct | 無 | 78.0 | 14.4 |
自我一致性 | 82.0 | 16.7 | |
Math-Shepherd | 78.8 | 13.3 | |
Qwen2.5-Math-7B-PRM800K | 82.8 | 16.7 | |
自我一致性 + Math-Shepherd | 80.8 | 13.3 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 84.6 | 16.7 | |
SPC | 83.0 | 17.7 | |
自我一致性 + SPC | 85.2 | 23.3 | |
DeepSeek-R1-Distill-Qwen-7B | 無 | 87.7 | 53.8 |
自我一致性 | 92.2 | 70.0 | |
Math-Shepherd | 87.0 | 53.3 | |
Qwen2.5-Math-7B-PRM800K | 84.2 | 63.3 | |
自我一致性 + Math-Shepherd | 89.2 | 60.0 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 91.8 | 73.3 | |
SPC | 92.3 | 52.6 | |
自我一致性 + SPC | 94.0 | 73.3 |
然而,SPC 在實(shí)際應(yīng)用中也可能面臨一些挑戰(zhàn),如計(jì)算資源消耗較高、對抗訓(xùn)練的穩(wěn)定性問題等。未來的研究可以進(jìn)一步優(yōu)化對抗游戲機(jī)制,拓展 SPC 在不同類型推理任務(wù)中的應(yīng)用,并結(jié)合更多模型架構(gòu)以提升性能。此外,SPC 的成功也為 LLM 推理評判領(lǐng)域提供了新的研究方向,如探索引入更多對抗角色或更復(fù)雜的對抗策略,以進(jìn)一步提升模型的學(xué)習(xí)效果。
未來研究方向展望
未來的研究可以進(jìn)一步優(yōu)化 SPC 的對抗游戲機(jī)制,例如引入更多的對抗角色或設(shè)計(jì)更復(fù)雜的對抗策略,以提升模型的學(xué)習(xí)效果。此外,拓展 SPC 在不同類型推理任務(wù)中的應(yīng)用,如自然語言推理、邏輯推理等,將有助于驗(yàn)證其通用性和適應(yīng)性。結(jié)合更多模型架構(gòu),如 Transformer 的變體、新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等,也將進(jìn)一步提升 SPC 的性能和效率。
同時(shí),將 SPC 方法與其他先進(jìn)技術(shù)相結(jié)合也是一個(gè)值得探索的方向。例如,與提示學(xué)習(xí)(Prompt Learning)、模型蒸餾等技術(shù)融合,可以在提高模型性能的同時(shí),降低計(jì)算成本并增強(qiáng)模型的可解釋性。這些結(jié)合將推動(dòng) LLM 推理評判領(lǐng)域的進(jìn)一步發(fā)展。
潛在的社會影響
SPC 技術(shù)具有顯著的積極社會影響。它能夠提升 LLM 在醫(yī)療、教育、金融等各個(gè)領(lǐng)域的應(yīng)用可靠性,促進(jìn)人工智能技術(shù)的廣泛采用和推廣。例如,在醫(yī)療領(lǐng)域,SPC 可以幫助提升診斷系統(tǒng)的準(zhǔn)確性;在教育領(lǐng)域,它可以輔助開發(fā)更智能的輔導(dǎo)工具;在金融領(lǐng)域,它可以增強(qiáng)風(fēng)險(xiǎn)評估模型的可靠性。此外,SPC 還有助于研究人員更深入地理解 LLM 的推理機(jī)制,為開發(fā)更智能、更可靠的 AI 系統(tǒng)提供理論基礎(chǔ)和技術(shù)支持。
然而,也存在潛在的負(fù)面社會影響。例如,誤導(dǎo)生成器可能被濫用以生成虛假或誤導(dǎo)性信息,從而造成不良影響。因此,研究如何增強(qiáng) LLM 的魯棒性以及訓(xùn)練通用評判器自動(dòng)審查網(wǎng)絡(luò)虛假信息顯得特別重要且急迫。
總結(jié)、感想
通過了解 SPC 給我的感受就是,模型的訓(xùn)練越來越從“農(nóng)業(yè)社會”向“工業(yè)社會”進(jìn)化。SPC 不僅解決了傳統(tǒng)方法中對大量手動(dòng)標(biāo)注數(shù)據(jù)的依賴問題,還通過創(chuàng)新的對抗游戲機(jī)制實(shí)現(xiàn)了評判器的自我進(jìn)化。這種技術(shù)的突破讓我看到了AI 的進(jìn)化在未來應(yīng)用中的巨大潛力,無論是提升模型性能還是拓展應(yīng)用場景,都具有重要意義。
SPC 巧妙地利用了兩個(gè)模型之間的對抗關(guān)系,通過不斷生成和識別錯(cuò)誤步驟,實(shí)現(xiàn)了雙方的共同進(jìn)步。這種自我強(qiáng)化的學(xué)習(xí)方式不僅高效,而且具有很強(qiáng)的適應(yīng)性,能夠隨著 LLM 的更新迭代持續(xù)提升性能。所以,AI 的發(fā)展,從技術(shù)角度不是僅構(gòu)建更強(qiáng)大的模型,而是應(yīng)該動(dòng)態(tài)的設(shè)計(jì)出能夠自我優(yōu)化和進(jìn)化的系統(tǒng)。
當(dāng)然一體兩面的看, SPC 在實(shí)際應(yīng)用中可能會帶來一些社會性影響。比如,它有望在多個(gè)領(lǐng)域提升 AI 系統(tǒng)的可靠性和性能,為大家?guī)肀憷?;但,另一方面,也需要小?SPC 可能被濫用的風(fēng)險(xiǎn)(往壞處想想,不展開)。
不過,SPC 作為一項(xiàng)創(chuàng)新的技術(shù),不僅在學(xué)術(shù)研究中具有重要價(jià)值,也為工業(yè)界的應(yīng)用提供了新的思路和方法。SPC 這種方式,一定會在 AI 發(fā)展中發(fā)揮重要的作用。



































