無標簽進化:EVOL-RL用“多數(shù)選擇+新穎變異”破解大模型“熵坍縮”困局

大家好,我是肆〇柒。今天要和大家探討的,是來自騰訊AI Lab、圣母大學及弗吉尼亞大學核心研究團隊的一項突破性工作——《Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation》。這項研究直指當前無監(jiān)督學習的核心痛點:為何主流方法會讓AI越學越“笨”?他們給出的答案,居然藏在億萬年的生物進化智慧之中。這很有意思,工程智慧折射自然界哲學。
回想一下最近與模型的交互,是否有這樣的感覺,與AI聊天越來越"沒意思"?它的創(chuàng)意越來越少,仿佛陷入了一種"思維定式"。這不是你的錯覺——研究表明,當前的AI自學習系統(tǒng)正陷入"熵坍縮"陷阱:在追求準確性的過程中,逐漸喪失了探索和創(chuàng)新的能力。但一項突破性研究EVOL-RL,正試圖用進化論的智慧,讓AI重獲"思考的多樣性",從"應試機器"蛻變?yōu)檎嬲?思考伙伴"。
當AI遇見進化論
想象一個班級的學生,最初對同一數(shù)學問題有各種解法;但隨著"標準答案"的強化,大家逐漸只用一種方法解題,思維越來越狹窄。這就是AI的"熵坍縮"——在自我強化過程中,逐漸喪失多樣性,最終只能提供簡短、單調(diào)的回答。而EVOL-RL的突破在于認識到:真正的進化需要兩個要素——"多數(shù)驅(qū)動選擇"確保不偏離正確方向,"新穎促進變異"鼓勵探索新路徑。
這一思考源自生物進化這一地球上最成功的"無監(jiān)督學習"系統(tǒng)。在沒有"標準答案"的自然環(huán)境中,生命通過數(shù)十億年的演化,從單細胞生物發(fā)展出復雜多樣的生態(tài)系統(tǒng)。這一過程的核心機制簡單而強大:變異創(chuàng)造新的候選者,選擇保留有效方案。正是這種"變異-選擇"的動態(tài)平衡,使生命能夠不斷適應變化的環(huán)境,突破進化瓶頸。
如今,LLM的"無標簽自演化"目標與生物進化非常相似。研究者們希望模型能夠像生命體一樣,在面對海量無標簽數(shù)據(jù)時,不僅能解決當前問題,還能保持探索能力,為未來挑戰(zhàn)儲備多樣性。然而,當前主流方法如測試時強化學習(Test-Time Reinforcement Learning, TTRL)僅關(guān)注"選擇"環(huán)節(jié),將多數(shù)投票結(jié)果作為唯一正確答案進行強化,卻忽略了"變異"這一進化的原材料。這種片面做法導致模型迅速收斂到狹窄的解空間,陷入"早熟收斂"(Premature Convergence)的困境。
論文明確區(qū)分了"演化"(evolution)與"適應"(adaptation):演化指模型在提升當前任務(wù)能力的同時,保持或增強其在域外問題上的表現(xiàn)和整體潛力(即pass@k);而適應往往導致在目標數(shù)據(jù)上的狹窄收益,以犧牲更廣泛能力為代價。 這一區(qū)分至關(guān)重要——EVOL-RL實現(xiàn)的是真正的"演化",而非簡單"適應"。


熵坍縮現(xiàn)象:TTRL與EVOL-RL的訓練動態(tài)對比
上圖直觀展示了這一過程:在傳統(tǒng)TTRL訓練下,模型迅速陷入"死亡螺旋"——響應長度縮短、策略熵趨近于零、pass@n性能下降;而EVOL-RL則像一個健康的生態(tài)系統(tǒng),在經(jīng)歷短暫調(diào)整后,重新煥發(fā)生機。這不僅是技術(shù)差異,更是兩種進化哲學的根本區(qū)別。關(guān)鍵在于,TTRL雖然可能提升pass@1,但pass@n的持續(xù)下降表明模型探索能力的喪失,而EVOL-RL不僅提升了pass@1,還顯著提高了pass@n,證明了其真正實現(xiàn)了"演化"。
無監(jiān)督學習的"內(nèi)卷"陷阱
"熵坍縮"現(xiàn)象在無標簽訓練中表現(xiàn)得尤為明顯。當模型僅依賴多數(shù)投票信號進行自我強化時,其行為模式逐漸變得單調(diào)。研究顯示,隨著訓練進行,模型生成的思維鏈(Chain-of-Thought)長度顯著縮短,回答多樣性急劇下降,更令人擔憂的是,pass@n性能(即多次嘗試中至少有一次成功的概率)持續(xù)惡化。
這就像一個組織陷入"群體思維"(Groupthink)——所有人都認同當前解決方案,卻再也無法發(fā)現(xiàn)更好的可能。在AI演化的語境下,這種單一評價標準的危害尤為嚴重,因為它直接限制了模型探索未知領(lǐng)域的能力。
從技術(shù)角度看,"majority-only"方法(純多數(shù)驅(qū)動)為何必然走向崩潰?關(guān)鍵在于GRPO(Group Relative Policy Optimization)算法中的z-score歸一化機制。當所有"多數(shù)派"樣本獲得相同的高獎勵,而所有"少數(shù)派"樣本獲得相同的低獎勵后,經(jīng)過z-score歸一化,所有正確回答共享相同的正優(yōu)勢值,所有錯誤回答共享相同的負優(yōu)勢值。這導致策略更新將概率質(zhì)量均勻地向當前多數(shù)解集群轉(zhuǎn)移。隨著訓練進行,這種機制使概率分布不斷收縮,最終陷入低熵、低復雜度的穩(wěn)定態(tài)。

多數(shù)投票準確率的訓練動態(tài)對比
上圖揭示了更深層的問題:TTRL雖然初期能提升多數(shù)投票準確率(maj@16),但很快陷入性能平臺期,無法發(fā)現(xiàn)更好的解決方案;而EVOL-RL在初始階段與TTRL相似后,會突破這一平臺,持續(xù)提升多數(shù)投票質(zhì)量。這表明EVOL-RL不僅改善了最終策略,還不斷優(yōu)化了訓練信號本身,使模型能夠逃離次優(yōu)共識,持續(xù)深化對任務(wù)的理解。
這一現(xiàn)象解釋了為什么僅靠"多數(shù)即正確"的思維會導致系統(tǒng)性失?。核鼊?chuàng)造了一個"多數(shù)陷阱"——模型被鎖定在一個次優(yōu)解上,無法發(fā)現(xiàn)可能更好的替代方案。就像一個只依靠主流意見的社會,會逐漸失去創(chuàng)新和適應能力。
重拾進化論的完整智慧
面對這一困境,EVOL-RL(EVolution-Oriented and Label-free Reinforcement Learning)研究提出了一個創(chuàng)新轉(zhuǎn)變:將"變異"重新納入無監(jiān)督學習的核心框架。正如論文所言:"variation creates new candidates; selection keeps what works"——變異創(chuàng)造新的候選者,選擇保留有效方案。這一思想激勵了進化計算領(lǐng)域數(shù)十年的算法發(fā)展——遺傳算法、新奇性搜索和質(zhì)量-多樣性方法,它們都表明僅依賴選擇會導致早熟收斂,而明確保持行為多樣性則能實現(xiàn)穩(wěn)健進步。
EVOL-RL不是對現(xiàn)有方法的修修補補,而是將"選擇"(Selection by Majority)與"變異"(Variation by Novelty)作為兩個平等且互補的第一性原理進行設(shè)計。其核心思想是:在保持正確性底線的同時,主動獎勵那些"與眾不同"的嘗試。
這一設(shè)計的精妙之處在于其雙層結(jié)構(gòu):
- "選擇"確保不跑偏:多數(shù)派答案作為生存的底線,防止模型陷入完全隨機的探索
- "變異"鼓勵創(chuàng)新:在生存者內(nèi)部,獎勵那些"走不同路"的個體;對失敗者,也獎勵那些"死得有新意"的嘗試,為未來可能的突破埋下種子
這就像自然選擇:既要保留適應環(huán)境的特征(選擇),又要允許基因突變帶來多樣性(變異)。在AI世界中,這意味著模型不僅能解決當前問題,還能不斷探索新的推理路徑,為應對未來挑戰(zhàn)儲備多樣性。
下圖清晰展示了EVOL-RL的工作機制:對于每個Prompt,策略模型生成多個響應,通過多數(shù)投票確定主導答案,再基于推理部分的語義差異計算新穎性分數(shù),最終將"多數(shù)選擇"與"新穎變異"信號結(jié)合指導策略更新。這不是冰冷的算法流程,而是一個充滿生機的"思想市場":模型生成多種回答(思想),通過多數(shù)投票確定主流觀點(選擇),再通過新穎性評分獎勵獨特思路(變異)。
這一框架實現(xiàn)了"多數(shù)驅(qū)動選擇,新穎促進變異"的完整進化循環(huán),使模型能夠持續(xù)探索解空間,避免陷入局部最優(yōu)。

EVOL-RL框架概述:從提示生成到策略更新的完整流程
在硅基世界模擬碳基智慧
EVOL-RL的工程實現(xiàn)展現(xiàn)了將進化智慧轉(zhuǎn)化為算法細節(jié)的精妙過程。其核心在于如何在無標簽環(huán)境中精確量化"選擇"與"變異",并使二者協(xié)同工作。
上面那張圖清晰展示了EVOL-RL的工作機制:對于每個Prompt,策略模型生成多個響應,通過多數(shù)投票確定主導答案,再基于推理部分的語義差異計算新穎性分數(shù),最終將"多數(shù)選擇"與"新穎變異"信號結(jié)合指導策略更新。這不是冷冰冰的算法流程,而是一個充滿生機的"思想市場":模型生成多種回答(思想),通過多數(shù)投票確定主流觀點(選擇),再通過新穎性評分獎勵獨特思路(變異)。
變異評估:如何量化"與眾不同"?
在EVOL-RL框架中,每個響應的新穎性通過其推理部分的語義差異來衡量。具體而言:

想象模型對同一數(shù)學問題生成了6個回答。其中3個使用代數(shù)方法,2個使用幾何方法,1個使用概率方法。新穎性評分會讓那個"另類"的概率方法獲得高分,即使它最終答案錯誤——因為這種"有創(chuàng)意的錯誤"可能蘊含著突破現(xiàn)有思維框架的種子。這就像人類老師會鼓勵學生"雖然答案錯了,但思路很新穎"。
“選擇”的鐵律:如何錨定正確性?
為確保模型不會因追求新穎性而偏離正確方向,EVOL-RL采用了一種巧妙的獎勵映射機制:
- 多數(shù)派(正確答案)獎勵范圍為[0.5,1],其中新穎性越高,獎勵越高
- 少數(shù)派(錯誤答案)獎勵范圍為[-1,-0.5],其中新穎性越高,懲罰越小
- 無效響應(無法提取有效答案)固定獎勵為-1
這種非重疊獎勵區(qū)間的設(shè)計確保了關(guān)鍵原則:任何正確答案(無論多普通)的獎勵都高于任何錯誤答案(無論多新穎)。這就像自然選擇中的生存門檻——只有存活下來的個體才有機會繁衍,但繁衍成功率取決于其適應度。
協(xié)同進化的引擎:三大組件的交響曲
EVOL-RL的成功不僅依賴于新穎的獎勵設(shè)計,還在于三個關(guān)鍵組件的協(xié)同工作:
1. 熵正則化:在生成階段添加token級熵正則化器,確保了初始生成過程保持多樣性,為新穎性機制提供豐富的候選方案
2. 新穎性獎勵:如前所述,通過語義差異重新分配信用,在多數(shù)派和少數(shù)派內(nèi)部都鼓勵多樣性
3. 不對稱裁剪:在GRPO目標函數(shù)中使用不對稱的裁剪范圍(),允許高價值樣本獲得更大的梯度更新,防止優(yōu)質(zhì)變異被過早裁減

EVOL-RL與TTRL的訓練動態(tài)對比
上圖中,有一個神奇的"演化點"——就像生物進化中的關(guān)鍵突變事件,模型在此刻突破了"多數(shù)陷阱"的束縛。在此之前,EVOL-RL與TTRL的軌跡幾乎重合,都陷入熵坍縮的泥潭;但在此之后,EVOL-RL如同獲得新生,策略熵開始回升,回答長度增加,解題能力全面躍升。這一刻,AI真正開始了"演化"而非"適應"。
坍縮狀態(tài)為何不穩(wěn)定?
一個關(guān)鍵收貨是:坍縮狀態(tài)在EVOL-RL下是不穩(wěn)定的。當模型產(chǎn)生幾乎相同的樣本時,任何略有不同的樣本都會獲得高新穎性分數(shù),從而獲得更大的標準化優(yōu)勢值,導致策略更新將概率質(zhì)量從重復樣本轉(zhuǎn)移到這些獨特樣本。因此,產(chǎn)生單一響應集群的策略無法保持穩(wěn)定;EVOL-RL下的任何穩(wěn)定策略必須在多個不同響應上保持非零概率。這是EVOL-RL能夠自動逃離熵坍縮的根本機制。
消融實驗的啟示
EVOL-RL的消融研究揭示了各組件在不同場景下的微妙作用。在MATH-500等較簡單數(shù)據(jù)集上,新穎性獎勵最為關(guān)鍵:移除它會導致pass@16大幅下降,特別是在AIME24/25等跨領(lǐng)域任務(wù)上。這是因為多數(shù)信號會迅速將模型鎖定在單一推理模板中,而新穎性獎勵通過將信用從近似重復樣本重新分配給語義不同的解決方案,防止了這種模板鎖定。
而在AIME24等更具挑戰(zhàn)性的數(shù)據(jù)集上,熵正則化和不對稱裁剪變得更為關(guān)鍵:它們作為新穎性獎勵的關(guān)鍵使能器,前者確保生成階段提供豐富多樣的推理路徑,后者則在策略更新中保留來自高價值樣本的完整學習信號。
這三個組件形成了一個精妙的協(xié)同系統(tǒng):新穎性獎勵作為核心方向選擇器防止策略坍縮,熵正則化維持生成過程所需的探索,不對稱裁剪則在更新過程中保留這些高價值樣本的學習信號。

EVOL-RL及其消融組件的性能對比
上表告訴我們:EVOL-RL的三大組件如同三腳架,缺一不可。移除"新穎性獎勵",模型迅速陷入思維定式;缺少"熵正則化",探索能力枯竭;沒有"不對稱裁剪",創(chuàng)新思路被過早扼殺。這就像一個創(chuàng)新團隊,既需要明確目標(選擇),也需要鼓勵不同觀點(變異),還需要保護"異類"的發(fā)言權(quán)(不對稱裁剪)。
成果:硅基生命的"適應性輻射"
EVOL-RL的實踐效果令人振奮。在多個數(shù)學推理基準測試上,它不僅顯著提升了性能,還從根本上改變了模型的行為模式。
EVOL-RL與TTRL的訓練動態(tài)對比
上圖展示了EVOL-RL與TTRL的訓練動態(tài)對比。與TTRL陷入永久性熵坍縮不同,EVOL-RL在經(jīng)歷初始坍縮后,會達到一個"evolving point"(演化點),隨后進入?yún)f(xié)調(diào)恢復階段:策略熵上升、響應長度增加、跨領(lǐng)域準確率穩(wěn)步提高。這種動態(tài)表明,模型成功突破了多數(shù)信號的"陷阱",進入了一個更健康、更多樣的進化軌道。
具體性能提升方面,EVOL-RL展現(xiàn)了令人印象深刻的成果:
- 在AIME24上訓練Qwen3-4B-Base,AIME25的pass@1從TTRL的4.6%提升至16.4%,pass@16從18.5%提升至37.9%
- 在MATH-500上訓練,模型在AIME24和AIME25上的表現(xiàn)與直接在AIME24上訓練相當,證明其學到了通用的推理能力而非過擬合
- 在非數(shù)學領(lǐng)域GPQA上,EVOL-RL consistently恢復并超越基礎(chǔ)模型的pass@16性能,而TTRL則導致性能下降
這意味著,當你的AI助手面對一個復雜的奧數(shù)題時,TTRL訓練的模型可能在10次嘗試中只有2次答對,而EVOL-RL訓練的模型則有近4次機會成功。更重要的是,當它思考時,不再只是簡短地"因為...所以...",而是能像優(yōu)秀教師一樣,提供多角度、多層次的詳細解釋,真正幫助你理解問題本質(zhì)。

EVOL-RL與TTRL在不同基準測試上的性能對比
上表清晰展示了這一突破:訓練Qwen3-4B-Base模型時,EVOL-RL不僅將AIME25的pass@1從TTRL的4.6%提升至16.4%,還將pass@16從18.5%大幅提升至37.9%。更值得注意的是,這種提升具有跨模型尺度的魯棒性——在8B模型上,EVOL-RL同樣實現(xiàn)了顯著提升(AIME25 pass@1從11.4%提升至16.5%)。
EVOL-RL在非數(shù)學領(lǐng)域GPQA上的表現(xiàn)尤為引人注目。在所有訓練配置下,當TTRL導致pass@16性能相比基礎(chǔ)模型下降時,EVOL-RL不僅恢復了基礎(chǔ)模型的性能,還實現(xiàn)了+7至+15個百分點的提升。這就像人類學生通過數(shù)學訓練培養(yǎng)的邏輯思維,能幫助他們解決生活中的各種問題——EVOL-RL訓練的模型將數(shù)學問題中"學會思考"的能力,遷移到了科學、歷史等完全不同領(lǐng)域。
AI演化的未來之路
EVOL-RL的意義遠超技術(shù)層面,它代表了一種范式轉(zhuǎn)變:從單純追求性能提升,轉(zhuǎn)向構(gòu)建能夠持續(xù)進化的智能系統(tǒng)。這一研究證明,將生物學和進化計算的成熟思想引入深度學習,能產(chǎn)生顛覆性創(chuàng)新。
其核心啟示在于:真正的智能演化不是對已知答案的無限逼近,而是在未知的海洋中,既能穩(wěn)住航向,又能不斷發(fā)現(xiàn)新大陸的能力。EVOL-RL通過"多數(shù)驅(qū)動選擇,新穎促進變異"的簡單規(guī)則,實現(xiàn)了這一平衡。
這一思想具有廣闊的應用前景:
- 在推薦系統(tǒng)中,避免用戶陷入"信息繭房",同時保持推薦的相關(guān)性
- 在創(chuàng)意生成領(lǐng)域,平衡新穎性與可行性,產(chǎn)生真正有創(chuàng)意的內(nèi)容
- 在機器人控制中,鼓勵探索新技能,同時確?;救蝿?wù)的可靠性
更重要的是,EVOL-RL提醒我們:在構(gòu)建自主智能時,多樣性不是需要消除的"噪聲",而是進化的必要條件。正如生物多樣性是生態(tài)系統(tǒng)韌性的基礎(chǔ),認知多樣性也是智能系統(tǒng)持續(xù)發(fā)展的關(guān)鍵。

EVOL-RL組件在監(jiān)督式GRPO中的表現(xiàn)
上圖進一步證明了該方法的普適價值:當將EVOL-RL的探索增強組件應用于標準監(jiān)督式GRPO(RLVR)時,完整組合(GRPO+ClipHigh+Ent+Novelty)在AIME24和AIME25等挑戰(zhàn)性跨領(lǐng)域基準上將pass@16準確率提升了7%至12%。這表明"探索與選擇相互依賴"的原則不僅適用于無標簽場景,在有標簽環(huán)境中同樣能釋放巨大潛力。
當AI研究者們重新拾起達爾文的進化智慧,我們或許正在見證一個新時代的開端——在這個時代,AI不僅能夠解決已知問題,還能像生命一樣,在無盡的探索中不斷超越自身,真正實現(xiàn)"演化"而非"優(yōu)化"。
EVOL-RL的突破性意義在于,它讓AI從"應試機器"蛻變?yōu)?思考伙伴"。在傳統(tǒng)方法下,AI會像一個只會說標準答案的學生——面對數(shù)學問題,不再提供詳細的解題步驟,而是直接給出簡短答案;當被問及創(chuàng)意問題時,只會重復常見觀點,無法提出新穎見解。而EVOL-RL訓練的模型則能提供更長、更豐富的思考過程,真正幫助用戶理解問題本質(zhì)。
這一轉(zhuǎn)變不僅是技術(shù)指標的提升,還是AI與人類互動方式的變革。通過平衡"選擇"與"變異",EVOL-RL實現(xiàn)了"演化"——在提升當前任務(wù)能力的同時,保持或增強其在域外問題上的表現(xiàn)和整體潛力。這正是從"適應"到"演化"的質(zhì)變,也是AI邁向自主智能的關(guān)鍵一步。
EVOL-RL 通過將進化論的完整智慧引入AI領(lǐng)域,它不僅解決了無標簽自演化的核心挑戰(zhàn),還為構(gòu)建更加自主、靈活和適應性強的智能系統(tǒng)提供了新的范式。正如生命在地球上的演化歷程,真正的智能進步不在于短期的性能優(yōu)化,而在于長期的適應性和創(chuàng)新潛力——EVOL-RL,正是朝這個方向邁出的堅實一步。































