快手提出強(qiáng)化學(xué)習(xí)創(chuàng)新框架RLEP,突破大模型推理瓶頸
OpenAI的GPT系列、DeepSeek R1以及Qwen等模型,都通過(guò)強(qiáng)化學(xué)習(xí)(RL)技術(shù)顯著提升了推理能力。強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型探索最優(yōu)解,但這一過(guò)程面臨著諸多挑戰(zhàn),例如,訓(xùn)練不穩(wěn)定、策略漂移等問(wèn)題。
為了解決這些難題,快手科技的Klear團(tuán)隊(duì)提出了創(chuàng)新框架RLEP,通過(guò)收集已驗(yàn)證的優(yōu)質(zhì)軌跡并在后續(xù)訓(xùn)練中重放,顯著提升了大模型訓(xùn)練效率和最終性能。

RLEP框架的核心思想是將經(jīng)驗(yàn)回放技術(shù)引入到大型語(yǔ)言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中。這一思想的靈感來(lái)源于人類(lèi)學(xué)習(xí)的過(guò)程:當(dāng)我們面臨復(fù)雜的任務(wù)時(shí),往往會(huì)從過(guò)去的成功經(jīng)驗(yàn)中汲取智慧,避免重復(fù)犯錯(cuò),從而更高效地達(dá)成目標(biāo)。
在強(qiáng)化學(xué)習(xí)中,模型通過(guò)不斷地探索和試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)策略,但這一過(guò)程往往伴隨著大量的無(wú)效探索和策略的不穩(wěn)定。RLEP通過(guò)記錄模型在訓(xùn)練過(guò)程中成功探索到的高質(zhì)量推理路徑,并在后續(xù)的訓(xùn)練中重新利用這些路徑,使得模型能夠快速恢復(fù)之前的最佳性能,并在此基礎(chǔ)上進(jìn)一步提升。

RLEP框架分為經(jīng)驗(yàn)收集和基于回放的訓(xùn)練兩大階段。經(jīng)驗(yàn)收集階段是整個(gè)流程的基礎(chǔ)。這一階段的目標(biāo)是從模型的初始策略出發(fā),探索并記錄那些能夠成功解決問(wèn)題的推理路徑。具體來(lái)說(shuō),對(duì)于每一個(gè)輸入問(wèn)題,模型會(huì)根據(jù)當(dāng)前的策略生成一組候選答案,這些答案通常是以推理軌跡的形式呈現(xiàn),包含了從問(wèn)題到答案的完整推理過(guò)程。
然后,通過(guò)一個(gè)獎(jiǎng)勵(lì)模型對(duì)這些候選答案進(jìn)行驗(yàn)證,判斷哪些答案是正確的。這些驗(yàn)證通過(guò)的軌跡,也就是成功軌跡,會(huì)被保留下來(lái),并存儲(chǔ)到經(jīng)驗(yàn)池中。
經(jīng)驗(yàn)池的構(gòu)建是RLEP框架的關(guān)鍵之一。不僅保存了模型在早期訓(xùn)練中發(fā)現(xiàn)的有效推理路徑,還為后續(xù)的回放訓(xùn)練提供了豐富的素材。在經(jīng)驗(yàn)收集階段,模型會(huì)不斷地探索新的路徑,并將成功路徑添加到經(jīng)驗(yàn)池中。這個(gè)過(guò)程就像是模型在“標(biāo)記”那些能夠成功解決問(wèn)題的路徑,為后續(xù)的訓(xùn)練提供了一個(gè)可靠的“地圖”。通過(guò)這種方式,經(jīng)驗(yàn)池逐漸積累了大量高質(zhì)量的推理路徑,為后續(xù)的回放訓(xùn)練奠定了堅(jiān)實(shí)的基礎(chǔ)。

在經(jīng)驗(yàn)收集階段構(gòu)建了經(jīng)驗(yàn)池之后,RLEP框架進(jìn)入基于回放的訓(xùn)練階段。這一階段的目標(biāo)是通過(guò)回放經(jīng)驗(yàn)池中的成功軌跡,快速恢復(fù)模型之前的最佳性能,并在此基礎(chǔ)上進(jìn)一步提升模型的性能。
在每次訓(xùn)練更新時(shí),模型會(huì)生成一組新的推理軌跡,這些軌跡是基于當(dāng)前策略生成的,包含了模型對(duì)當(dāng)前問(wèn)題的理解和推理。同時(shí),模型還會(huì)從經(jīng)驗(yàn)池中隨機(jī)抽取一部分成功軌跡,并將這些軌跡與新生成的軌跡混合在一起。然后,模型根據(jù)這些混合軌跡計(jì)算優(yōu)勢(shì)函數(shù)并更新策略。
回放訓(xùn)練階段的關(guān)鍵在于如何平衡鞏固知識(shí)和探索新路徑之間的關(guān)系。一方面,通過(guò)回放經(jīng)驗(yàn)池中的成功軌跡,模型能夠快速恢復(fù)之前學(xué)到的有效知識(shí),避免在無(wú)效的路徑上浪費(fèi)時(shí)間。這就好比登山者在攀登過(guò)程中,沿著之前標(biāo)記的路徑前進(jìn),能夠更快地達(dá)到已知的高點(diǎn)。
另一方面,模型仍然會(huì)生成新的推理軌跡,這使得模型有機(jī)會(huì)探索新的路徑,發(fā)現(xiàn)更優(yōu)的解決方案。這種混合的方式既保證了模型能夠充分利用之前的經(jīng)驗(yàn),又不會(huì)陷入局部最優(yōu),從而實(shí)現(xiàn)更快的收斂和更高的最終性能。

此外,為了進(jìn)一步提高GRPO的穩(wěn)定性和效率,RLEP使用了兩種優(yōu)化策略。首先是token-mean策略,它通過(guò)逐token計(jì)算對(duì)數(shù)概率比,而不是在整個(gè)序列上進(jìn)行平均,從而避免了長(zhǎng)序列在整體平均時(shí)被低估的問(wèn)題。這種策略能夠更好地保留長(zhǎng)序列的學(xué)習(xí)信號(hào),使得模型在處理長(zhǎng)推理路徑時(shí)更加有效。
clip-higher策略通過(guò)不對(duì)稱(chēng)地裁剪正優(yōu)勢(shì)軌跡的上界,防止了探索空間的坍塌。這種策略在保持模型探索能力的同時(shí),也避免了模型過(guò)度依賴(lài)某些高獎(jiǎng)勵(lì)的路徑,從而平衡了利用與探索的關(guān)系。


































