偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化預(yù)訓(xùn)練(RPT):LLM 預(yù)訓(xùn)練新范式,當(dāng)模型學(xué)會(huì)戰(zhàn)略思考

人工智能
RPT 通過(guò)將傳統(tǒng)的 next-token-prediction 重構(gòu)為 next-token-reasoning 任務(wù),并引入強(qiáng)化學(xué)習(xí)機(jī)制,這種推理范式轉(zhuǎn)化,顯著提升了模型的推理能力和語(yǔ)言建模性能。讓模型不僅是在預(yù)測(cè) token,而在自己定義“任務(wù)”,推理“任務(wù)”。這一過(guò)程賦予了模型類似人類的戰(zhàn)略思考模式。它不再只是機(jī)械地記憶和預(yù)測(cè),而是在直接交付結(jié)果!

大家好,我是肆〇柒。在當(dāng)下,大型語(yǔ)言模型(LLM)正以其卓越的能力在諸多任務(wù)中引人矚目。這些能力的提升,很大程度上得益于在大規(guī)模文本數(shù)據(jù)上的 next-token-prediction 自監(jiān)督學(xué)習(xí)范式。通過(guò)預(yù)測(cè)文本中的下一個(gè) token,LLM 能夠?qū)W習(xí)到語(yǔ)言的復(fù)雜模式和語(yǔ)義關(guān)系,從而在文本生成、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù)中取得顯著成果。

然而,隨著對(duì)模型性能要求的不斷提高,強(qiáng)化學(xué)習(xí)(RL)逐漸成為微調(diào) LLM 的關(guān)鍵技術(shù)。它能夠使模型更好地對(duì)齊人類偏好,或者提升特定技能,如復(fù)雜推理等。但 RL 在實(shí)際應(yīng)用中面臨諸多挑戰(zhàn):一方面,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)嚴(yán)重依賴昂貴的人類偏好數(shù)據(jù),這不僅限制了其可擴(kuò)展性,還可能導(dǎo)致獎(jiǎng)勵(lì)劫持問(wèn)題;另一方面,基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)雖能避免一些獎(jiǎng)勵(lì)劫持問(wèn)題,卻因標(biāo)注數(shù)據(jù)的稀缺性,難以在通用預(yù)訓(xùn)練場(chǎng)景中廣泛應(yīng)用。

我曾在覺察流的社區(qū)群里提到過(guò),o3 的一些能力非常強(qiáng),甚至在跨領(lǐng)域知識(shí)的問(wèn)答方面也很出彩。當(dāng)時(shí)我有一個(gè)猜想,它怎么做到的?我的答案是,它可能在預(yù)測(cè) CoT,而今天看到了這篇來(lái)自微軟研究院、北京大學(xué)和清華大學(xué)研究團(tuán)隊(duì)的論文《Reinforcement Pre-Training》,讓我對(duì)這一點(diǎn)猜測(cè)又確信了幾分。

鑒于剛才所提到的挑戰(zhàn),這篇論文所論述的強(qiáng)化預(yù)訓(xùn)練(Reinforcement Pre-Training,RPT)被提出。RPT 為了彌合可擴(kuò)展自監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)之間的差距,創(chuàng)新性地將 next-token-prediction 任務(wù)重構(gòu)為 next-token-reasoning 任務(wù),利用大量無(wú)標(biāo)注文本數(shù)據(jù)進(jìn)行通用目的強(qiáng)化學(xué)習(xí)。這既能夠顯著提升語(yǔ)言建模的準(zhǔn)確性,也為后續(xù)的強(qiáng)化微調(diào)奠定了堅(jiān)實(shí)基礎(chǔ),有望推動(dòng) LLM 向更智能、更通用的方向發(fā)展。

RPT 的核心概念:從預(yù)測(cè)到推理的認(rèn)知進(jìn)化

RPT 基本原理:next-token-prediction 的重構(gòu)

RPT 的核心思想在于對(duì)傳統(tǒng)的 next-token-prediction 進(jìn)行重構(gòu),將其轉(zhuǎn)變?yōu)橐粋€(gè)推理任務(wù)。在常規(guī)的 next-token-prediction 中,模型僅僅是基于前面的文本信息直接預(yù)測(cè)下一個(gè) token,這種方式主要側(cè)重于學(xué)習(xí)文本表面的模式和關(guān)聯(lián)。然而,RPT 引入了截然不同的機(jī)制,它要求模型必須先生成一個(gè)推理序列,再進(jìn)行下一個(gè) token 的預(yù)測(cè)。這一過(guò)程極具創(chuàng)新性,類似于人類在面對(duì)問(wèn)題時(shí)的思考過(guò)程,即先分析已有的信息,進(jìn)行一系列的推理和思考,然后再得出結(jié)論。

例如,當(dāng)模型在處理一段關(guān)于物理定律的文本時(shí),若要預(yù)測(cè)下一個(gè) token,它并非直接根據(jù)已有的詞頻統(tǒng)計(jì)等簡(jiǎn)單模式來(lái)進(jìn)行預(yù)測(cè),而是需要先理解前面文本中提到的物理概念、定律的適用條件等關(guān)鍵信息。然后,基于這些理解,生成諸如 “考慮到作用在物體上的力與質(zhì)量的關(guān)系,接下來(lái)可能會(huì)提及加速度” 等推理序列,最終再確定下一個(gè) token 是 “加速度” 或其他相關(guān)詞匯。通過(guò)這種方式,模型能夠深入挖掘文本背后的語(yǔ)義和知識(shí),而不僅僅停留在表面的 token 級(jí)相關(guān)性上。

RPT 的多重優(yōu)勢(shì)

可擴(kuò)展性和通用性 :RPT 實(shí)現(xiàn)了在無(wú)標(biāo)注文本數(shù)據(jù)上的通用目的強(qiáng)化學(xué)習(xí),這是一次重大的突破。傳統(tǒng)上,強(qiáng)化學(xué)習(xí)在 LLM 中的應(yīng)用往往受限于數(shù)據(jù)的標(biāo)注要求,無(wú)論是基于人類反饋的數(shù)據(jù)還是帶有可驗(yàn)證答案的標(biāo)注數(shù)據(jù),都難以大規(guī)模獲取。然而,RPT 完全依賴于無(wú)標(biāo)注的文本數(shù)據(jù),這意味著它可以充分利用互聯(lián)網(wǎng)上海量的文本資源。無(wú)論是新聞報(bào)道、學(xué)術(shù)文獻(xiàn),還是社交媒體上的帖子等各種文本數(shù)據(jù),都可以成為 RPT 的訓(xùn)練素材。這極大地拓展了模型訓(xùn)練的數(shù)據(jù)來(lái)源,使其能夠涵蓋各種不同的領(lǐng)域、主題和語(yǔ)言風(fēng)格,為 LLM 的通用性提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。例如,利用大量的文學(xué)作品訓(xùn)練 RPT 模型,使其能夠更好地理解和生成具有文學(xué)風(fēng)格的文本,如小說(shuō)創(chuàng)作、詩(shī)歌生成等;在技術(shù)文檔領(lǐng)域的應(yīng)用,則有助于模型準(zhǔn)確地理解和生成復(fù)雜的代碼文檔、技術(shù)報(bào)告等內(nèi)容。

降低獎(jiǎng)勵(lì)劫持風(fēng)險(xiǎn) :在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)劫持一直是一個(gè)令人頭疼的問(wèn)題。一些復(fù)雜的、基于學(xué)習(xí)的獎(jiǎng)勵(lì)模型可能會(huì)出現(xiàn)漏洞,模型可能會(huì)利用這些漏洞來(lái)獲取高獎(jiǎng)勵(lì),而并非通過(guò)真正有價(jià)值的學(xué)習(xí)行為。RPT 則巧妙地避免了這一問(wèn)題,它采用直接的規(guī)則獎(jiǎng)勵(lì)信號(hào),即根據(jù)預(yù)測(cè)的正確性給予獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)機(jī)制簡(jiǎn)單而有效,只關(guān)心模型預(yù)測(cè)的下一個(gè) token 是否與實(shí)際文本匹配,而不涉及復(fù)雜的、容易被操縱的獎(jiǎng)勵(lì)模型。例如,在預(yù)測(cè)數(shù)學(xué)問(wèn)題解答文本中的下一個(gè) token 時(shí),只有當(dāng)模型準(zhǔn)確地預(yù)測(cè)出正確的數(shù)學(xué)符號(hào)或概念詞匯時(shí),才會(huì)獲得獎(jiǎng)勵(lì)。這使得模型能夠?qū)W⒂趯W(xué)習(xí)真正有價(jià)值的推理和預(yù)測(cè)能力,確保訓(xùn)練過(guò)程的穩(wěn)定性和目標(biāo)的準(zhǔn)確性。

促進(jìn)泛化而非死記硬背 :RPT 通過(guò)鼓勵(lì)模型生成推理序列,促使模型深入理解文本背后的邏輯和知識(shí)。這種方式使得模型能夠跳出單純的記憶模式,轉(zhuǎn)而培養(yǎng)起強(qiáng)大的泛化能力。在傳統(tǒng)的訓(xùn)練方式下,模型可能會(huì)傾向于記憶訓(xùn)練數(shù)據(jù)中的常見表達(dá)模式和 token 順序,從而在面對(duì)新的、未見過(guò)的文本時(shí)表現(xiàn)不佳。而 RPT 則引導(dǎo)模型在訓(xùn)練過(guò)程中主動(dòng)思考文本的內(nèi)在邏輯和語(yǔ)義關(guān)系,探索多種可能的推理路徑。例如,在處理一段關(guān)于歷史事件的文本時(shí),模型不會(huì)僅僅記住某個(gè)歷史事件的固定表述,而是會(huì)思考事件發(fā)生的原因、影響等相關(guān)因素。這樣一來(lái),當(dāng)遇到關(guān)于同一歷史時(shí)期但不同具體事件的文本時(shí),模型也能夠基于已有的知識(shí)和推理能力進(jìn)行準(zhǔn)確的預(yù)測(cè)和理解,大大增強(qiáng)了其在不同文本場(chǎng)景下的適應(yīng)性和泛化性能。

提升推理過(guò)程中的計(jì)算資源分配效率 :RPT 在預(yù)訓(xùn)練階段就巧妙地引入了推理過(guò)程,這相當(dāng)于為模型分配了更多的 “思考” 時(shí)間。在傳統(tǒng)的訓(xùn)練方式中,模型主要側(cè)重于對(duì)下一個(gè) token 的直接預(yù)測(cè),而在 RPT 中,模型需要先進(jìn)行推理序列的生成,然后再進(jìn)行預(yù)測(cè)。這個(gè)過(guò)程使得模型在訓(xùn)練時(shí)就能夠充分地利用計(jì)算資源,對(duì)每個(gè) token 的預(yù)測(cè)進(jìn)行更深入的思考和分析。類似于在推理時(shí)擴(kuò)展(inference-time scaling)中為每個(gè)預(yù)測(cè)分配更多的計(jì)算資源來(lái)提升準(zhǔn)確性,RPT 將這種計(jì)算資源的高效利用提前到了訓(xùn)練階段。例如,在訓(xùn)練過(guò)程中,模型可能會(huì)花費(fèi)更多的計(jì)算資源來(lái)分析上下文中的關(guān)鍵信息、探索多種可能的推理路徑等,從而在訓(xùn)練完成后,能夠在推理過(guò)程中更快速、更準(zhǔn)確地進(jìn)行預(yù)測(cè),提高整體的性能表現(xiàn)。

RPT 的方法論:構(gòu)建智能模型的精巧架構(gòu)

預(yù)訓(xùn)練任務(wù):next-token-reasoning

任務(wù)定義與推理序列生成算法

具體生成算法如下:

1. 初始化 :以輸入序列為起點(diǎn),模型首先對(duì)上下文進(jìn)行編碼,提取關(guān)鍵語(yǔ)義信息。這一步驟就像人類在閱讀一篇文章時(shí),先快速瀏覽開頭部分,對(duì)文章的主題和大致方向有一個(gè)初步的把握。例如,當(dāng)輸入的上下文是關(guān)于物理定律的描述時(shí),模型會(huì)識(shí)別出其中涉及的物理概念、定律的名稱等關(guān)鍵信息,為后續(xù)的推理和預(yù)測(cè)奠定基礎(chǔ)。

2. 迭代推理 :在每一步推理中,模型基于當(dāng)前上下文和已生成的推理序列,生成下一個(gè)推理 token。這一過(guò)程會(huì)考慮語(yǔ)義連貫性、語(yǔ)法正確性以及與最終預(yù)測(cè)目標(biāo)的相關(guān)性。例如,在處理數(shù)學(xué)問(wèn)題時(shí),模型可能會(huì)生成諸如 “考慮變量之間的關(guān)系”“應(yīng)用定理公式” 等推理 token。這就好比人類在解決數(shù)學(xué)問(wèn)題時(shí),會(huì)一步步地分析問(wèn)題的條件、應(yīng)用相關(guān)的數(shù)學(xué)定理和公式,逐步向答案靠近。每一個(gè)推理 token 都是模型思考過(guò)程中的一個(gè) “腳印”,記錄著它對(duì)問(wèn)題的逐步深入理解。

3. 預(yù)測(cè)生成 :在完成推理序列后,模型基于推理序列和原始上下文,生成對(duì)下一個(gè) token 的預(yù)測(cè)。預(yù)測(cè)過(guò)程會(huì)綜合推理序列中的信息,以確定最可能的 token。以數(shù)學(xué)問(wèn)題為例,經(jīng)過(guò)一系列的推理 token 后,模型可能會(huì)預(yù)測(cè)下一個(gè) token 是某個(gè)數(shù)學(xué)符號(hào)或特定的數(shù)值,這個(gè)預(yù)測(cè)結(jié)果是基于前面的推理過(guò)程得出的,具有較高的可信度和準(zhǔn)確性。

4. 算法終止 :當(dāng)達(dá)到預(yù)設(shè)的推理序列長(zhǎng)度或滿足特定終止條件(如預(yù)測(cè)置信度超過(guò)閾值)時(shí),算法終止,輸出推理序列和預(yù)測(cè) token。終止條件的設(shè)置是為了在推理的充分性和計(jì)算效率之間取得平衡,確保模型能夠在合理的時(shí)間和計(jì)算資源內(nèi)完成任務(wù)。

我們可以通過(guò)一個(gè)形象的比喻來(lái)理解 RPT 的這一創(chuàng)新過(guò)程:如果傳統(tǒng)的 next-token-prediction 是在黑暗中直接猜測(cè)下一步的位置,那么 RPT 的 next-token-reasoning 就像是在黑暗中先點(diǎn)亮一棵“樹形”的路徑,照亮周圍的環(huán)境,分析路徑的可能性,然后再邁出下一步。這種轉(zhuǎn)變,提升了模型預(yù)測(cè)的準(zhǔn)確性,賦予了模型更接近人類思考方式的能力(戰(zhàn)略思考)。下圖所示,RPT 通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)模型進(jìn)行推理并準(zhǔn)確預(yù)測(cè)下一個(gè) token,使得強(qiáng)化學(xué)習(xí)能夠擴(kuò)展應(yīng)用于大規(guī)模網(wǎng)絡(luò)文本語(yǔ)料庫(kù)。

強(qiáng)化預(yù)訓(xùn)練(Reinforcement Pre-Training, RPT)將下一個(gè)token預(yù)測(cè)重新定義為一個(gè)推理任務(wù),其中語(yǔ)言模型通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)被激勵(lì)去推理并正確預(yù)測(cè)下一個(gè)token。所提出的這種方法使得強(qiáng)化學(xué)習(xí)能夠擴(kuò)展到網(wǎng)絡(luò)文本語(yǔ)料庫(kù)。櫻桃蛋糕頂部的圖片取自LeCun的PPT

上圖展示了 RPT 如何將 next-token-prediction 重新定義為一個(gè)推理任務(wù),通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)模型進(jìn)行推理并正確預(yù)測(cè)下一個(gè) token。這種設(shè)計(jì)使得 RPT 能夠擴(kuò)展強(qiáng)化學(xué)習(xí)的應(yīng)用范圍,使其適用于大規(guī)模網(wǎng)絡(luò)文本語(yǔ)料庫(kù)。

推理模式原理與實(shí)現(xiàn)機(jī)制

模型實(shí)現(xiàn)聯(lián)想、假設(shè)驗(yàn)證等推理模式的關(guān)鍵在于其內(nèi)部的算法設(shè)計(jì)和結(jié)構(gòu)優(yōu)化。以聯(lián)想模式為例,模型通過(guò)構(gòu)建語(yǔ)義關(guān)聯(lián)圖譜,將上下文中的關(guān)鍵詞與知識(shí)庫(kù)中的相關(guān)信息進(jìn)行鏈接。當(dāng)處理一段關(guān)于 “氣候變化” 的文本時(shí),模型會(huì)基于上下文中的關(guān)鍵詞 “溫室氣體”“全球變暖” 等,聯(lián)想出相關(guān)的概念如 “碳排放”“極地冰川融化” 等。這一過(guò)程通過(guò)模型內(nèi)部的注意力機(jī)制和語(yǔ)義嵌入層實(shí)現(xiàn),注意力機(jī)制能夠捕捉上下文中的關(guān)鍵信息,并將其與知識(shí)庫(kù)中的內(nèi)容進(jìn)行匹配,而語(yǔ)義嵌入層則將這些信息映射到同一語(yǔ)義空間,便于模型進(jìn)行聯(lián)想和關(guān)聯(lián)。

假設(shè)驗(yàn)證模式則依賴于模型的概率推理模塊。模型會(huì)根據(jù)當(dāng)前上下文和推理序列,生成多個(gè)可能的假設(shè),然后通過(guò)計(jì)算每個(gè)假設(shè)的置信度來(lái)驗(yàn)證其合理性。例如,在處理一段歷史事件的文本時(shí),模型可能會(huì)生成 “該事件的起因可能是經(jīng)濟(jì)因素”“該事件的起因可能是政治因素” 等多個(gè)假設(shè)。通過(guò)對(duì)上下文信息的深度分析和對(duì)歷史知識(shí)的調(diào)用,模型計(jì)算每個(gè)假設(shè)成立的概率,從而篩選出最合理的假設(shè)作為后續(xù)推理的基礎(chǔ)。這一過(guò)程涉及到模型內(nèi)部復(fù)雜的概率計(jì)算和邏輯判斷機(jī)制,確保假設(shè)驗(yàn)證的準(zhǔn)確性和有效性。

為了更直觀地理解標(biāo)準(zhǔn) next-token-prediction 和 RPT 的 next-token-reasoning 之間的差異,我們可以參考下圖。

next-token prediction 與 next-token reasoning 的范式比較。標(biāo)準(zhǔn)的 next-token predict 直接估計(jì)預(yù)訓(xùn)練語(yǔ)料庫(kù)中的下一個(gè)token,而next-token reasoning 則在進(jìn)行預(yù)測(cè)之前會(huì)對(duì)多個(gè)token進(jìn)行推理

標(biāo)準(zhǔn) next-token-prediction 直接估計(jì)預(yù)訓(xùn)練語(yǔ)料庫(kù)中的下一個(gè) token,而 RPT 的 next-token-reasoning 則在進(jìn)行預(yù)測(cè)之前,先在多個(gè) token 上進(jìn)行推理。這種差異使得 RPT 能夠更深入地理解文本的語(yǔ)義結(jié)構(gòu),從而提高預(yù)測(cè)的準(zhǔn)確性。

推理序列長(zhǎng)度與復(fù)雜度調(diào)整策略及量化關(guān)系

RPT 模型根據(jù)不同場(chǎng)景靈活調(diào)整推理序列的長(zhǎng)度和復(fù)雜度,以適應(yīng)各種不同的任務(wù)需求。這種調(diào)整并非隨意為之,而是基于嚴(yán)謹(jǐn)?shù)牧炕P(guān)系和評(píng)估指標(biāo)。

基于上述量化關(guān)系,提出了以下調(diào)整策略:

基于強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練(RPT:數(shù)據(jù)與模型的協(xié)同優(yōu)化)

訓(xùn)練過(guò)程與參數(shù)更新機(jī)制的數(shù)學(xué)解析

強(qiáng)化學(xué)習(xí)在 RPT 中的運(yùn)用是提升模型性能的關(guān)鍵所在。對(duì)于給定的前綴 x<t,模型使用當(dāng)前策略生成 G 個(gè)響應(yīng)(包括推理序列和最終預(yù)測(cè)序列)。通過(guò)前綴匹配獎(jiǎng)勵(lì)驗(yàn)證預(yù)測(cè)的正確性,利用獎(jiǎng)勵(lì)信號(hào)更新模型參數(shù)。這一過(guò)程就像一個(gè)導(dǎo)師在指導(dǎo)學(xué)生思考和回答問(wèn)題,根據(jù)學(xué)生的回答是否正確給予反饋,并幫助學(xué)生不斷改進(jìn)自己的思考方式和答案準(zhǔn)確性。

模型在每個(gè)訓(xùn)練步驟中會(huì)生成多個(gè)不同的思考軌跡,每個(gè)軌跡包含一個(gè)推理序列和對(duì)應(yīng)的下一個(gè) token 預(yù)測(cè)。然后,對(duì)比預(yù)測(cè)結(jié)果與真實(shí)值來(lái)計(jì)算獎(jiǎng)勵(lì),并根據(jù)獎(jiǎng)勵(lì)值調(diào)整模型參數(shù),鼓勵(lì)生成更準(zhǔn)確的預(yù)測(cè)結(jié)果。參數(shù)更新采用 PPO 算法,其數(shù)學(xué)原理和參數(shù)更新機(jī)制如下:


強(qiáng)化預(yù)訓(xùn)練(RPT)的示例說(shuō)明

上圖直觀地展示了 RPT 的訓(xùn)練過(guò)程。給定一個(gè)帶有缺失后續(xù)內(nèi)容的上下文,LLM 執(zhí)行策略性展開以生成 G 個(gè)不同的思考軌跡。每個(gè)軌跡包含一個(gè)中間推理步驟和一個(gè)對(duì)下一個(gè) token 的最終預(yù)測(cè)。如果預(yù)測(cè)與真實(shí) token 匹配,則賦予正向獎(jiǎng)勵(lì);否則,獎(jiǎng)勵(lì)為零。這一獎(jiǎng)勵(lì)信號(hào)用于更新 LLM,鼓勵(lì)生成更準(zhǔn)確的延續(xù)內(nèi)容。

獎(jiǎng)勵(lì)機(jī)制優(yōu)化方法與動(dòng)態(tài)調(diào)整策略

獎(jiǎng)勵(lì)機(jī)制在強(qiáng)化學(xué)習(xí)中起著至關(guān)重要的作用。在 RPT 中,獎(jiǎng)勵(lì)的定義基于累計(jì)字節(jié)長(zhǎng)度和有效邊界。對(duì)于預(yù)測(cè)結(jié)果與真實(shí)值完全匹配且字節(jié)長(zhǎng)度符合有效邊界的情況,給予正向獎(jiǎng)勵(lì);否則給予零獎(jiǎng)勵(lì)。這種設(shè)計(jì)確保獎(jiǎng)勵(lì)的準(zhǔn)確性和合理性。然而,為了進(jìn)一步優(yōu)化獎(jiǎng)勵(lì)機(jī)制,可以采用以下方法:

預(yù)訓(xùn)練設(shè)置:數(shù)據(jù)與模型的協(xié)同優(yōu)化

數(shù)據(jù)集選擇與預(yù)處理優(yōu)化 :RPT 使用 OmniMATH 數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含 4,428 道競(jìng)賽級(jí)數(shù)學(xué)問(wèn)題和解決方案,來(lái)源于 AoPS Wiki 和 AoPS 論壇等。在預(yù)處理過(guò)程中,利用 DeepseekR1-Distill-Qwen-1.5B 小代理模型對(duì) token 進(jìn)行熵計(jì)算,設(shè)置熵閾值以過(guò)濾掉低熵位置,優(yōu)先訓(xùn)練具有挑戰(zhàn)性的 token。為了進(jìn)一步優(yōu)化數(shù)據(jù)預(yù)處理,可以采用以下方法:

  • 多級(jí)熵過(guò)濾 :除了基于單個(gè) token 的熵過(guò)濾,還可以考慮上下文窗口內(nèi)的 token 熵分布,進(jìn)行多級(jí)過(guò)濾。例如,對(duì)于連續(xù)多個(gè)低熵 token 的區(qū)域,可能表示簡(jiǎn)單的重復(fù)或常見短語(yǔ),可以整體過(guò)濾掉,從而更高效地聚焦于具有挑戰(zhàn)性的文本部分。
  • 數(shù)據(jù)增強(qiáng) :對(duì)過(guò)濾后的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)操作,如同義詞替換、語(yǔ)句重組等,增加數(shù)據(jù)的多樣性和模型的泛化能力。

模型與訓(xùn)練參數(shù)優(yōu)化 :基礎(chǔ)模型選擇為 Deepseek-R1-Distill-Qwen-14B。訓(xùn)練框架采用 verl 庫(kù),推理使用 vllm 庫(kù),訓(xùn)練算法為 GRPO。關(guān)鍵訓(xùn)練參數(shù)包括學(xué)習(xí)率 1e-6、批次大小 256、零 KL 懲罰等。詳細(xì)的超參數(shù)設(shè)置如下表所示:

用于強(qiáng)化預(yù)訓(xùn)練的超參數(shù)

根據(jù)實(shí)際訓(xùn)練需求和資源限制,可以對(duì)這些參數(shù)進(jìn)行優(yōu)化。例如,適當(dāng)調(diào)整學(xué)習(xí)率可以平衡模型的收斂速度和穩(wěn)定性;確定合適的批次大小可以充分利用計(jì)算資源,同時(shí)避免內(nèi)存溢出等問(wèn)題。此外,還可以探索以下優(yōu)化方向:

  • 自適應(yīng)學(xué)習(xí)率調(diào)整 :根據(jù)訓(xùn)練過(guò)程中的損失變化和獎(jiǎng)勵(lì)趨勢(shì),動(dòng)態(tài)調(diào)整學(xué)習(xí)率。當(dāng)模型性能提升較快時(shí),適當(dāng)降低學(xué)習(xí)率以精細(xì)調(diào)整參數(shù);當(dāng)性能提升停滯時(shí),適當(dāng)提高學(xué)習(xí)率以跳出局部最優(yōu)。
  • 超參數(shù)搜索算法 :采用貝葉斯優(yōu)化等超參數(shù)搜索算法,在大規(guī)模參數(shù)空間中尋找更優(yōu)的超參數(shù)組合,進(jìn)一步提升模型性能。

實(shí)驗(yàn)設(shè)計(jì)與評(píng)估:驗(yàn)證 RPT 的強(qiáng)大性能

預(yù)訓(xùn)練模型評(píng)估:語(yǔ)言建模與擴(kuò)展性分析

語(yǔ)言建模性能評(píng)估與分析 :利用 OmniMATH 驗(yàn)證集,評(píng)估模型在不同難度 token 位置上的 next-token-prediction 準(zhǔn)確率。結(jié)果表明,RPT 模型在所有難度級(jí)別上均優(yōu)于 R1-Distill-Qwen-14B 的標(biāo)準(zhǔn) next-token-prediction 和基于推理的預(yù)測(cè)。例如,在高難度 token 位置上,RPT 模型的準(zhǔn)確率提升顯著,這可能是因?yàn)?RPT 更注重挖掘 token 之間的深層語(yǔ)義關(guān)系和推理邏輯,從而在復(fù)雜場(chǎng)景下表現(xiàn)出更強(qiáng)的預(yù)測(cè)能力。具體數(shù)值顯示,RPT-14B 在高難度 token 位置上的準(zhǔn)確率達(dá)到 23.75%,相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升,這歸功于 RPT 在預(yù)訓(xùn)練階段對(duì)推理能力的強(qiáng)化訓(xùn)練,使得模型能夠更好地理解和預(yù)測(cè)復(fù)雜的文本內(nèi)容。

準(zhǔn)確率在三個(gè)不同難度的基準(zhǔn)測(cè)試劃分中的 Next-token prediction 表現(xiàn)。RPT在標(biāo)準(zhǔn)的Next-token prediction基線和基于推理的預(yù)測(cè)基線方面均表現(xiàn)更優(yōu)

上表提供了不同模型在三種不同難度測(cè)試集上的 next-token-prediction 準(zhǔn)確率對(duì)比。從表中可以看出,RPT 在所有難度級(jí)別上都優(yōu)于標(biāo)準(zhǔn) next-token-prediction 基線和基于推理的預(yù)測(cè)基線,這進(jìn)一步證明了 RPT 的有效性和優(yōu)越性。

擴(kuò)展性分析與大規(guī)模訓(xùn)練策略 :通過(guò)冪律衰減模型擬合 next - token - prediction 準(zhǔn)確率與訓(xùn)練計(jì)算的關(guān)系,發(fā)現(xiàn) RPT 的性能隨著訓(xùn)練計(jì)算量的增加而持續(xù)提升。這表明 RPT 具有良好的擴(kuò)展性,能夠在增加訓(xùn)練資源時(shí)獲得更優(yōu)的性能。例如,在訓(xùn)練計(jì)算量增加到 1000 步時(shí),模型的準(zhǔn)確率相較于初始階段有了顯著提高,且擬合曲線的高 R2 值(如易難度為 0.995,中等難度為 0.997,高難度為 0.989)表明模型對(duì)數(shù)據(jù)的擬合效果非常好。為了進(jìn)一步優(yōu)化擴(kuò)展性,可以采用以下策略:

  • 分布式訓(xùn)練架構(gòu) :構(gòu)建高效的分布式訓(xùn)練架構(gòu),將模型訓(xùn)練任務(wù)分配到多個(gè)計(jì)算節(jié)點(diǎn)上并行執(zhí)行。通過(guò)優(yōu)化通信機(jī)制和數(shù)據(jù)分片策略,減少節(jié)點(diǎn)間通信開銷,提高訓(xùn)練效率。
  • 混合精度訓(xùn)練 :結(jié)合 FP16 和 FP32 精度,在保證模型精度的前提下,減少內(nèi)存占用和計(jì)算量,加速訓(xùn)練過(guò)程。同時(shí),采用梯度累積等技術(shù),確保在大規(guī)模并行訓(xùn)練中的梯度更新穩(wěn)定性。

不同難度水平數(shù)據(jù)上的 next-token prediction 準(zhǔn)確率平均表現(xiàn)

上圖展示了 R1-Qwen-14B/32B 在不同難度數(shù)據(jù)上的平均 next-token-prediction 準(zhǔn)確率。從圖中可以看出,RPT 模型在不同難度級(jí)別上均表現(xiàn)出較高的準(zhǔn)確率,進(jìn)一步證明了其在語(yǔ)言建模性能上的優(yōu)勢(shì)。

下圖則展示了 RPT 的 next-token-prediction 準(zhǔn)確率隨著訓(xùn)練計(jì)算量的增加而一致提升的情況。擬合曲線的高決定系數(shù)表明預(yù)測(cè)值與觀測(cè)值之間的一致性較高,這表明 RPT 具有良好的擴(kuò)展性,能夠隨著訓(xùn)練資源的增加而持續(xù)提升性能。

在強(qiáng)化預(yù)訓(xùn)練中,隨著訓(xùn)練計(jì)算量的增加,Next-token prediction accuracy 在所有數(shù)據(jù)難度下均持續(xù)提高。擬合曲線顯示出較高的決定系數(shù),表明預(yù)測(cè)值與觀測(cè)值之間的一致性

強(qiáng)化微調(diào)實(shí)驗(yàn):挖掘 RPT 的深層潛力

在對(duì)強(qiáng)化預(yù)訓(xùn)練(RPT)進(jìn)行全面評(píng)估的過(guò)程中,強(qiáng)化微調(diào)實(shí)驗(yàn)扮演著至關(guān)重要的角色。這一實(shí)驗(yàn)環(huán)節(jié)驗(yàn)證了 RPT 模型在進(jìn)一步強(qiáng)化學(xué)習(xí)微調(diào)中的表現(xiàn),也深入揭示了 RPT 相較于傳統(tǒng)預(yù)訓(xùn)練模型的優(yōu)勢(shì)所在,為 RPT 在實(shí)際應(yīng)用中的有效性提供了有力支撐。(擴(kuò)展閱讀??《強(qiáng)化微調(diào) ReFT:開啟大語(yǔ)言模型推理新范式》)

實(shí)驗(yàn)設(shè)置:精準(zhǔn)篩選與嚴(yán)謹(jǐn)配置

強(qiáng)化微調(diào)實(shí)驗(yàn)的設(shè)置遵循科學(xué)嚴(yán)謹(jǐn)?shù)脑瓌t,從數(shù)據(jù)采樣到參數(shù)配置,每一個(gè)步驟都經(jīng)過(guò)精心設(shè)計(jì)。實(shí)驗(yàn)數(shù)據(jù)源自 Skywork-OR1,從中隨機(jī)采樣 256 個(gè)問(wèn)題用于訓(xùn)練,200 個(gè)問(wèn)題用于測(cè)試,確保數(shù)據(jù)樣本具有足夠的多樣性和代表性。數(shù)據(jù)篩選流程借鑒 SkyworkOR1 的數(shù)據(jù)過(guò)濾管道,利用 R1-Distill-Qwen-32B 模型識(shí)別具有挑戰(zhàn)性的實(shí)例,從而為模型訓(xùn)練提供更具價(jià)值的數(shù)據(jù)素材。

在訓(xùn)練參數(shù)方面,訓(xùn)練批次大小和 PPO 小批次大小均設(shè)置為 64,訓(xùn)練周期數(shù)為 15。這些參數(shù)的選擇基于對(duì)模型學(xué)習(xí)效率與資源消耗的綜合考量,這是為了實(shí)現(xiàn)模型性能提升與計(jì)算成本控制的平衡。評(píng)估設(shè)置中,驗(yàn)證時(shí)的最大 token 數(shù)設(shè)定為 32,000,溫度參數(shù)設(shè)定為 0.6,這些參數(shù)配置為模型性能的準(zhǔn)確評(píng)估提供了標(biāo)準(zhǔn)化的測(cè)試環(huán)境。

對(duì)比分析:顯著優(yōu)勢(shì)與深層原因剖析

對(duì)比分析結(jié)果令人矚目。RPT 模型在僅使用 RLVR 進(jìn)一步訓(xùn)練前后的性能提升顯著,而持續(xù)使用標(biāo)準(zhǔn) next-token-prediction 目標(biāo)訓(xùn)練后的性能提升則相對(duì)有限。RPT-14B 模型在進(jìn)一步 RL 訓(xùn)練后,性能從 56.3 提升到 58.3,而 R1-Distill-Qwen-14B 僅從 51.2 提升到 52.7。這一對(duì)比鮮明的結(jié)果有力地證明了 RPT 為后續(xù) RL 訓(xùn)練提供了更為堅(jiān)實(shí)的基礎(chǔ)。

這一性能差異的背后,源于 RPT 在預(yù)訓(xùn)練階段所培養(yǎng)的推理能力。RPT 通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)模型生成推理序列,使得模型在微調(diào)階段能夠更快地適應(yīng)任務(wù)特定的邏輯要求。例如,在面對(duì)復(fù)雜的數(shù)學(xué)推理任務(wù)時(shí),RPT 模型能夠在微調(diào)過(guò)程中迅速抓住問(wèn)題的關(guān)鍵邏輯,基于預(yù)訓(xùn)練階段形成的推理模式,高效地學(xué)習(xí)任務(wù)特定的解題策略。而傳統(tǒng)預(yù)訓(xùn)練模型由于缺乏這種推理能力的培養(yǎng),在微調(diào)階段需要花費(fèi)更多的時(shí)間和計(jì)算資源來(lái)理解和適應(yīng)任務(wù)邏輯,導(dǎo)致其性能提升較為緩慢。

不同模型的強(qiáng)化微調(diào)性能。“持續(xù)NTP訓(xùn)練”指的是在與RPT-14B相同的語(yǔ)料庫(kù)上,使用標(biāo)準(zhǔn)的 next-token prediction 目標(biāo)進(jìn)行持續(xù)預(yù)訓(xùn)練。RPT為后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練提供了更強(qiáng)大的基礎(chǔ)

上表展示了不同模型的強(qiáng)化微調(diào)性能對(duì)比。可以看出,RPT 在進(jìn)一步 RL 訓(xùn)練后的性能提升明顯優(yōu)于僅使用標(biāo)準(zhǔn) next-token-prediction 目標(biāo)訓(xùn)練的模型,這進(jìn)一步證明了 RPT 的優(yōu)勢(shì)。

推理能力遷移:從預(yù)訓(xùn)練到微調(diào)的橋梁

RPT 的強(qiáng)化微調(diào)實(shí)驗(yàn)還深入探討了推理能力從預(yù)訓(xùn)練到微調(diào)的遷移機(jī)制。在預(yù)訓(xùn)練階段,RPT 模型通過(guò)生成推理序列來(lái)預(yù)測(cè)下一個(gè) token,這一過(guò)程促使模型深入理解文本背后的邏輯結(jié)構(gòu)和語(yǔ)義關(guān)系。當(dāng)進(jìn)入微調(diào)階段時(shí),這種推理能力成為了模型快速適應(yīng)新任務(wù)的有力武器。

以數(shù)學(xué)問(wèn)題求解任務(wù)為例,在預(yù)訓(xùn)練過(guò)程中,RPT 模型已經(jīng)學(xué)會(huì)了如何分析數(shù)學(xué)概念之間的關(guān)系、如何應(yīng)用數(shù)學(xué)定理進(jìn)行推理等。在微調(diào)階段,面對(duì)具體的數(shù)學(xué)問(wèn)題,模型能夠?qū)㈩A(yù)訓(xùn)練階段形成的推理模式遷移到新任務(wù)中,迅速生成針對(duì)問(wèn)題的推理路徑,如 “已知條件是什么”“需要求解的目標(biāo)是什么”“可以應(yīng)用哪些數(shù)學(xué)公式或定理” 等。這種推理能力的遷移使得模型在微調(diào)過(guò)程中能夠以更少的訓(xùn)練數(shù)據(jù)和計(jì)算資源達(dá)到更高的性能水平,展現(xiàn)出更強(qiáng)的任務(wù)適應(yīng)性和學(xué)習(xí)效率。

性能提升的多維度影響:泛化與穩(wěn)定性的增強(qiáng)

強(qiáng)化微調(diào)實(shí)驗(yàn)還從多個(gè)維度分析了 RPT 模型性能提升的影響。在泛化能力方面,RPT 模型在微調(diào)后展現(xiàn)出更強(qiáng)的泛化性能。它能夠在不同類型的數(shù)學(xué)問(wèn)題上保持穩(wěn)定的高準(zhǔn)確率,無(wú)論是代數(shù)問(wèn)題、幾何問(wèn)題還是概率統(tǒng)計(jì)問(wèn)題等。這表明 RPT 模型在預(yù)訓(xùn)練階段所學(xué)習(xí)到的推理能力具有較強(qiáng)的通用性,能夠跨越具體任務(wù)的差異,為模型提供廣泛適用的推理框架。

在穩(wěn)定性方面,RPT 模型在微調(diào)過(guò)程中的訓(xùn)練曲線表現(xiàn)出更少的波動(dòng)和更快的收斂速度。這得益于 RPT 在預(yù)訓(xùn)練階段通過(guò)強(qiáng)化學(xué)習(xí)所形成的穩(wěn)定推理機(jī)制。模型在微調(diào)過(guò)程中能夠更有效地利用訓(xùn)練數(shù)據(jù),避免因數(shù)據(jù)噪聲或任務(wù)特定偏差而導(dǎo)致的訓(xùn)練不穩(wěn)定問(wèn)題。這種穩(wěn)定性有助于提高模型的最終性能,使得模型在實(shí)際應(yīng)用中的表現(xiàn)更加可靠和可預(yù)測(cè)。

零樣本任務(wù)性能評(píng)估:跨領(lǐng)域的強(qiáng)大泛化能力

評(píng)估基準(zhǔn)與設(shè)置優(yōu)化 :選擇 MMLU - Pro 和 SuperGPQA 作為評(píng)估基準(zhǔn)。下表展示了不同模型在 SuperGPQA 基準(zhǔn)測(cè)試中的詳細(xì)零樣本性能表現(xiàn):

在 SuperGPQA 上的零樣本性能

下表則展示了不同模型在 MMLU-Pro 基準(zhǔn)測(cè)試中的詳細(xì)零樣本性能表現(xiàn):

在 MMLU-Pro 上的零樣本性能

在評(píng)估時(shí),MMLU - Pro 的 token 數(shù)量設(shè)置為 12,288,溫度為 0.8;SuperGPQA 的 token 數(shù)量設(shè)置為 12,288,溫度同樣為 0.8,并采用多選題格式進(jìn)行評(píng)估。為了更全面地評(píng)估模型性能,可以增加評(píng)估基準(zhǔn)的多樣性,涵蓋更多領(lǐng)域和任務(wù)類型,如邏輯推理、創(chuàng)意寫作等。

性能對(duì)比與原因分析 :RPT-14B 在推理模式下的性能顯著優(yōu)于 R1-Distill-Qwen-14B(標(biāo)準(zhǔn) next-token-prediction 模式和推理模式)以及 R1-Distill-Qwen-32B(標(biāo)準(zhǔn) next-token-prediction 模式)。例如,在 SuperGPQA 基準(zhǔn)測(cè)試中,RPT-14B 的準(zhǔn)確率為 39.0%,而 R1-Distill-Qwen-14B 為 32.0%,R1-Distill-Qwen-32B 為 37.2%。這表明 RPT 的推理模式能夠幫助模型更好地理解和生成復(fù)雜推理任務(wù)所需的邏輯連貫、語(yǔ)義準(zhǔn)確的文本。其原因在于 RPT 的推理序列生成過(guò)程促使模型深入理解文本背后的邏輯結(jié)構(gòu)和語(yǔ)義關(guān)系,使得模型在面對(duì)不同領(lǐng)域的零樣本任務(wù)時(shí),能夠基于已有的知識(shí)和推理能力進(jìn)行有效的預(yù)測(cè)和推理。

零樣本在通用領(lǐng)域終端任務(wù)上的表現(xiàn)。RPT-14B在推理模式下始終優(yōu)于14B和32B基線模型

上表展示了不同模型在零樣本任務(wù)上的性能對(duì)比??梢钥闯觯琑PT-14B 在推理模式下在多個(gè)基準(zhǔn)測(cè)試中均優(yōu)于基線模型,這進(jìn)一步證明了 RPT 的有效性和優(yōu)勢(shì)。

next-token-reasoning 模式分析:推理背后的思維

為了更清晰地展示推理模式的差異,對(duì)推理模式進(jìn)行了分類,并提取了相應(yīng)的關(guān)鍵詞,具體分類和關(guān)鍵詞如下表所示:

模式組和關(guān)鍵詞

下表展示了七種提示模板的具體內(nèi)容:

七個(gè)針對(duì) next-token 任務(wù)推理的提示模板

推理模式差異統(tǒng)計(jì)與解讀 :對(duì) R1-Distill-Qwen-14B 和 RPT-14B 的推理響應(yīng)進(jìn)行分類統(tǒng)計(jì)發(fā)現(xiàn),RPT-14B 在假設(shè)模式和演繹推理模式上的使用比例顯著更高。假設(shè)模式幫助模型探索多種可能的預(yù)測(cè)路徑,而演繹推理模式基于已知信息進(jìn)行邏輯推導(dǎo),得出更準(zhǔn)確的預(yù)測(cè)結(jié)果。例如,在處理一段關(guān)于物理現(xiàn)象的文本時(shí),RPT-14B 會(huì)生成多種假設(shè),如“假設(shè)接下來(lái)會(huì)解釋物理現(xiàn)象的原因”“假設(shè)會(huì)給出實(shí)驗(yàn)驗(yàn)證方法”,然后通過(guò)演繹推理,結(jié)合上下文信息,確定最合理的預(yù)測(cè)路徑,從而生成準(zhǔn)確的下一個(gè) token。

實(shí)例分析與推理過(guò)程解析 :以具體的推理實(shí)例來(lái)看,RPT-14B 在預(yù)測(cè)下一個(gè) token 時(shí),會(huì)對(duì)語(yǔ)義上下文進(jìn)行深入分析。例如,在處理一段關(guān)于向量大小計(jì)算的文本時(shí),模型會(huì)分析上下文中的關(guān)鍵詞,如 “magnitude”“formulas” 等,然后提出假設(shè):“接下來(lái)可能會(huì)解釋如何計(jì)算向量的大小,或者給出具體的計(jì)算步驟?!?接著,它會(huì)探索多種可能性,如 “可能是列舉計(jì)算步驟,也可能是直接給出公式?!?最后,通過(guò)自我反思和調(diào)整,結(jié)合上下文的結(jié)構(gòu)和語(yǔ)義信息,確定最可能的下一個(gè) token。這一過(guò)程中,模型的推理序列體現(xiàn)了其對(duì)文本深層語(yǔ)義的理解和邏輯推理能力,這是其性能優(yōu)于傳統(tǒng)模型的關(guān)鍵所在。

R1-Distill-Qwen-14B 用于問(wèn)題求解的推理模式統(tǒng)計(jì),以及 RPT-14B 用于 next-token reasoning 的推理模式統(tǒng)計(jì)

上圖展示了 R1-Distill-Qwen-14B 和 RPT-14B 在問(wèn)題解決和 next-token-reasoning 中的推理模式統(tǒng)計(jì)??梢钥闯觯琑PT-14B 在假設(shè)模式和演繹推理模式上的使用比例顯著更高,這表明 RPT 更傾向于通過(guò)多種推理方式來(lái)探索和確定下一個(gè) token。下表則提供了一個(gè) RPT 推理模式的具體示例,展示了 RPT 如何在預(yù)測(cè)過(guò)程中生成推理序列,從而得出更準(zhǔn)確的預(yù)測(cè)結(jié)果。

RPT的推理模式示例

RPT與傳統(tǒng)范式的比較

大型語(yǔ)言模型的擴(kuò)展范式

傳統(tǒng) LLM 的擴(kuò)展范式主要集中在訓(xùn)練時(shí)間和測(cè)試時(shí)間兩個(gè)維度。訓(xùn)練時(shí)間擴(kuò)展通過(guò)增加模型參數(shù)和訓(xùn)練數(shù)據(jù)來(lái)提升性能,而測(cè)試時(shí)間擴(kuò)展則通過(guò)延長(zhǎng)推理計(jì)算來(lái)增強(qiáng)模型的推理能力。RPT 獨(dú)特地將每個(gè) next-token-prediction 視為推理任務(wù)進(jìn)行擴(kuò)展,結(jié)合了訓(xùn)練時(shí)間和測(cè)試時(shí)間擴(kuò)展的優(yōu)點(diǎn)。與傳統(tǒng)范式相比,RPT 在技術(shù)實(shí)現(xiàn)上更加注重推理過(guò)程的構(gòu)建和優(yōu)化,在應(yīng)用場(chǎng)景上更適用于復(fù)雜推理任務(wù),在性能表現(xiàn)上能夠更有效地提升模型的準(zhǔn)確性和泛化能力。例如,與僅通過(guò)增加模型參數(shù)進(jìn)行擴(kuò)展的方式相比,RPT 在不大幅增加模型規(guī)模的情況下,通過(guò)強(qiáng)化推理訓(xùn)練,使得模型在數(shù)學(xué)推理等復(fù)雜任務(wù)上的性能得到了顯著提升,這體現(xiàn)了 RPT 在擴(kuò)展范式上的創(chuàng)新性和優(yōu)勢(shì)。

大型語(yǔ)言模型的強(qiáng)化學(xué)習(xí):RPT 的獨(dú)特優(yōu)勢(shì)與創(chuàng)新

強(qiáng)化學(xué)習(xí)在 LLM 后訓(xùn)練階段的應(yīng)用已取得顯著成果。例如,基于人類反饋的強(qiáng)化學(xué)習(xí)能夠使模型更好地對(duì)齊人類偏好,而大規(guī)模 RL 則提升了模型的推理能力。RPT 與以往工作的主要區(qū)別在于采用基于 next-token 預(yù)測(cè)正確性的規(guī)則獎(jiǎng)勵(lì)信號(hào),有效避免了獎(jiǎng)勵(lì)劫持問(wèn)題。這種創(chuàng)新的獎(jiǎng)勵(lì)機(jī)制使得 RPT 在強(qiáng)化學(xué)習(xí)方法上更具有優(yōu)勢(shì),能夠更穩(wěn)定地提升模型的性能和應(yīng)用效果。與傳統(tǒng)的基于獎(jiǎng)勵(lì)模型的 RL 方法相比,RPT 的規(guī)則獎(jiǎng)勵(lì)信號(hào)更加直接和客觀,減少了因獎(jiǎng)勵(lì)模型偏差導(dǎo)致的訓(xùn)練不穩(wěn)定問(wèn)題,從而提高了模型訓(xùn)練的效率和最終性能。

總結(jié):洞察與展望

強(qiáng)化預(yù)訓(xùn)練(RPT)的提出,無(wú)疑是大型語(yǔ)言模型(LLM)預(yù)訓(xùn)練領(lǐng)域的一次重大革新。它在技術(shù)層面實(shí)現(xiàn)了突破,更深刻地改變了我們對(duì)模型認(rèn)知方式的理解。從傳統(tǒng)的 next-token-prediction 到創(chuàng)新性的 next-token-reasoning,這一轉(zhuǎn)變,已經(jīng)不再是簡(jiǎn)單的任務(wù)重構(gòu),而是模型認(rèn)知模式的一次質(zhì)的飛躍。

在 next-token-prediction 中,模型的角色類似于一位機(jī)械的記憶者,僅憑統(tǒng)計(jì)規(guī)律預(yù)測(cè)下一個(gè) token。然而,RPT 將這一過(guò)程進(jìn)化為 next-token-reasoning,賦予了模型戰(zhàn)略 “思考” 的能力。在 RPT 框架下,模型不再是簡(jiǎn)單地根據(jù)已有的詞頻統(tǒng)計(jì)等模式進(jìn)行預(yù)測(cè),而是需要先理解上下文中的關(guān)鍵信息,生成推理序列,再進(jìn)行預(yù)測(cè)。以數(shù)學(xué)問(wèn)題為例,模型不再死記硬背數(shù)學(xué)符號(hào)的順序,而是通過(guò)推理序列,如 “考慮變量之間的關(guān)系”“應(yīng)用定理公式” 等,逐步推導(dǎo)出下一個(gè) token。這種類似于人類思考的過(guò)程,使模型能夠深入挖掘文本背后的語(yǔ)義和邏輯,而非停留在表面的 token 級(jí)相關(guān)性上。

這種進(jìn)化帶來(lái)的影響是深遠(yuǎn)而多維的。RPT 模型在語(yǔ)言建模性能上的提升就是最直觀的體現(xiàn)。比如實(shí)驗(yàn)數(shù)據(jù)顯示,RPT-14B 在高難度 token 位置上的準(zhǔn)確率達(dá)到 23.75%,相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升。這表明 RPT 模型能夠更精準(zhǔn)地把握文本的深層結(jié)構(gòu)和復(fù)雜語(yǔ)義關(guān)系。這種性能提升不會(huì)是偶然的,而是源于 RPT 對(duì)模型認(rèn)知能力的重塑。RPT 通過(guò)強(qiáng)化學(xué)習(xí)機(jī)制,激勵(lì)模型生成推理序列,使模型在訓(xùn)練過(guò)程中主動(dòng)思考文本的內(nèi)在邏輯和語(yǔ)義關(guān)系,探索多種可能的推理路徑。這種學(xué)習(xí)方式使模型能夠跳出單純的記憶模式,轉(zhuǎn)而培養(yǎng)起強(qiáng)大的泛化能力,從而在面對(duì)新的、未見過(guò)的文本時(shí)表現(xiàn)更佳。

更為重要的是,RPT 的推理能力具有強(qiáng)大的泛化潛力。它使模型在面對(duì)不同領(lǐng)域和類型的文本時(shí),能夠靈活運(yùn)用推理策略,而非依賴于對(duì)特定數(shù)據(jù)模式的死記硬背。在數(shù)學(xué)領(lǐng)域,RPT 模型能夠通過(guò)推理序列深入理解數(shù)學(xué)概念和定理之間的關(guān)系;在文學(xué)領(lǐng)域,它則可以分析文本的情感脈絡(luò)和修辭手法。這種泛化能力的提升,無(wú)疑為 LLM 在更多領(lǐng)域的應(yīng)用開辟了廣闊的空間。例如,在教育領(lǐng)域,RPT 可以幫助構(gòu)建更智能的教育輔導(dǎo)系統(tǒng),根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和知識(shí)掌握情況,生成個(gè)性化的學(xué)習(xí)材料和問(wèn)題解答;在科研領(lǐng)域,RPT 能夠輔助研究人員進(jìn)行文獻(xiàn)分析和科學(xué)發(fā)現(xiàn),提升科研效率。

當(dāng)然,我們必須認(rèn)識(shí)到 RPT 當(dāng)前的局限性。實(shí)驗(yàn)主要基于 14B 參數(shù)模型,預(yù)訓(xùn)練語(yǔ)料以數(shù)學(xué)文檔為主,這使得模型在非數(shù)學(xué)領(lǐng)域的推理能力略顯不足。此外,訓(xùn)練起點(diǎn)依賴推理模型,可能會(huì)影響 RPT 的普適性和靈活性。如果初始推理模型在某些特定任務(wù)上存在缺陷或偏差,可能會(huì)對(duì) RPT 的訓(xùn)練效果產(chǎn)生負(fù)面影響,限制其在不同場(chǎng)景下的應(yīng)用范圍。

RPT 的提出,我認(rèn)為是 LLM 預(yù)訓(xùn)練領(lǐng)域的一座新里程碑。它為我們提供了當(dāng)下極具價(jià)值的技術(shù)方案。我的理解在于,論文中提到的推理范式的轉(zhuǎn)變,大家不覺得有點(diǎn)類似于從 CoT(Chain-of-Thought,思維鏈)式思考轉(zhuǎn)向了 ToT(Tree-of-Thought,思維樹)式思考嗎。以下我做了簡(jiǎn)單的對(duì)比。

CoT 與 ToT 的基本概念

  • CoT(思維鏈):強(qiáng)調(diào)模型在生成答案之前進(jìn)行逐步的推理,像是逐步思考和探索的鏈?zhǔn)竭^(guò)程。例如,面對(duì)一個(gè)數(shù)學(xué)問(wèn)題,CoT 方法會(huì)要求模型先進(jìn)行分解問(wèn)題、嘗試不同解決步驟等,最后得到答案。
  • ToT(思維樹):在 CoT 的基礎(chǔ)上,增加了探索的廣度,即生成多個(gè)可能的推理路徑,形成一個(gè)“樹”狀的思考結(jié)構(gòu)。它不僅關(guān)注縱向的推理深度,還注重橫向的多種可能性探索。

RPT 與 CoT、ToT 的關(guān)系

  • 與 CoT 的相似性:RPT 的核心思想是將 next - token - prediction 重構(gòu)為 next - token - reasoning 任務(wù),要求模型生成推理序列。這類似于 CoT 的逐步推理方式,強(qiáng)調(diào)在生成答案之前進(jìn)行深入的思考和分析。
  • 與 ToT 的相似性:RPT 中模型需要生成多個(gè)不同的思考軌跡(如 G 個(gè)響應(yīng)),每個(gè)軌跡包含一個(gè)推理序列和對(duì)應(yīng)的下一個(gè) token 預(yù)測(cè)。這一過(guò)程類似于 ToT 的多路徑探索,模型在多個(gè)可能的推理路徑中進(jìn)行嘗試和評(píng)估,從而提高預(yù)測(cè)的準(zhǔn)確性和泛化能力。

RPT 的獨(dú)特優(yōu)勢(shì)

  • 更靈活的推理模式:RPT 不僅包含 CoT 的鏈?zhǔn)酵评恚€融合了 ToT 的樹狀探索,使模型能夠從多個(gè)角度思考問(wèn)題,提升了推理的全面性和深入性。例如,在文本生成任務(wù)中,模型不僅能按部就班地進(jìn)行邏輯推理,還能同時(shí)嘗試多種可能的表述方式,選擇最合適的一種。
  • 強(qiáng)化學(xué)習(xí)的激勵(lì)作用:RPT 利用強(qiáng)化學(xué)習(xí)直接根據(jù)預(yù)測(cè)的正確性給予獎(jiǎng)勵(lì),引導(dǎo)模型優(yōu)化推理過(guò)程。這種激勵(lì)機(jī)制促使模型在推理過(guò)程中更加注重思考的準(zhǔn)確性和有效性,使模型能夠更好地學(xué)習(xí)如何進(jìn)行合理的推理。
  • 在預(yù)訓(xùn)練階段的深度整合:RPT 將推理能力的培養(yǎng)深度融入預(yù)訓(xùn)練過(guò)程,使其成為模型內(nèi)在的基礎(chǔ)能力。這與 CoT 和 ToT 通常在模型生成階段的運(yùn)用不同,為模型提供了更堅(jiān)實(shí)、更通用的推理基礎(chǔ)。

所以基于以上的理解,RPT 的推理范式轉(zhuǎn)變,是否是吸收了 CoT 和 ToT 的優(yōu)點(diǎn),并通過(guò)強(qiáng)化學(xué)習(xí)等機(jī)制進(jìn)一步優(yōu)化了推理過(guò)程,為大型語(yǔ)言模型的預(yù)訓(xùn)練和性能提升帶來(lái)了新的突破。

我在看這篇論文的時(shí)候非常興奮,這不僅是因?yàn)?RPT 范式為大型語(yǔ)言模型的預(yù)訓(xùn)練帶來(lái)了全新的思路,還因?yàn)檫@讓我又一次看到了模型向上吞噬的能力??赡苡行』锇闀?huì)詫異或者叫擔(dān)心,模型向上吞噬,那這不是意味著應(yīng)用又薄了嗎?那么做工程應(yīng)用的飯碗又淺了一些?模型能力的不斷提升,是否會(huì)擠壓工程應(yīng)用的生存空間,甚至讓人類在技術(shù)面前變得無(wú)足輕重?

然而,我堅(jiān)信并非如此。因?yàn)楝F(xiàn)實(shí)世界的知識(shí)、人類的能力、認(rèn)知向 AI 壓縮的過(guò)程,會(huì)進(jìn)一步提升應(yīng)用智能的飛躍。想想看,AI 的發(fā)展從通用模型到如今廣泛涌現(xiàn)的 Reason Model,這是模型通過(guò) RL 范式的一次向上吞噬,或許這里用吞噬并不合適,因?yàn)檫@是人類的智慧讓模型發(fā)生了躍遷。如今 RPT 范式所展現(xiàn)的類 ToT(Tree of Thought)戰(zhàn)略思考模式,這每一次模型的進(jìn)化,都并非是對(duì)人類的替代,而是對(duì)人類能力的有力補(bǔ)充。所帶來(lái)的直接收益就是,上層 AI 應(yīng)用性能的增強(qiáng),AI 應(yīng)用的推理準(zhǔn)確性得到提升,自動(dòng)化智能化的效能更高,最終受益的還是人!

RPT 范式的提出,可以看作是基于之前訓(xùn)練范式的又一次飛躍,這一次模型幾乎是基于 ToT 的戰(zhàn)略思考模式來(lái)“定義任務(wù)”,而不單純是“推理任務(wù)”?;叵胍幌麻_篇我提到的 Openai 推理模型 o3 的能力,或許它的背后已應(yīng)用了這樣的戰(zhàn)略思考范式,所以才可以實(shí)現(xiàn)模型的“跨域”知識(shí)的推理。因?yàn)槟P汀把劢纭睂捔?,“看”到的東西不一樣了,認(rèn)知就會(huì)有“高度”,綜合推理的水平就會(huì)上升,Knowledge is power!那么在此,我們思考一下,應(yīng)用可以基于這樣已進(jìn)化的推理模型做哪些事情?一個(gè)單一具體的假設(shè),也許,頂層的 Agent 對(duì)于 Graph 的推理可能不再是難題。因?yàn)槟P鸵呀?jīng)高效的應(yīng)用了類 ToT 的思考模式,這可能將極大地推動(dòng) Agent 在 GoT(Graph of Thought)實(shí)現(xiàn)算法上的進(jìn)化,使其更加高效和易于實(shí)現(xiàn)。同時(shí),這也意味著 AI Agent 的能力基于模型能力進(jìn)化的現(xiàn)實(shí),也會(huì)帶來(lái)協(xié)同進(jìn)化的增強(qiáng)效應(yīng)。這也正是我閱讀這篇論文讓我興奮的原因,說(shuō)不定再過(guò)半年,類似“戰(zhàn)略思考”的推理范式就會(huì)落地并普及。

在此,RL范式再次彰顯了其強(qiáng)大的力量。當(dāng)我們面對(duì)模型的進(jìn)化時(shí),無(wú)需恐懼或退縮。在人類文明的歷史中,每一次人類發(fā)明的工具實(shí)現(xiàn)進(jìn)化,人類與這些進(jìn)化工具的交互都會(huì)推動(dòng)整個(gè)文明的躍遷。我們應(yīng)當(dāng)正視這一現(xiàn)象,并基于工具的進(jìn)化,挖掘人類更深層的創(chuàng)造力。人一定是這場(chǎng)技術(shù)革命的核心,人類也必須是這場(chǎng)技術(shù)革命的主宰者!

責(zé)任編輯:龐桂玉 來(lái)源: 覺察流
相關(guān)推薦

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-06-11 14:45:57

強(qiáng)化學(xué)習(xí)訓(xùn)練模型

2025-08-24 09:24:07

2025-06-12 08:46:00

2022-11-28 14:00:24

人工智能

2023-10-25 09:50:07

自動(dòng)駕駛訓(xùn)練

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2025-09-23 03:00:00

2025-06-30 09:08:00

2023-06-26 07:10:51

2025-07-10 14:51:29

人工智能AI模型

2017-12-26 13:53:31

深度學(xué)習(xí)遷移學(xué)習(xí)

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2024-11-04 00:24:56

2024-04-28 08:00:41

2020-03-17 09:42:00

谷歌開源機(jī)器學(xué)習(xí)

2023-06-12 07:50:45

2025-10-10 07:48:12

大模型預(yù)訓(xùn)練初始化

2023-06-09 07:29:03

模型文本document

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)