偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM可以在沒有采用強化學(xué)習(xí)或大型數(shù)據(jù)集的情況下學(xué)習(xí)推理嗎?

譯文 精選
人工智能
LLM能否通過學(xué)習(xí)自己生成的推理痕跡來提高推理能力?他們提出了“??思考、修剪、訓(xùn)練??”(TPT)框架,允許LLM使用精心選擇的自生成數(shù)據(jù)迭代地改進(jìn)它們的推理能力。?

譯者 | 李睿

審校 | 重樓

針對提升LLM推理能力面臨的挑戰(zhàn),斯坦福大學(xué)研究人員提出了“思考、修剪、訓(xùn)練”(TPT)框架,讓LLM利用自生成且驗證正確的數(shù)據(jù)迭代優(yōu)化。研究表明,無需強化學(xué)習(xí)、大型數(shù)據(jù)集或外部教師模型,TPT可以使較小模型推理性能媲美甚至超越大模型,凸顯了TPT框架在提升模型推理能力和準(zhǔn)確性的潛力。

目前,缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)仍然是提高大型語言模型(LLM)推理能力的主要障礙之一。

斯坦福大學(xué)研究人員最近進(jìn)行的一項研究探索了一個頗具吸引力的替代方案:LLM能否通過學(xué)習(xí)自己生成的推理痕跡來提高推理能力?他們提出了“思考、修剪、訓(xùn)練”(TPT)框架,允許LLM使用精心選擇的自生成數(shù)據(jù)迭代地改進(jìn)它們的推理能力。

這種方法可能是朝著創(chuàng)造更智能、更高效的人工智能模型邁出的一步,而不是簡單地構(gòu)建更大的模型和數(shù)據(jù)集。

提升人工智能推理能力面臨的挑戰(zhàn)

在LLM進(jìn)行初始訓(xùn)練之后,提升其推理能力目前主要有兩種策略。一種方法是“監(jiān)督微調(diào)”(SFT),即LLM從精心整理的問題數(shù)據(jù)集及其逐步解決方案中學(xué)習(xí)。另一種流行的方法是蒸餾”,即一個規(guī)模較小的LLM通過模仿一個能力更強、規(guī)模更大的“教師”模型的輸出進(jìn)行學(xué)習(xí)。

而這兩種方法都有局限性。SFT需要大量高質(zhì)量的推理示例數(shù)據(jù)集,創(chuàng)建這些數(shù)據(jù)集通常成本昂貴又耗時。另一方面,“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題:LLM能否通過對自己生成的數(shù)據(jù)進(jìn)行遞歸微調(diào)來改進(jìn)?早期的嘗試面臨著一個被稱為“模式崩潰”(Mode Collapse)的重大障礙。當(dāng)LLM在未經(jīng)過濾的輸出上迭代訓(xùn)練時,它們的性能往往會隨著時間的推移而下降,可能會開始產(chǎn)生幻覺,忘記以前學(xué)到的知識,并生成質(zhì)量較低的文本,從而陷入惡性循環(huán)。

在迭代訓(xùn)練中,一個相關(guān)但不同的風(fēng)險是“模式崩潰”。當(dāng)一個模型開始收斂于一組狹窄的高概率輸出時,就會發(fā)生這種情況,其響應(yīng)變得不那么多樣化和具有探索性。雖然之前關(guān)于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上,但對于可以驗證正確性的推理任務(wù)進(jìn)行遞歸微調(diào),則帶來了模式崩潰的可能性,即模型局限于非常具體的答案,失去了探索替代推理路徑的能力。

思考、修剪、訓(xùn)練(TPT)框架

斯坦福大學(xué)研究人員希望探究,在不采用其他方法帶來的復(fù)雜性的情況下,模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學(xué)習(xí)(RL)問題,但TPT采取了更為直接的路徑。

它采用標(biāo)準(zhǔn)的SFT,但有一個關(guān)鍵轉(zhuǎn)折:模型僅在經(jīng)過驗證的正確推理嘗試中進(jìn)行微調(diào)。研究人員探索了是否可以通過仔細(xì)選擇這種自生成的數(shù)據(jù)來實現(xiàn)有效的迭代細(xì)化。

以下是思考、修剪、訓(xùn)練(TPT)框架的工作原理:

  • 思考(Think):提示當(dāng)前版本的模型為一組問題生成逐步解決方案(推理痕跡或“思維鏈”)。
  • 修剪(Prune):這是一種過濾解決方案,通過檢查已知的基本事實答案,只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓(xùn)練嘗試中出現(xiàn)的模式崩潰的關(guān)鍵。
  • 訓(xùn)練(Train):使用SFT在其自身經(jīng)過驗證的正確推理軌跡集上對模型進(jìn)行微調(diào)。

然后重復(fù)這個循環(huán),新改進(jìn)的模型為下一輪TPT生成數(shù)據(jù)。

圖1 思考、修剪、訓(xùn)練(TPT)框架的工作原理

至關(guān)重要的是,與DeepSeek-R1或LLaMA 3.1的后訓(xùn)練(Post-training)等模型中使用的基于強化學(xué)習(xí)(RL)的方法不同,TPT只關(guān)注這種遞歸的、基于正確性的SFT。它表明,不需要強化學(xué)習(xí)、學(xué)習(xí)獎勵函數(shù)或外部“教師”模型,而是依靠結(jié)構(gòu)化提示和基礎(chǔ)事實驗證,就可以實現(xiàn)自我完善。

為了嚴(yán)格測試這些改進(jìn)是否來自真正的自我完善,而不僅僅是接觸更多的數(shù)據(jù),研究人員仔細(xì)設(shè)計了實驗。在每一輪TPT中,他們保持訓(xùn)練數(shù)據(jù)集大小不變,每個問題只使用一個唯一的正確解決方案。

此外,他們并沒有在各輪TPT流程中積累數(shù)據(jù),而是采用最新模型版本中新生成的解決方案取代了訓(xùn)練集。這確保了任何性能提升都真正歸功于迭代改進(jìn)過程。

正如斯坦福大學(xué)研究人員在論文所指出的那樣,“研究表明,在嚴(yán)格的數(shù)據(jù)約束下,迭代微調(diào)可以帶來有意義的收益,這表明模型改進(jìn)不僅僅是數(shù)據(jù)集的擴展?!?/p>

讓更小的模型發(fā)揮更大的作用

研究人員在谷歌公司的Gemma模型(gemma2-2b-it, gemma2-9b-it)和Meta公司的Llama模型(Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc)的指令調(diào)優(yōu)版本上測試了TPT,主要在GSM8K數(shù)學(xué)單詞問題基準(zhǔn)和CodeContests編程挑戰(zhàn)數(shù)據(jù)集上對它們進(jìn)行了評估。

其結(jié)果令人矚目。通過TPT流程,相對較小的模型實現(xiàn)了與更大的模型相當(dāng)甚至更優(yōu)的推理性能。例如,在GSM8K上,Gemma2-2B模型的準(zhǔn)確率(Pass@1,意味著首次嘗試就獲得正確結(jié)果)從41.9%躍升至57.6%。Gemma2-9B模型超過了規(guī)模更大的LLaMA-3.1-70B-Instruct的基準(zhǔn)性能。相應(yīng)地,使用TPT的LLaMA-3.1-70B將Pass@1分?jǐn)?shù)從78.6%提升至91.5%,甚至超過了當(dāng)時GPT-4o在該基準(zhǔn)上的報告得分。

有趣的是,這些模型性能提升的速度各不相同。規(guī)模較小的Gemma-2-2B模型的性能需要四輪TPT才能達(dá)到峰值,而中等規(guī)模的Gemma-2-9B模型在三輪TPT內(nèi)提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升,這表明較大模型可能更快地整合了自生成推理的學(xué)習(xí)內(nèi)容。

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現(xiàn)

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試(Pass@1)時的準(zhǔn)確性不斷提高,但它們在多次嘗試(通過Pass@20或Pass@50測量)中生成多種正確答案的能力在第一輪TPT之后趨于平穩(wěn)。這表明,TPT流程確實引導(dǎo)這些模型優(yōu)先考慮高可信度、正確的解決方案,而不是探索不同的推理路徑。然而,研究人員認(rèn)為,這并不一定對數(shù)學(xué)和編程等任務(wù)有害,在這些任務(wù)中,正確性和效率往往是最重要的。通過將模型集中在經(jīng)過驗證的推理上,TPT甚至可以幫助減少幻覺,并提高對準(zhǔn)確性敏感的應(yīng)用程序的可靠性。

“思考、修剪、訓(xùn)練”(TPT)框架有力地論證了大型語言模型(LLM)能夠進(jìn)行自我訓(xùn)練成為更優(yōu)秀的推理者。正如研究人員在論文中所寫的那樣,“結(jié)構(gòu)化推理提示、基于正確性的修剪,以及對經(jīng)過驗證的解決方案的監(jiān)督微調(diào),可以在沒有外部監(jiān)督的情況下實現(xiàn)推理能力的自我提升,凸顯了簡化框架在LLM推理和準(zhǔn)確性方面進(jìn)一步發(fā)展的潛力?!?/p>

原文標(biāo)題:Can LLMs learn to reason without RL or large datasets?,作者:Ben Dickson

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2025-05-28 02:25:00

2024-09-13 06:32:25

2025-10-10 09:02:16

2025-03-21 13:00:54

2025-10-11 04:00:00

2022-07-31 23:55:23

區(qū)塊鏈加密貨幣代幣

2022-12-01 08:00:00

2025-06-05 06:36:17

2025-10-10 08:33:49

2021-03-05 09:00:00

人工智能強化學(xué)習(xí)廣告

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2025-05-26 17:16:51

2019-07-19 13:39:47

2022-12-21 17:27:30

強化學(xué)習(xí)AI

2025-06-10 11:22:09

強化學(xué)習(xí)AI模型

2025-02-20 09:11:28

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-03-07 09:24:00

2021-04-13 16:18:30

人工智能強化學(xué)習(xí)人臉識別
點贊
收藏

51CTO技術(shù)棧公眾號