砍掉99%采樣成本!騰訊AI Lab提出大模型無監(jiān)督訓(xùn)練新技術(shù)
只要微調(diào)模型生成的前8-32個詞,就能讓大模型推理能力達(dá)到和傳統(tǒng)監(jiān)督訓(xùn)練一樣的水平?
騰訊AI Lab與香港中文大學(xué)(深圳)合作開展了一項新研究,提出了這樣一種名為無監(jiān)督前綴微調(diào)(UPFT)的方法。
UPFT大大降低了訓(xùn)練模型的數(shù)據(jù)生產(chǎn)成本,能夠將訓(xùn)練時間縮短約75%,并將采樣成本降低約99%。
團隊研究發(fā)現(xiàn),關(guān)鍵的正確推理信號,全都藏在模型的“前幾步”里,將這種現(xiàn)象稱為“推理前序自一致性”。
基于這一發(fā)現(xiàn),團隊嘗試僅微調(diào)模型生成的前8-32個詞,結(jié)果其推理能力果真可達(dá)到與傳統(tǒng)監(jiān)督訓(xùn)練相當(dāng)?shù)乃健?/p>
UPFT不僅降低了大模型的訓(xùn)練耗時和采樣成本,在減少訓(xùn)練序列長度和內(nèi)存消耗方面也展示了顯著優(yōu)勢,訓(xùn)練序列長度縮減了82.6-94.7%。
突破大模型訓(xùn)練算力瓶頸
數(shù)據(jù)生產(chǎn)是訓(xùn)練大模型(LLM)過程中的一大難題,尤其是算力成本的快速攀升給研究和應(yīng)用帶來了巨大挑戰(zhàn)。
傳統(tǒng)方法在讓模型學(xué)會推理時,通常采用生成大量候選解,然后從中篩選出正確的推理路徑進(jìn)行訓(xùn)練的方式。
這種策略看似直接,但實際操作中卻面臨諸多困難。
以數(shù)學(xué)解題為例,上述方法通常需要為每道題目生成16個候選解,再從中篩選出正確的完整推理鏈。
這種方式對算力的需求極大——每次訓(xùn)練迭代,模型需要進(jìn)行數(shù)十次采樣,GPU算力消耗呈現(xiàn)快速增長的趨勢。
單次數(shù)據(jù)生產(chǎn)可能消耗數(shù)百萬token的算力資源,而當(dāng)題目難度增加時,所需的采樣量和算力開銷還會進(jìn)一步提升。
這種高成本的訓(xùn)練方式,不僅效率較低,也成為技術(shù)落地的一大障礙。
在小規(guī)模實驗中,這種方法尚可勉強支撐,但若面對百萬級題庫,算力成本的壓力將變得難以承受。
研究團隊發(fā)現(xiàn),與其讓模型進(jìn)行大量盲目采樣,不如將重點放在識別真正重要的正確推理信號上。
這種更有針對性的策略不僅能夠提升效率,還能顯著降低算力開銷。接下來,我們將進(jìn)一步探討他們的核心發(fā)現(xiàn)和解決方案。
找到AI解題的關(guān)鍵信號
在AI解決數(shù)學(xué)問題的過程中,人們或許會認(rèn)為它具備某種“隨機應(yīng)變”的能力,但事實果真如此嗎?
通過一系列嚴(yán)謹(jǐn)?shù)膶嶒?,研究者們揭示了一個令人驚訝的現(xiàn)象:
AI在解題時,真正決定正確答案的推理信號,可能早已隱藏在其推理路徑的“前幾步”之中。
這一現(xiàn)象被研究者稱為“推理前序自一致性”。
具體而言,無論AI在后續(xù)的推理過程中如何“發(fā)散思維”,其推理路徑的開端幾乎呈現(xiàn)出高度一致的模式。
這一發(fā)現(xiàn)不僅揭示了AI解題的底層邏輯,也為優(yōu)化訓(xùn)練策略提供了全新的視角。
以一個典型實驗為例,研究者讓模型針對某道數(shù)學(xué)題生成了8個不同的解題方案(標(biāo)記為A1至A8)。
盡管這些方案的最終答案可能千差萬別,但令人意外的是,前32個詞的內(nèi)容幾乎完全相同。
這一現(xiàn)象表明,AI推理過程中的關(guān)鍵信號似乎集中在推理的起點部分,而后續(xù)的“發(fā)散”更多是表象。
△讓模型針對同一問題,隨機生成8次解答
為了進(jìn)一步探明這一現(xiàn)象的本質(zhì),研究團隊分別使用通用型模型(Llama-3.1-8B-Instruct)和數(shù)學(xué)專精模型(Qwen2.5-Math-7B-Instruct)進(jìn)行了實驗。
研究者讓這兩款模型針對一系列數(shù)學(xué)題目生成了多達(dá)1000條解題方案,并對這些推理路徑進(jìn)行了詳細(xì)分析。
實驗結(jié)果表明,有大量的獨立推理路徑共享相同的推理前序。
并且隨著前綴長度的增加,每種推理前序所對應(yīng)的平均推理路徑數(shù)量逐漸減少,AI生成的解題方案開始呈現(xiàn)出“分化”的趨勢。
這一發(fā)現(xiàn)為“推理前序自一致性”提供了強有力的證據(jù),也進(jìn)一步證實了關(guān)鍵推理信號集中在推理起點的假設(shè)。
△前序長度和推理路徑數(shù)量的關(guān)系
既然不同的推理路徑可能共享相同的推理前序,那么一個關(guān)鍵問題隨之而來——
究竟需要多長的前序長度,才能有效區(qū)分正確與錯誤的推理路徑?
為了回答這一問題,研究團隊設(shè)計了專門的實驗,分別從正確和錯誤的推理路徑中提取樣本,并針對這些路徑的前序部分進(jìn)行了大規(guī)模采樣分析。
實驗結(jié)果下圖所示,研究者發(fā)現(xiàn)了一個重要的臨界點:
只有當(dāng)前序長度超過某個臨界長度時,正確路徑與錯誤路徑之間的差異才開始顯現(xiàn),并能夠被有效區(qū)分。
這一發(fā)現(xiàn)表明,前序長度在推理路徑的分化中起著至關(guān)重要的作用,而這個臨界長度則為后續(xù)優(yōu)化模型推理策略提供了一個重要的參考標(biāo)準(zhǔn)。
△正確和錯誤在開頭部分很難區(qū)分
從貝葉斯視角看問題:覆蓋范圍與準(zhǔn)確性的平衡
為了更深入地理解這一問題,研究團隊引入了一種基于貝葉斯框架的科學(xué)視角,來重新審視訓(xùn)練過程。
簡單來說,貝葉斯框架是一種概率推理的方法,它幫助我們理解模型在面對一個問題時,如何通過不同的推理路徑得出正確答案的可能性。
在這一框架下,模型的表現(xiàn)可以被分解為兩個關(guān)鍵因素:推理路徑的“覆蓋范圍”和“準(zhǔn)確性”。
覆蓋范圍指的是模型在面對一個問題時,能夠探索到多少種不同的解題思路。
用貝葉斯的語言來說,這相當(dāng)于模型在生成推理路徑時的“先驗分布”——即模型能夠覆蓋的解題思路越廣泛,它找到正確答案的可能性就越高。
準(zhǔn)確性指的是在某一條具體的推理路徑上,模型最終得出正確答案的可能性。
在貝葉斯框架中,這可以看作是“條件概率”——即給定某條推理路徑,模型得出正確答案的概率越高,這條路徑的質(zhì)量就越好。
傳統(tǒng)的“拒絕微調(diào)”策略雖然在保證準(zhǔn)確性方面表現(xiàn)不錯——因為它只選擇了那些最終答案正確的推理路徑——但卻忽略了覆蓋范圍的重要性。
換句話說,這種方法過于“挑剔”,只關(guān)注了“正確答案”,而沒有充分利用那些可能包含寶貴解題思路但最終答案錯誤的推理路徑。
這種“只選一個正確答案”的做法,實際上限制了模型的學(xué)習(xí)潛力。
△平衡數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)覆蓋程度
基于上述分析,研究者們提出了一種新方法,試圖找到一個平衡點,既能保證答案準(zhǔn)確,又能探索更多解題思路。
他們發(fā)現(xiàn),解題路徑的前半部分(稱為“前綴”)往往包含了多種可能的解題思路,而后半部分則更決定最終答案是否正確。
因此,他們提出只訓(xùn)練模型生成前綴部分,既能覆蓋更多解題思路,又能減少計算成本。
具體來說,他們讓模型生成解題路徑的前半部分,并用這些前綴來訓(xùn)練模型,從而在效率和效果之間找到更好的平衡。
研究人員將這種方法命名為無監(jiān)督前綴微調(diào)(Unsupervised Prefix Finetuning, UPFT)。
對于每道題目,他們只生成一條推理路徑,而不是像傳統(tǒng)方法那樣生成多達(dá)16條。
同時,他們對生成的內(nèi)容進(jìn)行了優(yōu)化:對于10%的題目,生成完整的解題路徑;而對于剩下的90%,只生成解題路徑的前半部分(即前幾個關(guān)鍵步驟)。
這種方式既節(jié)省了計算資源,又能讓模型接觸到多樣化的解題思路。
1/10采樣成本取得更優(yōu)性能
為了驗證UPFT方法的有效性,研究團隊測試了以下兩種場景:
- 對于沒有標(biāo)準(zhǔn)答案的數(shù)據(jù)進(jìn)行無監(jiān)督采樣:每個問題僅采樣一個解決方案,不進(jìn)行過濾。
- 對于有標(biāo)準(zhǔn)答案的數(shù)據(jù)進(jìn)行有監(jiān)督采樣:傳統(tǒng)方法每題采樣16個解決方案,通過正確答案篩選正確解決方案。
在實驗設(shè)置上,研究團隊使用了通用模型(Llama-3.1-8B-Instruct)和數(shù)學(xué)專用模型(Qwen2.5-Math-7B-Instruct),以及目前十分火熱的R1類型的長思維鏈模型(DeepSeek-R1-Distill-Qwen-7B)。
測試選擇了多個具有挑戰(zhàn)性的推理基準(zhǔn)測試,包括GSM8K(數(shù)學(xué)推理)、Math500(復(fù)雜數(shù)學(xué)題)、AIME2024(數(shù)學(xué)競賽題)和GPQA(綜合科學(xué)推理)。
結(jié)果,UPFT在性能和成本上都展現(xiàn)了顯著優(yōu)勢,提升性能的同時減少了訓(xùn)練token數(shù)量。
UPFT提高無監(jiān)督上限
結(jié)果表明,與傳統(tǒng)的監(jiān)督微調(diào)(SFT)相比,UPFT在多個方面表現(xiàn)出色:
- 在使用U-Hard數(shù)據(jù)集時,Qwen2.5-Math-7B-Instruct的UPFT準(zhǔn)確率達(dá)到了54.5%,而SFT僅為51.3%。
- 對于DeepSeek-R1-Distill-Qwen-7B,UPFT達(dá)到了61.6%的準(zhǔn)確率,而SFT為56.4%。
△UPFT和傳統(tǒng)SFT方法的無監(jiān)督對比實驗結(jié)果
在更具挑戰(zhàn)性的任務(wù)(例如AIME2024和GPQA)中,UPFT的表現(xiàn)更為突出。
在AIME2024上,Qwen2.5-Math-7B-Instruct的UPFT準(zhǔn)確率為26.6%,相比之下,SFT為16.7%。對于DeepSeek-R1,UPFT達(dá)到了50.0%,而SFT為36.7%。
在GPQA科學(xué)推理任務(wù)中,UPFT同樣表現(xiàn)優(yōu)異,超越了SFT。
在效率方面,UPFT展示出了極大的優(yōu)勢。UPFT顯著減少了訓(xùn)練序列長度,縮減了82.6-94.7%。
在U-Hard上的平均token數(shù)為68.2,而SFT需要393.3個token,內(nèi)存消耗大幅降低。在DeepSeek-R1-Distill模型上僅用561個標(biāo)記就優(yōu)于SFT的3440個標(biāo)記,顯示了其極高的效率。
UPFT超越有監(jiān)督SFT性能
為了進(jìn)一步探究UPFT的效率極限,研究團隊對比了需要進(jìn)行大量采樣的傳統(tǒng)方法,即需要標(biāo)簽驗證來過濾掉正確解決方案,來突出UPFT的效率優(yōu)勢。
結(jié)果顯示,在Qwen2.5-Math-7B-Instruct上,UPFT和瘋狂刷題的RFT準(zhǔn)確率打平(52.6%),但UPFT只用1.2%的采樣token(0.6M vs 51.7M)。
同時UPFT在DeepSeek-R1-Distill-Qwen-7B上飆到58.7%,比RFT高1.5個點,采樣token的花費卻只需要RFT的1%,訓(xùn)練token花費僅為RFT的25%。
在基座模型Llama-3.1-8B-Instruct上,UPFT得分38.3%,跟V-STaR并肩。但是在增加了標(biāo)簽過濾后的UPFT性能超過RFT,得分38.8%,展示出UPFT與現(xiàn)有方法的兼容性。
△UPFT在有監(jiān)督場景下仍然打敗了傳統(tǒng)SFT以及V-STaR方法
UPFT對前綴長度比較魯棒
為了揭秘前綴長度對模型性能影響,研究團隊展開了進(jìn)一步的實驗。
研究者們通過實驗發(fā)現(xiàn),不同模型在解題路徑前半部分的長度(即“前綴”長度)對準(zhǔn)確性的影響比較魯棒。
以 Llama-3.1-8B-Instruct 模型為例,當(dāng)解題路徑的前半部分包含8個token時,模型的準(zhǔn)確率逐漸提升至52.0%然后逐漸下降, 對于Qwen2.5-Math-7B-Instruct 模型的表現(xiàn)則有所不同, 其性能在前32個token處均緩慢提高。
這表明,不同模型對解題路徑前半部分的依賴程度存在差異,研究者們據(jù)此可以針對不同模型設(shè)計更合適的訓(xùn)練策略。
△訓(xùn)練的推理前綴長度和對應(yīng)模型性能
總之,這項研究為大語言模型的高效、低成本訓(xùn)練開辟了新路徑。
未來,研究團隊計劃繼續(xù)探索UPFT的潛力,進(jìn)一步優(yōu)化模型訓(xùn)練效率,并探索與現(xiàn)有方法的兼容性。
作者簡介
本文的通訊作者為涂兆鵬,騰訊專家研究員,研究方向為深度學(xué)習(xí)和大模型,在國際頂級期刊和會議上發(fā)表學(xué)術(shù)論文一百余篇,引用超過9000次。擔(dān)任SCI期刊NeuroComputing副主編,多次擔(dān)任ACL、EMNLP、ICLR等國際頂級會議領(lǐng)域主席。
第一作者為香港中文大學(xué)(深圳)博士生冀軻,騰訊AI Lab高級研究員徐嘉豪,梁添,劉秋志。