偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器

發(fā)布于 2024-9-5 14:34
瀏覽
0收藏

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

一、結(jié)論寫在前面

論文標題:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

論文鏈接:??https://arxiv.org/pdf/2408.16737??

利用來自強大語言模型(LMs)的高質(zhì)量合成數(shù)據(jù)進行訓練是提升LMs推理性能的常見策略。論文重新審視了在固定推理預算(例如,F(xiàn)LOPs)下,這一策略是否為計算最優(yōu)。為此,論文探究了使用更強但更昂貴(SE)模型與較弱但更廉價(WC)模型生成合成數(shù)據(jù)之間的權衡。

論文評估了生成數(shù)據(jù)在三個關鍵指標上的表現(xiàn):覆蓋率、多樣性和誤報率,并表明WC模型生成的數(shù)據(jù)可能具有更高的覆蓋率和多樣性,但也表現(xiàn)出更高的誤報率。

隨后,論文在不同設置下對LMs進行微調(diào):知識蒸餾、自我改進以及一種新穎的弱到強改進設置,其中較弱的LM向較強的LM傳授推理能力。論文的研究發(fā)現(xiàn),在多個基準和多種WC與SE模型選擇下,基于WC生成數(shù)據(jù)微調(diào)的模型始終優(yōu)于那些基于SE生成數(shù)據(jù)訓練的模型。這些結(jié)果挑戰(zhàn)了當前依賴SE模型生成合成數(shù)據(jù)的主流做法,表明WC可能是訓練高級LM推理器的計算最優(yōu)途徑。    

一個具體例子是:對于Gemma2系列在MATH數(shù)據(jù)集上,Gemma2-9B實現(xiàn)了11%更高的覆蓋率和86%更高的多樣性,但也伴隨著7%的更高FPR,相比于Gemma2-27B。

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 1 | 結(jié)果總結(jié)。(a) 論文在計算匹配的設置下,使用從更強大但更昂貴的LM(Gemma2-27B)和較弱但較便宜的LM(Gemma2-9B)收集的合成數(shù)據(jù),對Gemma-7B、Gemma2-9B和Gemma2-27B進行微調(diào),用于MATH數(shù)據(jù)集。論文發(fā)現(xiàn),在多種微調(diào)范式——知識蒸餾、自我改進和弱到強改進(即使用較弱的模型來改進較強的模型)中,使用Gemma2-9B數(shù)據(jù)進行訓練是更計算優(yōu)化的設置。(b) 論文在價格匹配的設置下,使用由最先進的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成數(shù)據(jù),對Gemma模型(7B/9B/27B)進行微調(diào)。論文發(fā)現(xiàn),使用Flash生成的數(shù)據(jù)進行微調(diào)始終優(yōu)于使用Pro生成的數(shù)據(jù)。

二、論文的簡單介紹

2.1 論文的背景

最近的研究表明,通過語言模型自身合成生成這些數(shù)據(jù)是可行的,這為訓練數(shù)據(jù)的獲取提供了一種潛在的更具擴展性和效率的方法。一種廣泛采用的方法是從LM中為一個問題采樣多個候選解決方案,過濾它們以確保最終答案的正確性,并在正確的解決方案上對模型進行微調(diào)。多項研究表明,使用這種合成解決方案訓練的LM優(yōu)于使用人類編寫的解決方案訓練的LM。從業(yè)者通常從強大的LM中采樣解決方案以確保高質(zhì)量。然而,從強大的LM中采樣是昂貴且資源密集型的,并且限制了在實際采樣預算內(nèi)可以生成的解決方案數(shù)量。    

論文探索了一種替代采樣方法。在固定的計算預算下,論文研究了從較弱但更便宜(WC)模型采樣,而不是通常采用的從較強且昂貴的微調(diào)LM(stronger but more expensive,SE)采樣的方法。通過比較WC和SE的數(shù)據(jù),論文沿著三個在合成數(shù)據(jù)效用中起關鍵作用的方向進行分析:1-覆蓋率,解決的獨特問題的數(shù)量;2-多樣性,每個問題獲得的平均獨特解決方案數(shù)量;以及3-假陽性率(FPR),即以錯誤理由得出正確最終答案的問題百分比。

論文發(fā)現(xiàn),由于可以從WC模型生成更多的樣本,與后者相比,這可能導致解決更廣泛的問題,并在固定預算下提供更多數(shù)據(jù)。論文在各種監(jiān)督微調(diào)設置中比較了這兩種合成生成的數(shù)據(jù)集對訓練LM推理器的效用,并顯示使用WC數(shù)據(jù)訓練始終優(yōu)于使用SE數(shù)據(jù)訓練。作為一個具體例子,對于Gemma2系列在MATH數(shù)據(jù)集(Hendrycks等人,2021)上,Gemma2-9B實現(xiàn)了11%更高的覆蓋率和86%更高的多樣性,但也伴隨著7%的更高FPR,相比于Gemma2-27B。

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

   

2.2. 預備知識

設 D={q_i, a_i} _i=1 ^i=n 為一個包含 n 個推理問題 q_i 及其最終答案(即標簽) a_i 的訓練數(shù)據(jù)集。利用此類數(shù)據(jù)提升模型推理能力的成功方法如下:論文采樣k 個樣本,其中 r_i j 是模型為 q_i 生成的第 j 個推理鏈(即解決方案),a_i j 是模型在非零溫度下對 q_i 的最終答案,并創(chuàng)建合成數(shù)據(jù) D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。

接著,論文通過比較 a_i j 與 a_i 來過濾錯誤的解決方案,移除那些最終答案與標準答案不匹配的方案。最后,論文在剩余數(shù)據(jù) D_G 上監(jiān)督微調(diào)模型,以最大化目標函數(shù)??(??),即在給定問題 q 下生成推理 r 和最終答案 a 的概率。

關于 D_G,論文計算了平均值,如 Chen et al., 2010 所述。從概念上講,coverage@k 衡量了至少有一個正確解決方案的獨特問題的比例,假設論文從模型中為每個問題采樣 k 個解決方案。論文還定義了多樣性 Q k 為每當論文為每個問題采樣 k 個解決方案時,平均每個問題獲得的獨特正確解決方案的數(shù)量。最后,論文定義假陽性率 ( F P R ) 為 tD_G 中推理錯誤但最終答案正確的解決方案的百分比。

不同的語言模型(LM)選擇來采樣解決方案和微調(diào)模型會導致不同的設置。知識蒸餾(Hinton et al., 2015)對應于在從更強和更大的LM中采樣的合成數(shù)據(jù)上訓練學生LM。自我改進(Huang et al., 2022)對應于在由其自身生成的樣本上訓練LM。

2.3. 計算匹配的采樣和訓練

為了從D生成包含合成解決方案的數(shù)據(jù)集D_G,可以利用不同的模型來生成解決方案。具體來說,在固定的采樣預算(FLOPs)下,可以從較弱但成本較低的(a weaker but cheap,WC)模型中生成更多樣本,或者從較強但成本較高的(SE)模型中生成較少樣本。給定一個具有P_WC參數(shù)的WC模型和一個具有P_SE參數(shù)的SE模型,論文計算在固定預算下兩個模型的采樣比例,重點關注僅解碼器的Transformer模型。

根據(jù)(Kaplan et al., 2020),論文注意到每個推理token的FLOPs是2P,對于具有P參數(shù)的模型。因此,T個推理token的FLOPs是2PT。進一步假設生成每個解決方案平均需要W個推理token,對于兩種模型都是如此。設S_WC和S_SE分別表示論文為兩個模型每個問題生成的樣本數(shù)量。生成數(shù)據(jù)集D的樣本的總成本將是Cost_WC=n x S_WC x W x (2P_WC)和Cost_SE=n x S_SE x W x (2P_SE),分別對應于廉價和昂貴的模型。在固定的采樣預算下,論文有:

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

公式1表明,在固定的采樣預算下,對于每個問題,論文可以生成P_SE/P_WC個從WC中采樣更多樣本;比例尺與模型參數(shù)比例線性相關。從WC中采樣更多解決方案可能會增加正確解決更大子集問題(高覆蓋率)和每個問題獲得更多正確解決方案(高多樣性)的可能性。    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

表1 監(jiān)督微調(diào)設置的總結(jié)。論文在三種設置下微調(diào)語言模型:(a)學生LM,(b)弱-廉價(WC)LM,和(c)強-昂貴(SE)LM。對于每種設置,論文根據(jù)合成數(shù)據(jù)的來源采用了不同的微調(diào)范式。例如,使用來自WC和SE模型的數(shù)據(jù)訓練一個單獨的學生LM屬于知識蒸餾范式。相比之下,使用其自身樣本訓練WC模型是自我改進。最后,論文還引入了一種新的范式,即弱到強改進,其中WC模型的樣本被用來在固定計算預算下提高SE模型的推理能力。

在固定預算下,論文可以選擇從SE模型生成較少樣本或從WC模型生成更多樣本,然后對來自每個模型的數(shù)據(jù)進行固定步數(shù)的微調(diào),以測量和比較每個模型數(shù)據(jù)的效用。具體來說,論文生成的樣本比WC模型比SE模型多P_S E / P_W C。論文考慮了三種包含多樣化微調(diào)范式的設置。這些范式包括廣泛使用的知識蒸餾、新興的自改進框架,以及論文在本工作中引入的新穎的弱到強改進范式。

論文將弱到強改進(W2S-I)定義為使用從較弱模型生成的樣本來增強強模型的推理能力。三種設置如下:

?學生-LM微調(diào):傳統(tǒng)上,用于訓練學生LM的監(jiān)督微調(diào)數(shù)據(jù)從SE模型獲取,以確保高質(zhì)量。然而,論文旨在理解WC模型是否能在固定采樣預算下替代SE模型進行蒸餾。為此,論文在WC和SE數(shù)據(jù)上分別對與WC和SE模型獨立的學生LM進行微調(diào),這在兩種情況下對應于蒸餾。

?WG-LM微調(diào):先前的工作(Singh et al., 2023)表明,通過自生成數(shù)據(jù)微調(diào)WC模型落后于從SE數(shù)據(jù)蒸餾。然而,他們的設置在從SE模型收集數(shù)據(jù)上花費了更高的采樣預算(FLOPs),而不是從WC模型收集SI數(shù)據(jù)。在本工作中,論文在固定采樣預算下重新審視這一微調(diào)設置,并在固定預算下對WC模型在WC和SE數(shù)據(jù)上進行微調(diào)。注意,在自身數(shù)據(jù)上訓練WC模型對應于自我改進,而在SE數(shù)據(jù)上訓練WC模型對應于蒸餾。因此,此設置比較了WC數(shù)據(jù)上的自我改進與SE數(shù)據(jù)上的蒸餾。

?SE-LM微調(diào):通常認為要改進SE模型,論文需要來自SE模型自身的合成數(shù)據(jù)或來自比SE模型更強(且可能更昂貴)的模型。論文采用一種方法來理解WC模型生成的合成數(shù)據(jù)是否能改進SE模型。為此,論文在WC和SE數(shù)據(jù)上微調(diào)SE模型。在WC數(shù)據(jù)上訓練SE對應于W2S-I,而在SE數(shù)據(jù)上訓練SE對應于自我改進??傮w而言,此設置比較了WC數(shù)據(jù)上的W2S-I與SE數(shù)據(jù)上的自我改進。

三種設置及其對應的微調(diào)范式的總結(jié)見表1。    

2.4. 實驗設置

數(shù)據(jù)集:論文使用MATH和GSM-8K作為推理數(shù)據(jù)集,因為它們廣泛用于數(shù)學問題解決。具體而言,MATH包含不同難度級別的競賽級問題(級別(1-5)),而GSM-8K包含小學級別的數(shù)學問題。每個數(shù)據(jù)集在其訓練分割中包含7500個數(shù)學問題。論文在MATH測試分割的500個問題和GSM-8K測試分割的1319個問題上評估模型。此外,論文使用MATH測試分割的500個問題和GSM-8K的500個問題作為驗證數(shù)據(jù)集。論文還使用Functional MATH數(shù)據(jù)集進行遷移學習研究。此外,論文在附錄wedge中展示了一個編碼任務的結(jié)果。

數(shù)據(jù)生成:論文使用Gemma2模型進行合成數(shù)據(jù)生成,其中預訓練的Gemma2-9B和Gemma2-27B分別充當WC和SE模型。論文為MATH問題生成解決方案時采用4次提示,為GSM-8K問題生成解決方案時采用8次提示。由于9B模型大約比27B模型小3倍,在固定的采樣計算預算下,論文可以為Gemma2-9B每問題采樣3倍多的候選解決方案。對于論文的實驗,論文考慮兩種采樣預算:低預算,其中論文分別從Gemma2-27B和Gemma2-9B每問題生成1個和3個候選解決方案;高預算,其中論文每問題分別生成10個和30個候選解決方案。此外,論文研究了在功能性MATH數(shù)據(jù)集上,針對高采樣預算下訓練的模型在推理能力上的遷移。

模型微調(diào):論文在表1中總結(jié)了微調(diào)設置的詳細信息。在學生-LM微調(diào)設置中,論文對Gemma-7B模型(Team et al., 2024a)進行微調(diào),數(shù)據(jù)來自Gemma2-9B(WC)和Gemma2-27B(SE)。此外,論文分別使用Gemma2-9B和Gemma2-27B進行WC-LM和SE-LM微調(diào)設置。進一步地,論文使用人類編寫的解決方案作為基準事實,對不同設置下的LM進行訓練。論文在附錄中提供了微調(diào)的詳細信息overlinequadquadquad。

合成數(shù)據(jù)評估:為了評估SE和WC模型生成的合成數(shù)據(jù)的質(zhì)量,論文測量了假陽性率,以及在固定成本下的覆蓋率和多樣性。論文從7 varphi3 k 心相似的預算中為兩個模型提供相同的支持。同樣,論文比較了論文的SE和W C模型的diversity@k和diversity@3k。由于FPR不能自動計算,論文使用兩個代理來計算它:1 - 對數(shù)據(jù)子集的人工評估,其中隨機選擇了每個模型的50個解決方案,并由作者對其推理正確性進行評分,以及 _2 - 自動評估,論文采樣了500個解決方案并提示Gemini-Pro-1.5(Reid et al., 2024)來評估推理路徑的正確性。為了采樣解決方案,對于MATI數(shù)據(jù)集,論文從每個多樣性級別中均勻選擇。在論文的實驗中,論文發(fā)現(xiàn)人工和自動評估的FPR估計值彼此接近。論文在附錄B中提供了一些假陽性實例的定性示例。

評估微調(diào)模型:論文使用pass@1 準確度來評估微調(diào)語言模型(LMs)的性能。具體而言,論文針對測試集中的每個問題生成一個單一解決方案(零樣本),使用微調(diào)后的LM進行采樣溫度為0.0(貪心解碼),并計算最終答案與標準答案匹配的問題百分比。此外,論文還報告了maj@k ( k=1, 4, 8, 16 ) 的部分實驗結(jié)果,其中每個問題生成 boldsymbolk 個解決方案,采樣溫度為 0.7,并選擇在 k 個樣本中出現(xiàn)頻率最高的最終答案。小規(guī)模、弱化,但更優(yōu):通過計算優(yōu)化采樣訓練大型語言模型推理器    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 3 ~ | MATH 數(shù)據(jù)集的合成數(shù)據(jù)分析。在兩個采樣預算下,Gemma2-27B 和 Gemma2-9B 在 MATH 數(shù)據(jù)集上的正樣本率。

2.5. 實驗與結(jié)果

論文沿著幾個軸比較了 WC 和 SE 模型的數(shù)據(jù)。首先,論文沿著各種質(zhì)量指標分析數(shù)據(jù)。隨后,論文展示了不同設置下的監(jiān)督微調(diào)結(jié)果。最后,論文進行了消融研究,以研究數(shù)據(jù)集大小、采樣策略和質(zhì)量維度在模型性能中的作用。

2.5.1. 合成數(shù)據(jù)分析

覆蓋率:論文的目標是理解在固定采樣預算下,從 WC 和 SE 模型生成解決方案的優(yōu)缺點。論文在圖 3 中展示了 MATH 在低和高采樣預算下的覆蓋率、多樣性和假陽性率。GSM-8K 的結(jié)果在附錄 - 圖 15 中展示。論文發(fā)現(xiàn),在覆蓋率方面,Gemma2-9B(WC)在低和高采樣預算下分別比 Gemma2-27B(SE)高出 11% 和 6%,對于 MATH 數(shù)據(jù)集,以及 8% 和 1% 對于 GSM-8K。這突顯了 WC 模型更高的樣本數(shù)量有助于解決更多獨特的推理問題。

此外,論文觀察到,在 MATH 數(shù)據(jù)集中,WC 模型的覆蓋率在高采樣預算下隨著不同難度級別的增加而增加(見附錄 - 圖 16)。這突顯了在固定采樣預算下,WC 模型生成的合成數(shù)據(jù)可以解決更多不同難度級別的獨特問題,相比之下 SE 模型。此外,論文提供了一個定性示例,該示例通過 Gemma2-9B 的重復采樣得到解決,但在固定的高采樣預算下,Gemma2-27B 仍未解決(表 5)。

多樣性:Gemma2-9B 生成的數(shù)據(jù)在 MATII 數(shù)據(jù)集上的多樣性比 Gemma2-27B 高出 86% 和 125%,在 GSM-8K 數(shù)據(jù)集上則高出 134% 和 158%。這表明 W C 模型生成的合成數(shù)據(jù)中存在許多獨特的推理鏈,這些推理鏈能夠?qū)蛘_的解決方案。論文還觀察到,在高采樣預算下,MATH 數(shù)據(jù)集的絕對多樣性得分低于 GSM-8K,這表明在重復采樣時,模型為更具挑戰(zhàn)性的數(shù)據(jù)集生成的正確解決方案更少。

假陽性率(FPR):由于論文利用最終答案的正確性來篩選合成數(shù)據(jù),因此并未移除包含錯誤中間推理步驟的解決方案。論文的人工評估顯示,在 MATH 和 GSM-8K 數(shù)據(jù)集上,WC 生成的解決方案的 FPR 分別比 SE 生成的解決方案高出 7% 和 2%。自動評估的趨勢與人工評估相似。鑒于問題難度的差異,論文注意到,絕對值與MATH數(shù)據(jù)集相比,GSM-8K數(shù)據(jù)集的FPR(假陽性率)要低得多。論文還注意到,推理步驟的自動驗證也可能存在錯誤,這仍然是一個開放問題。    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 4 監(jiān)督微調(diào)結(jié)果(MATH)。在固定采樣預算下,對來自WC(Gemma2-9B)和SE(Gemma2-27B)模型的MATH數(shù)據(jù)進行微調(diào)的各種語言模型的結(jié)果。論文觀察到,使用WC模型樣本的訓練始終優(yōu)于使用SE數(shù)據(jù)的訓練。

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 5 mid 監(jiān)督微調(diào)結(jié)果(GSM-8K)。在固定采樣預算下,對來自WC(Gemma2-9B)和SE(Gemma2-27B)模型的GSM-8K合成數(shù)據(jù)進行各種語言模型微調(diào)的結(jié)果。論文觀察到,使用WC模型樣本進行訓練的推理器比使用SE數(shù)據(jù)訓練的推理器更強。

鑒于高覆蓋率和多樣性與高FPR的混合信號,目前尚不清楚從WC模型還是SE模型采樣以訓練強推理器是否是計算最優(yōu)的。論文將在下一節(jié)中研究這個問題。    

2.5.2. 訓練的計算最優(yōu)性結(jié)果

論文比較了從Gemma2-9B(WC)和Gemma2-27B(SE)模型生成的合成數(shù)據(jù)在MATH和GSM-8K數(shù)據(jù)集上的效用,這些數(shù)據(jù)集涵蓋了圖4和圖5中不同的微調(diào)范式。此外,論文還展示了使用原始訓練集中人類編寫的思維鏈進行訓練的結(jié)果作為基線。

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 6 | 泛化結(jié)果(功能性 MATH)。在功能性 MATH 數(shù)據(jù)集上,使用 MATH 數(shù)據(jù)在高采樣預算下生成的合成數(shù)據(jù)訓練的模型的性能。結(jié)果表明,在固定采樣預算下,使用 WC 數(shù)據(jù)訓練增強了模型對 SE 數(shù)據(jù)的泛化能力。

學生-LM 微調(diào)。論文發(fā)現(xiàn),使用 WC 生成的合成數(shù)據(jù)微調(diào)的 Gemma-7B 模型,在性能上始終優(yōu)于使用 SC 數(shù)據(jù)微調(diào)的模型。具體而言,對于 MATH 數(shù)據(jù)集,在低和高采樣預算下分別獲得了 6% 和 5.8% 的相對增益,而對于 GSM-8K 數(shù)據(jù)集,則分別為 4.2% 和 1.3%。與普遍認為更強大的模型更適合知識蒸餾的觀點相反,論文的結(jié)果表明,使用 WC 數(shù)據(jù)進行微調(diào)在計算上比使用 SE 數(shù)據(jù)更為優(yōu)化。

WG-LM 微調(diào)。論文比較了Gemma2-9B在WC數(shù)據(jù)(即自生成數(shù)據(jù))和SE數(shù)據(jù)(即來自Gemma2-27B的數(shù)據(jù))微調(diào)后的性能。MATH和GSM-8K的結(jié)果分別在圖 4 和 5中報告。論文觀察到,自生成數(shù)據(jù)(WC數(shù)據(jù))相較于從強模型中進行知識蒸餾(SE數(shù)據(jù))有所提升,在MATH數(shù)據(jù)集上,低和高采樣預算下分別實現(xiàn)了3.8%和2%的相對增益,而在GSM-8K數(shù)據(jù)集上,低采樣預算下實現(xiàn)了1.5%的增益。然而,論文發(fā)現(xiàn),在高采樣預算下,使用WC數(shù)據(jù)微調(diào)的WC模型在GSM-8K數(shù)據(jù)集上與SE數(shù)據(jù)相當。這主要是因為GSM-8k數(shù)據(jù)集的難度較低,在較高采樣預算下趨于飽和(見圖 15a)。有趣的是,論文的實證發(fā)現(xiàn)表明,在自身生成的合成數(shù)據(jù)上訓練WC模型比從更強模型中蒸餾更為計算優(yōu)化。

SE-LM 微調(diào)結(jié)果。論文展示了使用 Gemma2-9B 生成數(shù)據(jù)和自生成數(shù)據(jù)對 Gemma2-27B 進行微調(diào)的結(jié)果。MATH 和 GSM-8K 數(shù)據(jù)集的結(jié)果分別在圖 angle_big( big) 和圖 5c 中報告。令人驚訝的是,論文觀察到使用 WC 數(shù)據(jù)微調(diào)的模型在 MATH 數(shù)據(jù)集上表現(xiàn)優(yōu)于 SE 數(shù)據(jù),在低和高采樣預算下分別實現(xiàn)了 5.8% 和 4.3% 的相對增益,而在 GSM-8K 數(shù)據(jù)集上則分別為 1.2% 和 1.5%??紤]到 Gemma2-27B 數(shù)據(jù)預期比 Gemma2-9B 數(shù)據(jù)更符合分布,這一結(jié)果更加令人意外。與普遍認為自生成數(shù)據(jù)或來自更強模型的數(shù)據(jù)更好的觀點相反,論文的實證研究發(fā)現(xiàn),在 W2S-I 設置下使用 WC 數(shù)據(jù)訓練模型可能比在其自身數(shù)據(jù)上進行自我改進訓練更為計算優(yōu)化。這一結(jié)果還確立了一種新的范式,即通過從遠小于前沿模型的模型中生成合成數(shù)據(jù),以計算高效的方式改進前沿模型。    

泛化能力。在此,論文旨在研究使用 WC 和 SE 數(shù)據(jù)訓練的模型的遷移能力。具體而言,論文在高采樣預算下,對使用合成解決方案微調(diào)的 MATH 數(shù)據(jù)集模型在 Functional MATH 數(shù)據(jù)集上進行評估。圖 6 的結(jié)果顯示,使用 WC 數(shù)據(jù)微調(diào)的 Gemma-7B 模型持續(xù)優(yōu)于使用 SE 數(shù)據(jù),其中,相對增益范圍在不同boldsymbolk值下為5.8%-6.5%。此外,論文觀察到,使用自生成數(shù)據(jù)微調(diào)的Gemma2-9B模型在不同boldsymbolk值下實現(xiàn)了2.5%-4.5%的相對增益,超過了使用Gemma2-27B數(shù)據(jù)進行知識蒸餾的性能。此外,使用WC數(shù)據(jù)微調(diào)的Gemma2-27B模型與SE數(shù)據(jù)非常接近,除了k=8時存在2%的相對增益差距。論文的結(jié)果強調(diào),使用WC數(shù)據(jù)微調(diào)語言模型在固定采樣預算下增強了相對于SE數(shù)據(jù)的泛化能力。

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 7 | 數(shù)據(jù)集大小的影響。在不同訓練集大小下,微調(diào)后的語言模型在來自WC和SE模型的合成數(shù)據(jù)上的性能表現(xiàn)。使用WC數(shù)據(jù)進行訓練的模型在兩個數(shù)據(jù)集大小上都優(yōu)于使用SE數(shù)據(jù)進行訓練的模型。

要點:總的來說,論文的發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)智慧,即主張在SE模型樣本上進行訓練,通過展示在WC模型樣本上訓練可能在各種任務和設置中更計算優(yōu)化。

2.5.3. 消融研究

數(shù)據(jù)集大小的影響:論文研究了來自WC模型的合成數(shù)據(jù)在不同數(shù)據(jù)集大小下的益處是否仍然存在。論文在高預算下對MATH數(shù)據(jù)集重復了實驗,但在僅能訪問500個訓練數(shù)據(jù)(從訓練集中隨機選擇)時。論文在圖7中展示了微調(diào)模型的結(jié)果。論文觀察到,使用wC數(shù)據(jù)訓練的模型優(yōu)于使用SE數(shù)據(jù)訓練的模型,分別為三個范式實現(xiàn)了12.939%、11.4%和5.1%的相對增益。這突顯了在固定采樣預算的低問題體制下,從WC模型生成更多數(shù)據(jù)而不是從SE模型生成數(shù)據(jù)的效用。

默認與計算最優(yōu)采樣對比:廉價語言模型(LM)的采樣策略:論文預期,先前之所以傾向于使用強模型(SE)數(shù)據(jù)而非弱模型(WC)數(shù)據(jù),是因為它們在測試環(huán)境中采用了等量樣本生成的方式(例如,參見(Singh et al., 2023)),而非計算資源匹配的設置。為了驗證這一點,論文針對MATH和GSM-8K數(shù)據(jù)集,從WC模型中每個問題僅生成一個解決方案(數(shù)量匹配),并在篩選出最終答案正確性的基礎上,對這些生成數(shù)據(jù)在三種微調(diào)設置下進行模型訓練。隨后,論文對比了使用合成數(shù)據(jù)訓練的模型性能,其中每個問題從WC模型生成3個解決方案,采樣計算量與SE模型相匹配。結(jié)果如圖8所示。論文發(fā)現(xiàn),使用數(shù)量匹配的WC數(shù)據(jù)訓練的模型,其性能不如使用計算匹配的WC數(shù)據(jù)訓練的模型,且相較于使用SE數(shù)據(jù)訓練的模型效果更差。這表明,未來在比較弱模型與強模型生成的合成數(shù)據(jù)時,應采用計算資源匹配的采樣策略。    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 8 數(shù)字匹配采樣與計算匹配采樣在WC模型中的比較。論文報告了在低采樣預算下,使用WC和SE模型生成的合成數(shù)據(jù)對多種語言模型進行微調(diào)的結(jié)果。傳統(tǒng)上,從業(yè)者會在從兩個模型中固定數(shù)量的樣本上比較訓練模型的性能。然而,論文觀察到,使用與SE模型相同采樣預算獲取的WC模型樣本,其性能提升更大。

覆蓋率和多樣性:論文旨在理解覆蓋率和多樣性在提升使用WC生成合成數(shù)據(jù)訓練模型性能中的作用。為此,對于MATH數(shù)據(jù)集,論文將原始高采樣(每個問題30個解決方案)的WC數(shù)據(jù)集視為(高覆蓋率,高多樣性)數(shù)據(jù)集。然后,論文通過僅從樣本中選擇每個問題的一個正確解決方案來構(gòu)建一個(高覆蓋率,低多樣性)版本。這使得原始WC數(shù)據(jù)集的多樣性從11降低到 1,同時保持了覆蓋率。論文還創(chuàng)建了一個(低覆蓋率,低多樣性)數(shù)據(jù)集,其中論文僅從WC模型生成每個問題的一個解決方案,并對其最終答案的正確性進行過濾。該數(shù)據(jù)集的覆蓋率(27%)低于每個問題30個解決方案的WC數(shù)據(jù)集(43%)。論文在這些數(shù)據(jù)集上對三種微調(diào)設置進行模型訓練,并在圖 emptyset 中展示結(jié)果。論文的結(jié)果表明,在所有設置中,高覆蓋率和高多樣性數(shù)據(jù)優(yōu)于高覆蓋率和低多樣性數(shù)據(jù),而高覆蓋率和低多樣性數(shù)據(jù)優(yōu)于低覆蓋率和低多樣性數(shù)據(jù)。這表明覆蓋率和多樣性在從小型語言模型訓練強大推理器時都起著關鍵作用。    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖 9 | 理解覆蓋率和多樣性在利用WC模型訓練強推理器中的作用。論文比較了通過收集(a)每個問題1個解決方案(低多樣性,低覆蓋率),(b)每個問題30個解決方案(高多樣性,高覆蓋率),以及(c)每個問題30個解決方案但僅保留一個正確解決方案(高覆蓋率,低多樣性)獲得的合成數(shù)據(jù)訓練語言模型(LMs)的性能。論文發(fā)現(xiàn),高多樣性和覆蓋率都有助于訓練強推理器。

2.6. 擴展至SOTA的語言模型

在前述實驗中,論文專注于從開放式LMs獲取合成數(shù)據(jù)。在這里,論文的目標是在固定采樣預算下,展示來自較弱SoTA LM的數(shù)據(jù)能夠訓練出比更強SoTA LM更好的推理器。為此,論文將論文的方法擴展到從Gemini-1.5-Pro和Gemini-1.5-Flash采樣數(shù)據(jù)。由于模型大小未公開,論文利用每輸出token的定價比例作為代理來執(zhí)行計算匹配采樣。截至2024年8月,論文注意到每百萬輸出token的價格分別為Gemini-1.5-Pro的10.5和Gemini-1.5-Flash的0.3。因此,論文從1.5-Pro和1.5-Flash分別采樣1個和35個解決方案。論文在MATH數(shù)據(jù)集上進行了實驗。    

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖10 | 論文在由最先進的語言模型Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成數(shù)據(jù)上對Gemma模型(7B/9B/27B)進行微調(diào)。論文發(fā)現(xiàn),使用Flash生成的數(shù)據(jù)進行微調(diào)不僅在與Gemini-1.5-Pro相同的采樣成本下始終優(yōu)于使用Pro生成的數(shù)據(jù),而且在約0.15倍的成本下也表現(xiàn)更佳。

論文對Gemma- 7 B、Gemma2- 9 B 和 Gemma2-27B LMs 進行了知識蒸餾,使用來自Pro(SED)和Flash(WC)模型的合成數(shù)據(jù)。論文在圖10中展示了結(jié)果。有趣的是,論文發(fā)現(xiàn)使用WC數(shù)據(jù)進行微調(diào)優(yōu)于使用SE數(shù)據(jù),分別為Gemma- 7 B、Gemma2- 9 B 和 Gemma2-27B 分別實現(xiàn)了31.6%、14.4%和10.9%的相對增益。這可以歸因于在固定采樣預算下模型覆蓋率的差異,1.5-Pro和1.5-Flash的覆蓋率分別為61.1%和81%。

降低數(shù)據(jù)采樣的成本。此外,論文研究了使用比從SE模型中收集每個問題一個解決方案更經(jīng)濟的WC數(shù)據(jù)來訓練LMs。具體而言,論文通過從最先進的LMs Gemini-1.5-Pro和Flash(WC)模型中為每個問題采樣5個解決方案來創(chuàng)建數(shù)據(jù)集,這在價格上比從Pro(SE)模型生成一個解決方案經(jīng)濟7倍(Phi)。在訓練LMs于0.15倍成本數(shù)據(jù)的情況下(圖10),論文發(fā)現(xiàn)使用Flash生成的數(shù)據(jù)進行微調(diào)不僅在采樣成本上與Gemini-1.5-Pro相同,而且在0.15倍成本下也能表現(xiàn)更優(yōu)。    

要點:論文證明了從較弱的SoTA LM中進行價格匹配采樣產(chǎn)生的推理器優(yōu)于從較強的SoTA模型中微調(diào)的數(shù)據(jù)

更小、更弱,卻更優(yōu):通過計算最優(yōu)抽樣訓練大語言模型推理器-AI.x社區(qū)

圖11 | 開放語言模型在MATH數(shù)據(jù)集上性能隨時間的變化。擬合的趨勢線表明,小型語言模型(LM)的質(zhì)量隨時間提升速度比大型語言模型(LV)更快。這突顯了論文關于利用小型LM訓練強大推理者的發(fā)現(xiàn)將在未來變得越來越相關。

本文轉(zhuǎn)載自 ??AI帝國??,作者:無影寺

收藏
回復
舉報
回復
相關推薦