一招緩解LLM偏科!調(diào)整訓(xùn)練集組成,“秘方”在此 | 上交大&上海AI Lab等
大幅緩解LLM偏科,只需調(diào)整SFT訓(xùn)練集的組成。
本來(lái)不擅長(zhǎng)coding的Llama 3.1-8B,代碼能力明顯提升。
上海交大&上海AI Lab聯(lián)合團(tuán)隊(duì)提出創(chuàng)新方法IDEAL,可顯著提升LLM在多種不同領(lǐng)域上的綜合性能。
此外,研究還有一些重要發(fā)現(xiàn),比如:
- SFT階段訓(xùn)練數(shù)據(jù)的數(shù)量不是關(guān)鍵
- 配比不合適,訓(xùn)練數(shù)據(jù)越多,反而會(huì)加劇模型“偏科”
具體來(lái)看——
SFT后LLM部分能力甚至退化
大型語(yǔ)言模型 (LLM) 憑借其強(qiáng)大的理解和邏輯推理能力,在多個(gè)領(lǐng)域展現(xiàn)了驚人的能力。除了模型參數(shù)量的增大,高質(zhì)量的數(shù)據(jù)是公認(rèn)的LLM性能提升最關(guān)鍵的影響因素。
當(dāng)對(duì)模型進(jìn)行監(jiān)督微調(diào)(SFT)時(shí),研究人員發(fā)現(xiàn)LLM在多任務(wù)場(chǎng)景下常出現(xiàn)“偏科”現(xiàn)象——部分能力突出而部分能力并未漲進(jìn),甚至退化。這種不平衡的現(xiàn)象導(dǎo)致大模型在不同的領(lǐng)域上能力不同,進(jìn)而影響用戶(hù)體驗(yàn)。
上海交大和上海AI Lab的研究者迅速將目光聚焦到SFT訓(xùn)練的訓(xùn)練集上,是否可以通過(guò)調(diào)整訓(xùn)練集的組成來(lái)緩解LLM偏科的情況?直覺(jué)上來(lái)看,直接將LLM的弱勢(shì)科目的訓(xùn)練數(shù)據(jù)增加一倍,就可以讓最后的結(jié)果發(fā)生變化。但是,由于訓(xùn)練數(shù)據(jù)之間的耦合關(guān)系,研究者通過(guò)建模量化每個(gè)領(lǐng)域數(shù)據(jù)對(duì)于最終結(jié)果的影響情況,科學(xué)地調(diào)整訓(xùn)練數(shù)據(jù)集的組成,最終提高了模型的。
IDEAL方法
問(wèn)題建模:
首先按照不同的領(lǐng)域準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集:,
并給出對(duì)應(yīng)的用于驗(yàn)證的驗(yàn)證集:。通過(guò)在訓(xùn)練集上面訓(xùn)練模型θ,獲得訓(xùn)練集上的最優(yōu)參數(shù):θ*。
論文希望在驗(yàn)證集上的損失達(dá)到最小。為了能夠方便的調(diào)整訓(xùn)練集,論文引入了對(duì)應(yīng)的變量β,并將這個(gè)優(yōu)化問(wèn)題顯示地建模了出來(lái):
論文從理論角度給出了各個(gè)領(lǐng)域數(shù)據(jù)調(diào)整對(duì)于最優(yōu)模型在驗(yàn)證集上影響的大?。ň唧w可見(jiàn)原論文中的Lemma 1):
高效計(jì)算:
由于式子中存在參數(shù)二階矩陣的逆的操作,計(jì)算的資源消耗非常大。為了能夠擴(kuò)展到LLM的參數(shù)量級(jí),論文采用了K-FAC的理論來(lái)近似簡(jiǎn)化計(jì)算Hessian矩陣的逆。通過(guò)挑選模型參數(shù)中的“重要”層的數(shù)值來(lái)近似刻畫(huà)各個(gè)領(lǐng)域數(shù)據(jù)對(duì)于最后模型性能的影響,并最后通過(guò)合理的放縮超參數(shù)m來(lái)控制最后的調(diào)整比例大?。?/span>
整體的算法流程圖如下所示:
實(shí)驗(yàn)結(jié)果
論文主要以L(fǎng)lama3.1 8B模型作為Base model,測(cè)試了IDEAL對(duì)四個(gè)典型領(lǐng)域上多任務(wù)訓(xùn)練的模型的提升效果??梢钥吹剑瑹o(wú)論是epoch1還是epoch3,IDEAL都能夠在2輪迭代后將原先不擅長(zhǎng)的Coding能力顯著提升。
除此之外,論文還有其他的發(fā)現(xiàn):
- 一般隨機(jī)初始的訓(xùn)練集分布都是有進(jìn)一步優(yōu)化的空間:文章中,無(wú)論在在四個(gè)領(lǐng)域四個(gè)benchmark,還是5個(gè)領(lǐng)域8個(gè)benchmark上,無(wú)論初始分布是各個(gè)領(lǐng)域是數(shù)量相等的或者不等的分布上,IDEAL都實(shí)現(xiàn)了對(duì)于平均結(jié)果的提升。
- SFT階段訓(xùn)練數(shù)據(jù)的數(shù)量不是關(guān)鍵:因?yàn)橐酝膔e-weighting工作會(huì)控制整體的訓(xùn)練數(shù)據(jù)量,研究團(tuán)隊(duì)將對(duì)比的方法DoReMi和DOGE,都提升了整體的數(shù)據(jù)量到IDEAL對(duì)應(yīng)的數(shù)量,但實(shí)驗(yàn)結(jié)果證明,提升數(shù)據(jù)量而沒(méi)有改變數(shù)據(jù)混合分布,對(duì)于模型的提升效果甚微。
- 如果數(shù)據(jù)分布配比不合適,更多數(shù)據(jù)量,訓(xùn)練地更久,反而會(huì)導(dǎo)致更加不均衡的模型效果。團(tuán)隊(duì)發(fā)現(xiàn)相比訓(xùn)練epoch1,訓(xùn)練同樣的數(shù)據(jù)3epoch會(huì)導(dǎo)致數(shù)據(jù)之間的負(fù)面沖突被放大,導(dǎo)致最終的模型性能更加不均衡。
- 論文還指導(dǎo)了超參數(shù)m的選取:m的取值最好選在0.15。因?yàn)槔碚撘?,?yīng)該在原始分布的周?chē)鷥?yōu)化數(shù)據(jù)配比,所以m應(yīng)該選取不大的步長(zhǎng)。而選取過(guò)小的步長(zhǎng),對(duì)于模型最終的效果影響也會(huì)較小。綜上所述,論文在m=0.1,0.15,和0.3三個(gè)設(shè)定的實(shí)驗(yàn)中更加推薦0.15的取值。
應(yīng)用價(jià)值
IDEAL解決了得到各個(gè)領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)之后如何配比組合成為統(tǒng)一的訓(xùn)練集的問(wèn)題。通過(guò)迭代優(yōu)化的方式優(yōu)化訓(xùn)練集的各個(gè)領(lǐng)域數(shù)據(jù)數(shù)量。避免了之前研究者需要按經(jīng)驗(yàn),人工調(diào)整各個(gè)數(shù)據(jù)集配比的dirty work,具有較大的實(shí)用價(jià)值。
論文信息:
標(biāo)題:IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment
作者:上海交通大學(xué)、上海AI實(shí)驗(yàn)室、清華大學(xué)等
GitHub代碼庫(kù):https://anonymous.4open.science/r/IDEAL-678C520/README.md
arxiv:https://arxiv.org/abs/2505.12762