10萬美元+26天,一個低成本千億參數(shù)LLM就誕生了
包括僅解碼器結(jié)構(gòu)(如 GPT 和 LLAMA 系列模型)、僅編碼器結(jié)構(gòu)(如 BERT)和編碼器 - 解碼器結(jié)構(gòu)(如 T5)以及它們的變體模型在內(nèi)的大型語言模型(LLM)已經(jīng)取得了非凡的成功,并已被廣泛用于各種語言處理和多模態(tài)任務(wù)。
盡管如此成功,訓(xùn)練 LLM 的成本還是過于高昂,以至于僅有少數(shù)公司能承受其訓(xùn)練成本。此外,當(dāng)前的趨勢說明未來還會使用更大規(guī)模的訓(xùn)練數(shù)據(jù),這會進(jìn)一步推升大模型的研發(fā)成本。舉個例子,LLAMA-1 訓(xùn)練使用了 1-1.4 TB token,而 Llama 2 更是達(dá)到了 2 TB。
研發(fā) LLM 的另一大關(guān)鍵性挑戰(zhàn)是評估。主流的評估方法分為兩類:知識評估(MMLU 和 C-Eval)和 NLP 任務(wù)評估。這些評估方法可能無法真實反映模型的能力,因為也許存在數(shù)據(jù)泄漏問題,即評估數(shù)據(jù)集中某些部分可能在模型訓(xùn)練過程中已被使用。此外,面向知識的評估方法可能不足以評估智能水平。一種更為公平客觀的評估方法是測 LLM 的智商(IQ),即將 LLM 泛化用于未在訓(xùn)練數(shù)據(jù)中見過的條件和上下文。
增長策略。為了解決訓(xùn)練成本難題,北京智源人工智能研究院和中國科學(xué)院計算技術(shù)研究所等多所機(jī)構(gòu)近日做出了一番嘗試 —— 首次通過增長策略(growth strategy)訓(xùn)練千億參數(shù)級的 LLM。增長意味著訓(xùn)練過程中參數(shù)的數(shù)量并不固定,而是會從更小的模型擴(kuò)增成大型模型。

- 論文:https://arxiv.org/pdf/2309.03852.pdf
 - 模型:https://huggingface.co/CofeAI/FLM-101B
 
圖 1 展示了增長策略的三種典型場景。由于 LLM 的 FLOPs 大致與其參數(shù)數(shù)量成正比,因此模型參數(shù)的變化曲線與 X 軸之間的面積便能表示訓(xùn)練的計算成本。

圖 1 (a) 展示了沒有模型增長的標(biāo)準(zhǔn)訓(xùn)練策略;1 (b) 是直線型的增長策略,其能節(jié)省 50% 的成本;1 (c) 是一種適量型的增長策略,其節(jié)省的成本不到 50%;1 (d) 則是一種激進(jìn)型的增長策略,能節(jié)省超過 50% 的成本。這一分析說明,為了盡可能地節(jié)省計算成本,應(yīng)當(dāng)采用激進(jìn)型增長策略。
這項新研究的增長算子的設(shè)計靈感來自論文《2x faster language model pre-training via masked structural growth》中的 MSG,這是一個完整的運算集,涵蓋 Transformer 結(jié)構(gòu)的所有四個增長維度。更重要的是,MSG 能在增長的同時嚴(yán)格地保存功能。因此,雖然小模型可以通過較小的參數(shù)搜索空間快速學(xué)習(xí),但其知識可以被后續(xù)更大的模型繼承。這讓增長策略有可能使用相同或更少的計算成本實現(xiàn)更好的性能。
開源的 FLM-101B 模型。智源研究院的研究者通過逐步增長訓(xùn)練了一個有 1010 億參數(shù)的 LLM 模型,他們也表示會開源發(fā)布該模型。該模型的架構(gòu)是 FreeLM 的一種演進(jìn)版。因此,研究者將其命名為 FLM-101B,其中 F 表示 Free。
FreeLM 框架有兩個預(yù)訓(xùn)練目標(biāo),分別由語言信號和教師信號引導(dǎo)。在這項新研究中,這兩個目標(biāo)被統(tǒng)一到了一個通用語言建模范式中。
IQ 評估基準(zhǔn)。除了低成本的訓(xùn)練范式,該團(tuán)隊還做出了另一項貢獻(xiàn),即為 LLM 的智商(IQ)評估提出了一套系統(tǒng)性的基準(zhǔn)。
之前已有研究表明:盡管困惑度(PPL)指標(biāo)能在一定程度上反映生成文本的質(zhì)量,但卻并不可靠。另一方面,LLM 的訓(xùn)練數(shù)據(jù)規(guī)模非常龐大,以至于我們難以辨別模型究竟只是在引述知識數(shù)據(jù),還是真的實現(xiàn)了類似人類的推理、分析和概括能力,而這些能力正是這項研究定義 IQ 的基礎(chǔ)。一些常用的評估指標(biāo)(用于英語的 MMLU 和用于漢語的 C-Eval)明顯是面向知識的,無法全面反映模型的智能水平。
為了進(jìn)行完整性檢查,該團(tuán)隊進(jìn)行了一項測試:來自世界知名大學(xué)的五名計算機(jī)科學(xué)研究者使用 C-Eval 的化學(xué)試題進(jìn)行了考試。結(jié)果發(fā)現(xiàn)他們的準(zhǔn)確度幾乎相當(dāng)于隨機(jī)亂猜,因為大多數(shù)志愿者都已忘記曾學(xué)過的化學(xué)知識。因此,強(qiáng)調(diào)對專業(yè)知識的了解程度的評估基準(zhǔn)其實不足以衡量模型的 IQ。
為了全面衡量 LLM 的 IQ,該團(tuán)隊開發(fā)了一個 IQ 評估基準(zhǔn),其中考慮了智商的四個關(guān)鍵方面:符號映射、規(guī)則理解、模式挖掘和抗干擾。
- 語言本質(zhì)上是符號的。已經(jīng)有一些研究在使用符號而非類別標(biāo)簽來評估 LLM 的智能水平。類似地,該團(tuán)隊使用了一種符號映射方法來測試 LLM 在未曾見過的上下文上的泛化能力。
 - 人類智能的一大重要能力是理解給定的規(guī)則并采取相應(yīng)的行動。這種測試方法已被廣泛用在各種等級的測驗中。因此,規(guī)則理解成為這里的第二項測試。
 - 模式挖掘涉及到歸納和演繹,也是智能的重要組成部分。這一方法在科學(xué)發(fā)展歷史中發(fā)揮了至關(guān)重要的作用。此外,各種競賽的測試題也往往需要這種能力才能解答。受此啟發(fā),模式挖掘被選為第三個評估指標(biāo)。
 - 最后一個也很重要的指標(biāo)是抗干擾能力,這也是智能的核心能力之一。已有研究指出,語言和圖像都很容易被噪聲干擾??紤]到這一點,該團(tuán)隊把抗干擾用作了最后一個評估指標(biāo)。
 
當(dāng)然,這四個指標(biāo)絕非 LLM IQ 評估的定案,但它們可作為一個起點,激勵后續(xù)的研究發(fā)展,并可望最終催生出一套全面的 LLM IQ 評估框架。
這項研究的主要貢獻(xiàn)包括:
- 研究者表示,這是首個使用增長策略從頭開始訓(xùn)練超過千億參數(shù)的 LLM 研究嘗試。同時,這還是目前成本最低的千億參數(shù)模型,成本僅 10 萬美元。
 - 通過改進(jìn) FreeLM 訓(xùn)練目標(biāo)、有潛力的超參數(shù)搜索方法和功能保留型增長,這項研究解決了不穩(wěn)定問題。研究者相信該方法也能為更廣大的科研社區(qū)提供助力。
 - 研究者也通過實驗比較了新模型與之前的強(qiáng)大模型,其中既使用了面向知識的基準(zhǔn),也使用了新提出的系統(tǒng)性 IQ 評估基準(zhǔn)。實驗結(jié)果表明 FLM-101B 是一個有競爭力且穩(wěn)健的模型。
 - 該團(tuán)隊會發(fā)布模型檢查點、代碼、相關(guān)工具等,以推進(jìn)千億參數(shù)規(guī)模的漢語和英語雙語 LLM 的研究開發(fā)。
 
FLM-101B 設(shè)計概況
從架構(gòu)上看,F(xiàn)LM-101B 以 FreeLM 為骨干網(wǎng)絡(luò),并集成了 xPos。在模型大小方面,得益于新的增長策略,研究者能在一次訓(xùn)練中得到 16B、51B 和 101B 三種大小的模型。
至于預(yù)訓(xùn)練設(shè)置,F(xiàn)LM-101B 繼承了 FreeLM 的訓(xùn)練策略。
而在增長策略方面,不同于獨立訓(xùn)練不同大小模型的常用實踐方法,該團(tuán)隊可以依次訓(xùn)練具有 16B、51B 和 101B 參數(shù)的三個模型,其中每個模型都會繼承其前一個較小模型的知識。
至于訓(xùn)練硬件,則是使用了 24 臺 DGX-A800 GPU (8×80G) 服務(wù)器組成的集群;FLM-101B 的訓(xùn)練時長不到 26 天更多并行策略和模型配置請參閱下表 1 和 2。


FLM-101B 的訓(xùn)練穩(wěn)定性
為了解決損失發(fā)散和梯度暴增等不穩(wěn)定問題,研究者提出了一種頗具潛力的解決方案,簡述如下。
損失預(yù)測。新提出的實現(xiàn)訓(xùn)練穩(wěn)定的方法如下:
首先,在 FLM-16B 訓(xùn)練開始之前先確定數(shù)據(jù)的分布。
接下來,對三個超參數(shù)進(jìn)行網(wǎng)格搜索,包括學(xué)習(xí)率、初始化標(biāo)準(zhǔn)差和輸出層的 softmax 溫度。該網(wǎng)格搜索的執(zhí)行是通過運行一個代理模型,其隱藏狀態(tài)維度(即模型寬度)為 256、頭數(shù)為 2,參數(shù)數(shù)量為 4000 萬。該代理模型的其它所有結(jié)構(gòu)超參數(shù)和訓(xùn)練數(shù)據(jù)與 FLM-16B 相同。在 6 個節(jié)點上使用數(shù)據(jù)并行時,一次運行網(wǎng)格搜索耗時為 24.6 小時,這大致表示:如果使用 24 節(jié)點的配置,那么運行一次需要 6 小時。
通過這種網(wǎng)格搜索,研究者找到了最優(yōu)的超參數(shù):學(xué)習(xí)率 = 4e-4、標(biāo)準(zhǔn)差 = 1.6e-2、softmax 溫度 = 2.0。
然后他們通過 μP 遷移這些超參數(shù),能實現(xiàn)規(guī)避了不穩(wěn)定問題的無縫訓(xùn)練體驗。再組合使用 MSG,LM-51B 和 FLM-101B 也沒出現(xiàn)后續(xù)的增長發(fā)散問題。
圖 2 展示了完整的訓(xùn)練損失曲線。

通過 Bfloat16 實現(xiàn)混合精度。使用混合精度的目的是節(jié)省運行時的內(nèi)存和時間成本,這里他們選擇的是 Bfloat16。
基準(zhǔn)評估
表 3 比較了 FLM-101B 與其它強(qiáng)大基準(zhǔn)模型(LLAMA 系列模型和 GLM-130B)的性能表現(xiàn)。

研究者表示,這些結(jié)果說明 FLM-101B 在事實性知識方面并沒有任何優(yōu)勢,而如果能使用更多訓(xùn)練數(shù)據(jù),那么其性能還會繼續(xù)提升。
表 4 展示了 eFLM-16B 與基準(zhǔn)模型在專業(yè)知識評估方面的結(jié)果。

結(jié)果證明,在強(qiáng)調(diào)專業(yè)知識的數(shù)據(jù)集上的得分并不能反映 LLM 的智能水平,因為某些特定訓(xùn)練數(shù)據(jù)可能具有壓倒性的貢獻(xiàn)。
表 5 給出了 FLM 模型每一階段的性能表現(xiàn)。

正如預(yù)期的那樣,F(xiàn)LM 的性能表現(xiàn)會隨模型增大而提升。FLM-101B 在幾乎所有任務(wù)上都表現(xiàn)最佳。這意味著該模型每一次增長后都會繼承前一階段的知識。
IQ 實驗
實驗中,為了對 LLM 的 IQ 進(jìn)行更為系統(tǒng)性的評估,智源研究院的這個團(tuán)隊使用了現(xiàn)有的 IQ 相關(guān)數(shù)據(jù)集并做了一些必要的修改,他們也生成了一些新的合成數(shù)據(jù)。
具體來說,他們提出的 IQ 評估主要考慮了四個方面:符號映射、規(guī)則理解、模式挖掘和抗干擾。這些任務(wù)有一個關(guān)鍵的共同點:它們?nèi)家蕾囉谠谛碌纳舷挛闹羞M(jìn)行推理和泛化。
下面幾張表格展示了 IQ 實驗的結(jié)果:




從這些表格來看,在這四個 IQ 評估基準(zhǔn)上,F(xiàn)LM-101B 憑借低得多的計算成本取得了與 GPT-3 媲美且優(yōu)于 GLM-130B 的結(jié)果。
除了訓(xùn)練數(shù)據(jù)的影響外,研究者推測這種優(yōu)勢可能是由于早期階段的小模型細(xì)化了較小的搜索空間,當(dāng)模型變得更大更寬,泛化能力增強(qiáng)時,這種優(yōu)勢還在持續(xù)發(fā)揮作用。















 
 
 





 
 
 
 