時序大模型突破十億參數(shù)!新混合專家架構(gòu),普林斯頓格里菲斯等機構(gòu)出品
時序大模型,參數(shù)規(guī)模突破十億級別。
來自全球多只華人研究團隊提出了一種基于混合專家架構(gòu)(Mixture of Experts, MoE)的時間序列基礎(chǔ)模型——Time-MoE。
據(jù)了解,該模型首次將時間序列預(yù)訓(xùn)練大模型的參數(shù)規(guī)模推向十億級別。
Time-MoE模型通過MoE架構(gòu)的獨特優(yōu)勢,將模型參數(shù)成功擴展至24億,不僅顯著提升了預(yù)測精度,還在降低計算成本的同時超越了眾多現(xiàn)有模型,全面達到了SOTA(State of the Art)水平。
圖片
與此同時,團隊精心整理了預(yù)訓(xùn)練數(shù)據(jù)集Time-300B,這是目前時序領(lǐng)域最大的公開數(shù)據(jù)集,為各類時序任務(wù)提供了通用解決方案。
十億參數(shù)時序大模型
這篇文章主要有以下三點技術(shù)突破:
強大的混合專家架構(gòu):Time-MoE采用稀疏激活機制,在預(yù)測任務(wù)中僅激活部分網(wǎng)絡(luò)節(jié)點,這不僅確保了高預(yù)測精度,還顯著降低了計算負擔,完美解決了時序大模型在推理階段的計算瓶頸。
靈活的預(yù)測范圍:Time-MoE支持任意長度的輸入和輸出范圍,能夠處理從短期到長期的各種時序預(yù)測任務(wù),實現(xiàn)了真正的全域時序預(yù)測。
全球最大規(guī)模的開源時序數(shù)據(jù)集:團隊開發(fā)了Time-300B數(shù)據(jù)集,涵蓋9個領(lǐng)域的超過3000億個時間點,為模型提供了豐富的多領(lǐng)域訓(xùn)練數(shù)據(jù),確保其在多種任務(wù)中的卓越泛化能力。
圖片
在相同激活參數(shù)條件下,Time-MoE顯著超越了現(xiàn)有的時序基礎(chǔ)模型。在相同的FLOPs下,其稀疏架構(gòu)展現(xiàn)出相較于密集模型的卓越精度優(yōu)勢。
模型框架:
圖片
輸入Token Embedding
Time-MoE使用逐點分詞方法以確保時間序列信息的完整性,提高了模型處理不同長度序列的靈活性與適用性,如模型框架圖中①所示。在②中,SwiGLU激活函數(shù)對每個時間序列點進行嵌入,其中包括一個Feed-forward network (FFN) 和一個Swish FFN,從而增強模型對多維輸入的處理能力:
MoE Transformer模塊
Time-MoE基于decoder-only Transformer,并結(jié)合了大規(guī)模語言模型中的最新技術(shù)。Transformer模塊里, RMSNorm對每個子層輸入進行了歸一化處理,從而提升了訓(xùn)練的穩(wěn)定性。同時,采用旋轉(zhuǎn)位置編碼代替絕對位置編碼,使得模型在處理可變序列長度時具備更好的外推能力。此外,模型引入了稀疏激活的混合專家層來取代標準Transformer模塊里的FFN。公式化概括如下:
其中Mixture代表混合專家層。如模型框架圖中③所示,單個時間序列數(shù)據(jù)點可以被分配給一個或多個專家。通過選擇部分專家網(wǎng)絡(luò)來處理特定時間點的輸入,模型的計算效率得到了提高。
多分辨率預(yù)測
如模型框架圖中④和⑤所示,Time-MoE設(shè)計了一種多分辨率預(yù)測頭,可以同時進行不同尺度的預(yù)測,突破了單一尺度預(yù)測的局限。在訓(xùn)練時,不同分辨率頭會被聯(lián)合優(yōu)化。
在與推理時,模型采用貪心算法,利用不同尺度的輸出組合成任意的預(yù)測長度。這種設(shè)計允許模型根據(jù)不同的預(yù)測范圍進行靈活預(yù)測,并在訓(xùn)練過程中綜合多個預(yù)測尺度的誤差來優(yōu)化模型的泛化能力,從而顯著提升預(yù)測的準確性和魯棒性。
實驗效果
零樣本Zero-shot預(yù)測
零樣本預(yù)測能有效檢驗時序基礎(chǔ)模型的泛化能力和通用性。實驗表明,與現(xiàn)有的時序基礎(chǔ)模型相比,Time-MoE達到了最好的預(yù)測效果,均方誤差(MSE)降低了約20%。
圖片
全樣本Full-shot預(yù)測
在全樣本預(yù)測中,預(yù)訓(xùn)練的Time-MoE會使用相應(yīng)數(shù)據(jù)的訓(xùn)練集進行微調(diào)。
實驗表明,與專門為全樣本預(yù)測設(shè)計的時序模型相比,Time-MoE依然能達到最優(yōu)的效果, MSE降低了約24%。這體現(xiàn)了模型對于不同領(lǐng)域數(shù)據(jù)的適用性,以及預(yù)訓(xùn)練基礎(chǔ)模型對于下游任務(wù)幫助的有效性。
圖片
消融實驗
文中進一步提供了一系列消融實驗來驗證模型框架設(shè)計的合理性。實驗表明,Time-MoE的設(shè)計在提升模型精度上是有效的。特別地,在不使用混合專家的情況下,模型的MSE會有明顯的退化。
圖片
Scalability 分析
作者對于模型的規(guī)?;ЧM行了詳細分析,如下圖所示。左圖的實驗表明,與稠密模型相比,稀疏模型減少了平均78%的訓(xùn)練成本和39%的推理成本。右圖的結(jié)果表明,隨著數(shù)據(jù)量和模型參數(shù)的增大,Time-MoE持續(xù)表現(xiàn)出穩(wěn)定的性能提升,并且與同規(guī)模的稠密模型相比,總能達到更小的MSE和更好的預(yù)測性能。
圖片
此外,作者還分析了訓(xùn)練精度的影響。如下表所示,與使用float32精度進行訓(xùn)練相比,使用bfloat16精度能得到相似的預(yù)測性能,但是bfloat16模型能在訓(xùn)練速度上獲得12%的提升,內(nèi)存占用上有 20%的減少。
此外,bfloat16還可以與flash-attention(表中簡稱為FA)無縫結(jié)合,從而進一步在訓(xùn)練和推理速度上帶來23%和19%的提升。
圖片
Time-MoE不僅在性能上超越了現(xiàn)有模型實現(xiàn)SOTA,更為構(gòu)建大規(guī)模、高效、通用的時序預(yù)測基礎(chǔ)模型提供一個可行的范式。除此之外,Time-MoE在工業(yè)界的多種時序場景也很有應(yīng)用潛力,比如在能源管理、金融預(yù)測、電商銷量、氣象預(yù)報等領(lǐng)域。
論文地址:
https://arxiv.org/pdf/2409.16040
Github地址:
https://github.com/Time-MoE/Time-MoE