FoundTS:時(shí)間序列預(yù)測(cè)基礎(chǔ)模型的全面統(tǒng)一測(cè)評(píng)基準(zhǔn)
今天給大家介紹一篇華東師范大學(xué)聯(lián)合丹麥奧爾堡大學(xué)和松鼠AI發(fā)布的時(shí)間序列模型統(tǒng)一評(píng)測(cè)基準(zhǔn)FoundTS,這是一個(gè)針對(duì)時(shí)間序列預(yù)測(cè)基礎(chǔ)模型的基準(zhǔn)測(cè)評(píng)框架,旨在利用不同領(lǐng)域和特征的數(shù)據(jù)集對(duì)不同的時(shí)間序列預(yù)測(cè)基礎(chǔ)模型進(jìn)行全面、公平的測(cè)評(píng)。該論文在統(tǒng)一評(píng)測(cè)結(jié)果的基礎(chǔ)上,分析了現(xiàn)有時(shí)序預(yù)測(cè)基礎(chǔ)模型的優(yōu)缺點(diǎn),并為基礎(chǔ)模型的提升提出一些可行的方向。

論文標(biāo)題:FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
論文地址:??https://arxiv.org/pdf/2410.11802??
1.背景
時(shí)間序列預(yù)測(cè) (Time Series Forecasting, TSF) 是指根據(jù)歷史觀察來(lái)預(yù)測(cè)未來(lái)狀態(tài),從而指導(dǎo)相應(yīng)的決策和行為,是金融分析、氣象預(yù)測(cè)和能源管理等眾多領(lǐng)域的關(guān)鍵任務(wù)。
近年來(lái),針對(duì)特定領(lǐng)域數(shù)據(jù)集進(jìn)行訓(xùn)練和推理的 特定模型(Specific models) 取得了快速發(fā)展,其預(yù)測(cè)準(zhǔn)確度和推理速度顯著提升。然而,這些模型的泛化能力較弱,面對(duì)新領(lǐng)域或新數(shù)據(jù)時(shí)表現(xiàn)欠佳。在多領(lǐng)域時(shí)間序列數(shù)據(jù)或大規(guī)模語(yǔ)言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的 基礎(chǔ)模型(Foundation models) 為提升時(shí)間序列預(yù)測(cè)模型的泛化能力提供了新的可能性,但目前對(duì)此類模型的認(rèn)知還遠(yuǎn)遠(yuǎn)不足。主要原因有以下三個(gè)方面:
(1)現(xiàn)有基礎(chǔ)模型工作的實(shí)驗(yàn)設(shè)置不具備一致性,如表1所示,難以僅根據(jù)現(xiàn)有結(jié)果對(duì)不同的基礎(chǔ)模型的性能進(jìn)行公平一致的比較;
(2)當(dāng)前主流的時(shí)間序列測(cè)評(píng)基準(zhǔn)主要集中在特定模型,涉及基礎(chǔ)模型的測(cè)評(píng)基準(zhǔn)很少;
(3)現(xiàn)有涉及基礎(chǔ)模型的測(cè)評(píng)基準(zhǔn)對(duì)此類模型的分析還停留在定性分析或單一場(chǎng)景測(cè)評(píng)。

為了解決上述問(wèn)題,這篇論文提出了一個(gè)新的測(cè)評(píng)基準(zhǔn) FoundTS,以實(shí)現(xiàn)對(duì)時(shí)間序列預(yù)測(cè)基礎(chǔ)模型進(jìn)行全面、公平的評(píng)估和比較。FoundTS 涵蓋了各種時(shí)間序列預(yù)測(cè)基礎(chǔ)模型,包括基于多領(lǐng)域時(shí)間序列數(shù)據(jù)的預(yù)訓(xùn)練模型(Pre-trained models)和基于大規(guī)模語(yǔ)言的預(yù)訓(xùn)練模型(LLM-based models)。同時(shí),F(xiàn)oundTS 支持不同的預(yù)測(cè)場(chǎng)景,如零樣本(zero-shot)、少樣本(few-shot)和全樣本(full-shot)。

2.FoundTS評(píng)測(cè)框架
FoundTS 提供了一個(gè)標(biāo)準(zhǔn)化評(píng)估流程,包含了三個(gè)核心模塊:數(shù)據(jù)(data)、模型(models)、評(píng)估(evaluation)。

數(shù)據(jù)模塊包含10個(gè)來(lái)自不同領(lǐng)域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多種特征(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的時(shí)間序列數(shù)據(jù)集,為下游時(shí)間序列預(yù)測(cè)提供了全面的數(shù)據(jù)支持。
模型模塊涵蓋了各類時(shí)間序列預(yù)測(cè)模型,并對(duì)其進(jìn)行了細(xì)致的分類與介紹。
基于多領(lǐng)域時(shí)間序列數(shù)據(jù)的預(yù)訓(xùn)練模型:論文中根據(jù)訓(xùn)練方法從重建、自回歸、直接預(yù)測(cè)以及混合預(yù)測(cè)四個(gè)角度分別介紹此類模型;
基于大規(guī)模語(yǔ)言的預(yù)訓(xùn)練模型:通過(guò)參數(shù)高效微調(diào)或設(shè)計(jì)prompt的方式,利用 LLMs 強(qiáng)大的表征能力和序列建模能力來(lái)捕捉時(shí)間序列的復(fù)雜模式;
特定模型:使用特定數(shù)據(jù)集進(jìn)行訓(xùn)練并在相應(yīng)的數(shù)據(jù)集進(jìn)行推理,常見(jiàn)框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。
評(píng)估模塊提供全面的測(cè)評(píng)場(chǎng)景、可擴(kuò)展的流程和統(tǒng)一的評(píng)估環(huán)境:
涵蓋 zero-shot、few-shot 和 full-shot 場(chǎng)景,全面評(píng)估時(shí)間序列預(yù)測(cè)基礎(chǔ)模型在不同測(cè)試場(chǎng)景下的表現(xiàn)。
支持對(duì)評(píng)測(cè)流程的多個(gè)方面進(jìn)行靈活定制,如回看窗口、預(yù)測(cè)窗口、數(shù)據(jù)劃分與加載、采樣策略等,能夠?qū)Σ煌P筒捎靡恢碌脑u(píng)測(cè)流程,確保測(cè)試結(jié)果的公平與可靠。
提供各種評(píng)估指標(biāo)(如平均絕對(duì)誤差(MAE)和均方誤差(MSE)),從不同角度提供深入的模型性能分析。
3.實(shí)驗(yàn)分析
論文在多個(gè)不同領(lǐng)域的數(shù)據(jù)集上對(duì)比了不同的時(shí)間序列預(yù)測(cè)基礎(chǔ)模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 場(chǎng)景下的性能表現(xiàn),同時(shí)從不同角度對(duì)時(shí)間序列預(yù)測(cè)基礎(chǔ)模型的優(yōu)缺點(diǎn)進(jìn)行了分析。



論文比較了時(shí)間序列預(yù)測(cè)基礎(chǔ)模型在不同采樣策略下的性能,表明數(shù)據(jù)采樣策略在few-shot學(xué)習(xí)中起著至關(guān)重要的作用,只有在統(tǒng)一的實(shí)驗(yàn)設(shè)置下才能對(duì)模型進(jìn)行公平評(píng)估。

論文探索了多變量時(shí)間序列的通道依賴性對(duì)時(shí)間序列預(yù)測(cè)基礎(chǔ)模型性能影響,呼吁在構(gòu)建基礎(chǔ)模型時(shí)應(yīng)充分考慮多變量數(shù)據(jù)的通道依賴性。

論文分析了不同框架的時(shí)間序列預(yù)測(cè)基礎(chǔ)模型之間的性能差異,指出未來(lái)需要更深入地研究模型架構(gòu)設(shè)計(jì),找到性能和參數(shù)量之間的平衡。

論文在具有不同顯著特征的數(shù)據(jù)集上對(duì)比了時(shí)間序列預(yù)測(cè)基礎(chǔ)模型處理不同特征數(shù)據(jù)的能力。

論文評(píng)估了來(lái)自多領(lǐng)域時(shí)間序列數(shù)據(jù)或大規(guī)模語(yǔ)言數(shù)據(jù)的預(yù)訓(xùn)練知識(shí)對(duì)下游時(shí)間序列預(yù)測(cè)任務(wù)的實(shí)際效益。

論文通過(guò)衡量時(shí)間序列預(yù)測(cè)基礎(chǔ)模型在 5% 數(shù)據(jù)的 few-shot 場(chǎng)景下微調(diào)時(shí)間與特定模型在 full-shot 場(chǎng)景下從頭訓(xùn)練時(shí)間,討論了時(shí)間序列預(yù)測(cè)基礎(chǔ)模型的精度與應(yīng)用效率。

4.發(fā)現(xiàn)與觀點(diǎn)
基礎(chǔ)模型是否優(yōu)于特定模型?時(shí)間序列預(yù)測(cè)基礎(chǔ)模型,相比于特定模型,表現(xiàn)出優(yōu)越的 zero-shot 和 few-shot 的學(xué)習(xí)能力。但當(dāng)有足夠的訓(xùn)練數(shù)據(jù)時(shí),基礎(chǔ)模型并不總是優(yōu)于特定模型。
哪些基礎(chǔ)模型更優(yōu)?時(shí)間序列預(yù)測(cè)基礎(chǔ)模型的優(yōu)勢(shì)取決于評(píng)估的不同方面,沒(méi)有任何一個(gè)基礎(chǔ)模型能夠在所有方面占據(jù)主導(dǎo)地位。
從哪些方面提升基礎(chǔ)模型? (1)時(shí)間序列預(yù)測(cè)基礎(chǔ)模型應(yīng)具有更加通用的、處理多種預(yù)測(cè)場(chǎng)景的能力;(2)從訓(xùn)練數(shù)據(jù)、模型架構(gòu)、預(yù)訓(xùn)練策略等角度優(yōu)化設(shè)計(jì)以更充分利用大規(guī)模預(yù)訓(xùn)練知識(shí);(3)如何在下游任務(wù)甚至預(yù)訓(xùn)練階段充分建模各個(gè)通道之間的依賴性,是基礎(chǔ)模型應(yīng)對(duì)多變量時(shí)間序列的關(guān)鍵問(wèn)題之一;(4)合理平衡預(yù)測(cè)精度與訓(xùn)練、微調(diào)、推理成本,是將時(shí)間序列預(yù)測(cè)基礎(chǔ)模型進(jìn)行實(shí)際應(yīng)用不可忽視的問(wèn)題。
本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

















