南加大提出全新「通用時(shí)間序列」基礎(chǔ)模型TimeDiT!基于擴(kuò)散模型創(chuàng)新物理約束機(jī)制
隨著近年來在文本和視頻數(shù)據(jù)上構(gòu)建基礎(chǔ)模型的進(jìn)展,學(xué)術(shù)界對(duì)時(shí)間序列的基礎(chǔ)模型也表現(xiàn)出濃厚的興趣。
時(shí)間序列分析在許多關(guān)鍵領(lǐng)域中具有重要性,能夠影響從科學(xué)研究到經(jīng)濟(jì)決策的廣泛應(yīng)用。
例如,在自然科學(xué)中,氣候數(shù)據(jù)的分析直接關(guān)系到全球變暖的預(yù)測(cè)和資源管理;在社會(huì)科學(xué)中,時(shí)間序列數(shù)據(jù)有助于理解社會(huì)行為的演變;在醫(yī)療健康領(lǐng)域,病人的生命體征和治療進(jìn)程記錄依賴于時(shí)間序列分析。隨著全球可持續(xù)發(fā)展目標(biāo)的推進(jìn),能源和環(huán)境監(jiān)控等領(lǐng)域的時(shí)間序列數(shù)據(jù)也越來越受到重視。
然而,盡管已經(jīng)有許多模型專門針對(duì)特定的時(shí)間序列任務(wù)取得了顯著的成果,現(xiàn)有的模型仍面臨諸多挑戰(zhàn)。
首先,現(xiàn)實(shí)世界中的時(shí)間序列數(shù)據(jù)往往含有缺失值,并且來自不同領(lǐng)域的數(shù)據(jù)通常具有多通道和多分辨率的特性。這些問題使得現(xiàn)有模型在處理數(shù)據(jù)不完整性和復(fù)雜性時(shí)表現(xiàn)不佳,難以有效地進(jìn)行預(yù)測(cè)、補(bǔ)全和異常檢測(cè)。
此外,現(xiàn)有模型在整合物理知識(shí)方面存在明顯局限。許多真實(shí)的時(shí)間序列數(shù)據(jù)背后遵循著嚴(yán)格的物理定律,例如偏微分方程(PDEs),這些定律能夠?yàn)閿?shù)據(jù)建模提供重要的先驗(yàn)知識(shí)。
然而,已有的時(shí)間序列基礎(chǔ)模型難以將這些物理知識(shí)直接融入預(yù)測(cè)或數(shù)據(jù)生成過程,從而限制了其在科學(xué)和工程等物理領(lǐng)域中的適用性。
為了應(yīng)對(duì)這些挑戰(zhàn),南加州大學(xué)的研究人員提出了一種通用的時(shí)間序列基礎(chǔ)模型TimeDiT:通過結(jié)合去噪擴(kuò)散模型和Transformer架構(gòu),TimeDiT能夠處理數(shù)據(jù)中的多通道、多分辨率和缺失值等問題,同時(shí)通過創(chuàng)新的物理約束機(jī)制,TimeDiT能將物理知識(shí)無縫整合到時(shí)間序列生成和預(yù)測(cè)過程中。
論文鏈接:https://arxiv.org/pdf/2409.02322
這種靈活性不僅提高了模型應(yīng)對(duì)復(fù)雜時(shí)間序列任務(wù)的能力,還使其能夠在需要嚴(yán)格物理約束的領(lǐng)域(如氣候建模和工程模擬)中表現(xiàn)出色。
背景與挑戰(zhàn)
時(shí)間序列數(shù)據(jù)與文本和圖像等數(shù)據(jù)有著根本的區(qū)別,因此直接將大型語言模型(如GPT-4、LLaMA等)的成功經(jīng)驗(yàn)移植到時(shí)間序列領(lǐng)域并不現(xiàn)實(shí)。
時(shí)間序列數(shù)據(jù)的特殊性質(zhì)使得該領(lǐng)域面臨一系列獨(dú)特的挑戰(zhàn),例如:
1. 通道維度不一致:在不同領(lǐng)域中,時(shí)間序列可能會(huì)有不同數(shù)量的通道。而這一現(xiàn)象在文本和圖像數(shù)據(jù)上并不常見。這對(duì)通用模型設(shè)計(jì)提出了更高的要求,要求一個(gè)模型能夠靈活處理不同通道數(shù)的多變量數(shù)據(jù)。
2. 缺失值問題:在實(shí)際應(yīng)用中,時(shí)間序列數(shù)據(jù)往往存在大量缺失值,如何在這些不完整數(shù)據(jù)上實(shí)現(xiàn)有效的預(yù)測(cè)和補(bǔ)全是另一個(gè)難題。
3. 多分辨率問題:同一時(shí)間序列數(shù)據(jù)的不同維度采樣頻率可能各不相同,這種多分辨率特性增加了模型在處理時(shí)的復(fù)雜度。
4. 自回歸生成方式的局限性:傳統(tǒng)的時(shí)間序列模型通常采用自回歸生成方式,即使是基于Transformer架構(gòu)的模型亦然。這意味著數(shù)據(jù)是按順序生成的,這種方式在整合外部知識(shí)(如以偏微分方程形式表達(dá)的物理定律)時(shí)存在局限性。
模型創(chuàng)新
為了解決這些問題,本文提出了一種全新的時(shí)間序列基礎(chǔ)模型——TimeDiT,即時(shí)間擴(kuò)散Transformer模型。該模型結(jié)合了Transformer架構(gòu)和去噪擴(kuò)散模型,既能捕捉時(shí)間序列中的長短期依賴,又能生成高質(zhì)量的時(shí)間序列樣本,與此同時(shí)又克服了傳統(tǒng)自回歸模型在生成過程中容易累積誤差的問題。
TimeDiT模型通過以下幾個(gè)方面的創(chuàng)新來應(yīng)對(duì)時(shí)間序列數(shù)據(jù)的挑戰(zhàn):
1. 擴(kuò)散模型的引入
傳統(tǒng)時(shí)間序列模型通常采用自回歸生成方式,即逐步生成序列的未來值,這種方式的局限性在于其對(duì)模型的依賴較大,容易導(dǎo)致預(yù)測(cè)誤差的累積。部分已有的工作通過獨(dú)立預(yù)測(cè)不同時(shí)間窗口的結(jié)果來規(guī)避這一問題。然而這又使得模型一定程度上喪失了捕捉相鄰時(shí)間信號(hào)間的依賴關(guān)系的能力。而擴(kuò)散模型則采用了一個(gè)去噪的逆向過程,從噪聲逐步生成數(shù)據(jù),這種方法避免了自回歸生成方式中常見的誤差累積問題,又使得模型能夠在每一步的去噪過程中根據(jù)附近時(shí)間片的預(yù)測(cè)值修正自身。
2. 通道對(duì)齊策略
為了應(yīng)對(duì)不同領(lǐng)域中通道數(shù)量的變化,TimeDiT模型設(shè)計(jì)了一個(gè)通道對(duì)齊策略,使得模型能夠靈活處理不同輸入數(shù)據(jù)的維度變化。
3. 綜合掩碼機(jī)制
TimeDiT模型使用了一種新穎的掩碼機(jī)制,通過不同的掩碼方案來處理多分辨率、缺失值等問題,確保模型能夠在各種數(shù)據(jù)條件下保持穩(wěn)定的性能。這種掩碼機(jī)制包括隨機(jī)掩碼(random position mask)、分段掩碼(stride mask)、步幅掩碼(block mask)等,能夠適應(yīng)不同的時(shí)間序列任務(wù)。
4. 無微調(diào)模型編輯策略
TimeDiT模型還提出了一種創(chuàng)新的無須微調(diào)的模型編輯策略,允許在采樣過程中無縫整合外部知識(shí)(如物理定律),而不需要更新模型的參數(shù)。這種策略使得TimeDiT模型能夠根據(jù)偏微分方程(PDEs)等領(lǐng)域知識(shí),在生成數(shù)據(jù)的過程中顯式約束生成的樣本,使其符合已知的物理規(guī)律。
模型架構(gòu)與實(shí)現(xiàn)
TimeDiT模型的架構(gòu)設(shè)計(jì)圍繞擴(kuò)散過程展開,擴(kuò)散過程可以看作是一個(gè)馬爾科夫鏈,在前向過程中逐步向數(shù)據(jù)中加入高斯噪聲,最終破壞數(shù)據(jù)的原始結(jié)構(gòu)。然后,模型在逆向過程中通過逐步去噪的方式重建原始數(shù)據(jù)。
TimeDiT的Transformer架構(gòu)通過注意力機(jī)制來捕捉時(shí)間序列中的時(shí)間依賴關(guān)系,同時(shí)依靠擴(kuò)散模型生成高質(zhì)量的樣本。在采樣階段,TimeDiT模型還設(shè)計(jì)了一種基于物理知識(shí)的能量先驗(yàn),通過偏微分方程(PDEs)來約束模型生成的時(shí)間序列樣本,使其符合物理定律。
模型的標(biāo)準(zhǔn)化訓(xùn)練流程通過掩碼機(jī)制實(shí)現(xiàn),能夠同時(shí)處理預(yù)測(cè)、數(shù)據(jù)補(bǔ)全、異常檢測(cè)等任務(wù)。在訓(xùn)練階段,TimeDiT模型通過重建被掩蓋的時(shí)間序列片段來進(jìn)行自監(jiān)督學(xué)習(xí)。在推理階段,模型根據(jù)具體任務(wù)選擇不同的掩碼策略,以便更好地適應(yīng)下游任務(wù)的需求。
圖1 TimeDiT架構(gòu)。左圖:TimeDiT框架包含來自不同領(lǐng)域的多分辨率、多變量時(shí)間序列數(shù)據(jù),并能夠利用掩碼策略處理缺失值問題;中間:TimeDiT模塊的結(jié)構(gòu);右上方:由時(shí)間序列掩碼單元生成的掩碼的示意圖;右下方:TimeDiT在推理過程中處理下游任務(wù)時(shí)使用的掩碼
此外,在TimeDiT架構(gòu)中,物理知識(shí)的整合是一大亮點(diǎn),特別是在生成高質(zhì)量時(shí)間序列數(shù)據(jù)時(shí),物理信息通過物理約束的擴(kuò)散過程得到體現(xiàn)。通過引入偏微分方程(PDEs)作為物理先驗(yàn),TimeDiT在推理階段可以顯式的將物理定律融入擴(kuò)散生成過程,確保生成的時(shí)間序列符合真實(shí)世界的物理規(guī)律。
具體而言,TimeDiT使用能量函數(shù)來量化生成數(shù)據(jù)與物理模型之間的偏差,通過優(yōu)化該能量函數(shù),使生成的數(shù)據(jù)更加符合物理約束。這一過程通過朗之萬動(dòng)力學(xué)進(jìn)行采樣調(diào)整,結(jié)合物理先驗(yàn)和數(shù)據(jù)驅(qū)動(dòng)模型,從而在生成過程中迭代優(yōu)化,使生成的樣本不僅符合數(shù)據(jù)分布,還滿足物理定律。算法1中詳細(xì)提供了偽代碼
這種物理引導(dǎo)的擴(kuò)散策略顯著提升了TimeDiT在科學(xué)和工程領(lǐng)域中的應(yīng)用潛力,尤其是在氣候與海洋學(xué)等復(fù)雜物理現(xiàn)象的建模中,展現(xiàn)了較強(qiáng)的泛化能力和適用性。
算法1 TimeDiT中基于物理知識(shí)的采樣過程
實(shí)驗(yàn)驗(yàn)證與結(jié)果分析
為了驗(yàn)證TimeDiT模型的有效性,本文進(jìn)行了大量的實(shí)驗(yàn)。在TimeDiT模型的實(shí)驗(yàn)結(jié)果中,針對(duì)缺失值(missing value)和多分辨率數(shù)據(jù)(multi-resolution)的處理表現(xiàn)尤為突出(見圖2)。傳統(tǒng)的時(shí)間序列模型在應(yīng)對(duì)這些復(fù)雜的現(xiàn)實(shí)問題時(shí)往往表現(xiàn)不佳,而TimeDiT通過其創(chuàng)新性的掩碼機(jī)制,展現(xiàn)了卓越的適應(yīng)能力。
對(duì)于含有缺失值的預(yù)測(cè)任務(wù),TimeDiT在不同缺失率條件下的表現(xiàn)優(yōu)于現(xiàn)有的最先進(jìn)模型。當(dāng)缺失率從5%增加至50%時(shí),TimeDiT依然保持較低的CRPSsum分?jǐn)?shù),顯示出其對(duì)缺失數(shù)據(jù)的強(qiáng)大魯棒性。與其他模型相比,隨著缺失率的增加,TimeDiT的性能優(yōu)勢(shì)愈加明顯,表明其在面對(duì)更具挑戰(zhàn)性的缺失數(shù)據(jù)條件下依然能夠有效補(bǔ)全缺失值。
在處理多分辨率時(shí)間序列數(shù)據(jù)時(shí),TimeDiT同樣表現(xiàn)優(yōu)異。實(shí)驗(yàn)結(jié)果表明,隨著數(shù)據(jù)的采樣分辨率從2種增加至6種,TimeDiT在處理多分辨率數(shù)據(jù)時(shí)依然能維持明顯的性能優(yōu)勢(shì),充分說明其能夠有效整合不同采樣頻率的數(shù)據(jù),進(jìn)行高質(zhì)量的預(yù)測(cè)。
這些實(shí)驗(yàn)結(jié)果表明,TimeDiT不僅在理想化數(shù)據(jù)集上表現(xiàn)出色,更能應(yīng)對(duì)現(xiàn)實(shí)中常見的復(fù)雜問題,如缺失數(shù)據(jù)和多分辨率采樣,這使其在實(shí)際應(yīng)用中的潛力大大提升。
圖2 針對(duì)含有缺失值和多分辨率數(shù)據(jù)的實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果中,我們可以看出TimeDiT表現(xiàn)出色,顯著優(yōu)于其他模型。并且缺失值的比重越大、分辨率的種類越多,TimeDiT的優(yōu)勢(shì)越明顯
此外,TimeDiT模型在物理約束下的時(shí)間序列生成實(shí)驗(yàn)也取得了優(yōu)異的表現(xiàn)。通過引入偏微分方程(PDEs)作為能量先驗(yàn),TimeDiT模型能夠生成符合物理規(guī)律的高質(zhì)量樣本,在多個(gè)物理領(lǐng)域的數(shù)據(jù)集上均超越了現(xiàn)有的基線模型(見圖3)。
除了以上的實(shí)驗(yàn)結(jié)果,本文也在常用的基準(zhǔn)數(shù)據(jù)(benchmark data)上對(duì)TimeDiT與其他先進(jìn)的時(shí)間序列模型進(jìn)行了對(duì)比實(shí)驗(yàn),包括預(yù)測(cè)、數(shù)據(jù)補(bǔ)全、異常檢測(cè)等任務(wù)。實(shí)驗(yàn)數(shù)據(jù)來自交通、電力、金融等領(lǐng)域,涵蓋了多種具有挑戰(zhàn)性的時(shí)間序列任務(wù)。
在這些實(shí)驗(yàn)中,TimeDiT模型在多個(gè)任務(wù)上都取得了最先進(jìn)的結(jié)果,表現(xiàn)出極高的泛化能力和適應(yīng)性。
1. 預(yù)測(cè)任務(wù):在時(shí)間序列的概率預(yù)測(cè)任務(wù)中(圖4),TimeDiT模型在電力和交通數(shù)據(jù)集上實(shí)現(xiàn)了新的最優(yōu)CRPSsum評(píng)分,表明其在處理復(fù)雜多變量時(shí)間序列數(shù)據(jù)上的出色性能。
2. 數(shù)據(jù)補(bǔ)全任務(wù):對(duì)于缺失值補(bǔ)全任務(wù)(圖5),TimeDiT模型的創(chuàng)新掩碼機(jī)制使得它能夠有效應(yīng)對(duì)缺失率較高的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果顯示,TimeDiT在多個(gè)數(shù)據(jù)集上均實(shí)現(xiàn)了最優(yōu)的均方誤差(MSE)和平均絕對(duì)誤差(MAE)。
3. 異常檢測(cè)任務(wù):TimeDiT模型還在工業(yè)監(jiān)控?cái)?shù)據(jù)的異常檢測(cè)任務(wù)中(圖6)表現(xiàn)突出,通過頻譜殘差預(yù)處理方法,有效避免了模型對(duì)異常數(shù)據(jù)點(diǎn)的過擬合。
圖3 基于物理知識(shí)的時(shí)間序列生成任務(wù)
圖4 時(shí)間序列預(yù)測(cè)任務(wù)
圖5:時(shí)間序列補(bǔ)全任務(wù)
圖6 時(shí)間序列異常檢測(cè)任務(wù)
模型優(yōu)勢(shì)與局限
TimeDiT模型的主要優(yōu)勢(shì)在于其靈活性和廣泛的適應(yīng)性。它不僅能夠處理各種具有不同分布的時(shí)間序列數(shù)據(jù),還能夠通過無微調(diào)的模型編輯策略整合外部知識(shí),如物理規(guī)律等,使其在科學(xué)和工程領(lǐng)域的應(yīng)用具有巨大的潛力。
實(shí)驗(yàn)結(jié)果表明,TimeDiT模型在處理預(yù)測(cè)、補(bǔ)全、異常檢測(cè)等任務(wù)時(shí),都表現(xiàn)出了強(qiáng)大的性能和魯棒性。
然而,TimeDiT模型也有一定的局限性。首先,本文主要在常見的序列長度上進(jìn)行實(shí)驗(yàn),尚未深入研究該模型在處理超長時(shí)間序列時(shí)的表現(xiàn)。
其次,雖然模型能夠通過掩碼機(jī)制處理多通道和多分辨率問題,但在高維多變量時(shí)間序列上的擴(kuò)展性仍有待進(jìn)一步提高。
此外,盡管模型能夠整合物理知識(shí),但不同類型外部信息對(duì)模型性能的具體影響還需要進(jìn)一步的研究。
未來工作展望
未來的工作可以從以下幾個(gè)方向進(jìn)一步提升TimeDiT模型的能力:
1. 擴(kuò)展性增強(qiáng):進(jìn)一步提升模型的擴(kuò)展性,處理更高維度和更加復(fù)雜的時(shí)間序列數(shù)據(jù),尤其是在應(yīng)對(duì)實(shí)際應(yīng)用中的超長序列時(shí)的表現(xiàn)。
2. 多模態(tài)數(shù)據(jù)融合:研究如何無縫整合多模態(tài)數(shù)據(jù)源,如文本、圖像等信息,以提升模型在多任務(wù)場(chǎng)景下的表現(xiàn)。
3. 超長時(shí)間序列處理:探索如何提高模型處理超長時(shí)間序列的能力,以滿足諸如氣候變化、金融市場(chǎng)等領(lǐng)域的需求。
結(jié)論
TimeDiT模型通過創(chuàng)新性地結(jié)合擴(kuò)散模型與Transformer架構(gòu),為時(shí)間序列分析領(lǐng)域提供了一種通用的基礎(chǔ)模型。它不僅能夠有效應(yīng)對(duì)真實(shí)世界中常見的多分辨率、缺失值等問題,還能在采樣過程中整合物理學(xué)知識(shí),使生成的時(shí)間序列符合已知的物理規(guī)律。
實(shí)驗(yàn)結(jié)果表明,TimeDiT在多個(gè)時(shí)間序列任務(wù)上取得了最先進(jìn)的結(jié)果,展示了其在廣泛應(yīng)用場(chǎng)景中的潛力。未來的研究可以進(jìn)一步提升模型的擴(kuò)展性和多模態(tài)融合能力,使其能夠在更多的實(shí)際應(yīng)用中發(fā)揮作用。