超越Transformer,全面升級!MIT等華人團(tuán)隊(duì)發(fā)布通用時(shí)序TimeMixer++架構(gòu),8項(xiàng)任務(wù)全面領(lǐng)先
在數(shù)據(jù)驅(qū)動的時(shí)代,時(shí)間序列分析成為了許多領(lǐng)域中不可或缺的一部分,比如氣象預(yù)測、醫(yī)學(xué)癥狀分類、航天器的異常檢測、以及傳感器數(shù)據(jù)中缺失數(shù)據(jù)的填充等等,這些應(yīng)用具體涉及到時(shí)間序列預(yù)測、分類、異常檢測、缺失值填充等任務(wù)。
如何使用一個(gè)模型,同時(shí)勝任所有任務(wù)?
近些年來,包括Transformer架構(gòu)在內(nèi)的一系列工作,雖然在細(xì)分任務(wù)上展現(xiàn)出色的性能,但由于缺乏靈活和通用的時(shí)序特征的提取能力,無法成為通用的模型架構(gòu)。
為了解決這些問題,來自MIT、港科大、浙大以及格里菲斯大學(xué)的華人團(tuán)隊(duì)聯(lián)合推出了一種全新的深度模型架構(gòu)TimeMixer++,在長程時(shí)序預(yù)測、短程時(shí)序預(yù)測、時(shí)序分類、異常檢測等8項(xiàng)時(shí)序任務(wù)上的效能全面超越了Transformer等模型,實(shí)現(xiàn)了通用的時(shí)間序列建模和應(yīng)用。
論文鏈接:https://arxiv.org/pdf/2410.16032
TimeMixer++的通用能力得益于其能夠提取通用的時(shí)序特征,針對不同任務(wù),模型自適應(yīng)地學(xué)習(xí)了不同的隱空間表征,展現(xiàn)出強(qiáng)大的靈活度和有效性。
設(shè)計(jì)動機(jī)
論文提出了「時(shí)序特征機(jī)器」(Time Series Pattern Machine, TSPM)的概念,作為一個(gè)能在廣泛時(shí)序任務(wù)中表現(xiàn)出色的模型,必須能提取各種各樣的時(shí)序特征,以適應(yīng)任務(wù)的要求。
時(shí)間序列是從連續(xù)的現(xiàn)實(shí)世界中以不同尺度進(jìn)行采樣得到的(如秒、分鐘、小時(shí)),而不同尺度下展現(xiàn)的周期性是不同的。該多尺度、多周期性的特性,引導(dǎo)了模型架構(gòu)的設(shè)計(jì)。
TimeMixer++
核心效果
TimeMixer++基于時(shí)域(多尺度)和頻域(多頻率/周期)的信息,將每一條時(shí)間序列轉(zhuǎn)化為多分辨率時(shí)序圖(Multi-Resolution Time Images),并對每一個(gè)時(shí)序圖在深度空間中進(jìn)行解耦和混合,最終提取多尺度、多周期的特征。
整體結(jié)構(gòu)
TimeMixer++的結(jié)構(gòu)類似Transformer,包括了下采樣、嵌入層(Input Projection),L個(gè)堆疊的MixerBlocks、和輸出層。其中,每個(gè)MixerBlock內(nèi)部,按順序包括了 (1) 多分辨率時(shí)間成像,(2) 時(shí)序圖分解,(3) 多尺度混合,和 (4) 多分辨率混合。
我們在此簡單介紹MixerBlock內(nèi)的操作,
1. Multi-Resolution Time Imaging (MRTI):MRTI負(fù)責(zé)根據(jù)頻域信息,將時(shí)序進(jìn)行多尺度、多周期的折疊,從而得到多組時(shí)序圖。
2. Time Image Decomposition (TID):TID通過橫軸和縱軸兩個(gè)軸向的注意力機(jī)制,從每一個(gè)時(shí)序圖中解耦季節(jié)-趨勢,得到季節(jié)圖和趨勢圖。
3. Multi-Scale Mixing (MCM):MCM負(fù)責(zé)將不同尺度上的季節(jié)圖和趨勢圖分別進(jìn)行混合,鑒于圖的形式,論文采用了卷積和反卷積的操作。
MCM以季節(jié)和趨勢混合為動力,將季節(jié)圖由細(xì)粒度到粗粒度逐步聚合,并利用較粗尺度的先驗(yàn)知識深入挖掘宏觀趨勢信息,最終實(shí)現(xiàn)過去信息提取中的多尺度混合。對趨勢圖,則采用由粗粒度到細(xì)粒度的逐步聚合。
模型效果
為了驗(yàn)證TimeMixer++的性能,作者在包含長程預(yù)測,短程預(yù)測,時(shí)序分類,異常檢測,填充,少樣本/零樣本預(yù)測等8個(gè)時(shí)序主流任務(wù)上進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,TimeMixer++在多個(gè)指標(biāo)上全面超越了當(dāng)前最先進(jìn)的Transformer模型,具體表現(xiàn)如下:
在長程時(shí)序預(yù)測中,TimeMixer++在9/12的指標(biāo)上超越了近幾年的預(yù)測模型。
在單變量和多變量的短程預(yù)測任務(wù)中,TimeMixer++全方位超越了近幾年的其他模型。
在缺失值填充任務(wù)中,TimeMixer++同樣保持了領(lǐng)先優(yōu)勢,在幾乎所有指標(biāo)和數(shù)據(jù)上超越了其他模型。
在困難的分類任務(wù)和異常檢測任務(wù)中,TimeMixer++依然在所有模型中取得了最好的效果,打敗了諸多專為該任務(wù)設(shè)計(jì)的時(shí)序模型。
在零樣本預(yù)測的設(shè)置下,TimeMixer++表現(xiàn)取得了第一,說明提取到通用的時(shí)序特征,而并非得益于過擬合。
表征分析
通過可視化分析,表明TimeMixer++將時(shí)間序列分解為多組季節(jié)圖和趨勢圖,可以從時(shí)域和頻域兩個(gè)角度,全方位提取時(shí)序的特征。不同尺度和頻率條件下,季節(jié)性和趨勢性有顯著差異。
效率分析
TimeMixer++在內(nèi)存占用和訓(xùn)練時(shí)間上表現(xiàn)出高效性,同時(shí)保持了有競爭力的MSE分?jǐn)?shù)。在天氣數(shù)據(jù)填補(bǔ)和ETTm1長期預(yù)測任務(wù)中,相較于其他模型,具備更低的內(nèi)存占用和較快的訓(xùn)練時(shí)間,且能有效捕捉長程依賴關(guān)系。
消融實(shí)驗(yàn)
作者進(jìn)行了消融實(shí)驗(yàn)驗(yàn)證TimeMixer++架構(gòu)的合理性。結(jié)果表明已有的多組模塊設(shè)計(jì)在絕大部分?jǐn)?shù)據(jù)集上都取得了最優(yōu)效果。
總結(jié)
本文介紹了一種全新的深度模型架構(gòu)TimeMixer++,在8個(gè)時(shí)間序列分析任務(wù)中全面超越了Transformer等模型,成功實(shí)現(xiàn)了通用的時(shí)間序列建模與應(yīng)用。TimeMixer++的創(chuàng)新之處在于將時(shí)間序列轉(zhuǎn)化為圖像,并在時(shí)域與頻域、多尺度、多分辨率下進(jìn)行特征提取,從而提升了模型的表現(xiàn)。
TimeMixer++的成功不僅為時(shí)序分析領(lǐng)域帶來了新的思路,也展示了一種全新的時(shí)序理解視角。未來,隨著更多優(yōu)化技術(shù)和應(yīng)用場景的引入,相信TimeMixer++將進(jìn)一步推動時(shí)序預(yù)測技術(shù)的發(fā)展,為各行業(yè)帶來更大的價(jià)值。