專(zhuān)門(mén)針對(duì)時(shí)間序列分類(lèi)任務(wù)的時(shí)序大模型
今天給大家介紹一篇華為最近發(fā)表的時(shí)間序列分類(lèi)大模型工作,填補(bǔ)了專(zhuān)門(mén)用于時(shí)間序列分類(lèi)的大模型工作空白,借鑒了Vision Transformer的訓(xùn)練方式和模型結(jié)構(gòu),遷移到時(shí)間序列分類(lèi)任務(wù)中,在多種類(lèi)型的數(shù)據(jù)集上取得了不錯(cuò)的效果。
推薦閱讀:???2024時(shí)序預(yù)測(cè)都有哪些經(jīng)典工作——匯總篇??,2024時(shí)間序列預(yù)測(cè)相關(guān)最新SOTA工作匯總,涉及模型結(jié)構(gòu)、表示學(xué)習(xí)、頻域信息、擴(kuò)散模型10余個(gè)專(zhuān)題。
論文標(biāo)題:Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time Series Classification
下載地址:??https://arxiv.org/pdf/2502.15637v1??
1.研究背景
時(shí)間序列大模型的研究已經(jīng)非常廣泛,但是大多數(shù)都是針對(duì)時(shí)間序列預(yù)測(cè)任務(wù),或者能夠解決時(shí)間序列預(yù)測(cè)、分類(lèi)、填充等多種類(lèi)型任務(wù)的通用模型,而缺少專(zhuān)門(mén)針對(duì)時(shí)間序列分類(lèi)任務(wù)的時(shí)間序列基礎(chǔ)模型。相比針對(duì)分類(lèi)的時(shí)序基礎(chǔ)模型,同時(shí)解決多種任務(wù)的模型可能在分類(lèi)任務(wù)上的表現(xiàn)并不是最優(yōu)的。
華為發(fā)表的這篇文章,核心是構(gòu)建一個(gè)專(zhuān)門(mén)針對(duì)時(shí)間序列分類(lèi)的時(shí)間序列基礎(chǔ)模型Mantis,能夠應(yīng)用到多種領(lǐng)域、多種輸入格式(單變量or多變量)的數(shù)據(jù)上。
2.建模方法
下面主要從輸入特征、模型結(jié)構(gòu)、訓(xùn)練方式、Adaptor等4個(gè)角度,介紹文本提出的Mantis時(shí)間序列分類(lèi)大模型。
在輸入特征方面,主要分為patch、差分patch、統(tǒng)計(jì)值等3個(gè)部分。Patch采用正常的分patch操作,基于卷積+mean pooling實(shí)現(xiàn)。差分patch指的是對(duì)原始序列進(jìn)行差分(相鄰位置相減)后,再進(jìn)行分patch處理,實(shí)現(xiàn)對(duì)原始序列平穩(wěn)項(xiàng)的提取。統(tǒng)計(jì)值,指的是直接提取原始序列patch的均值、方差等,作為額外的特征,輸入模型。三種特征都將原始序列分成32個(gè)patch,每個(gè)patch的這三種類(lèi)型的特征,拼接到一起,經(jīng)過(guò)一層Linear和一層Layer Normalization,生成32個(gè)token,作為后續(xù)模型的輸入。
在模型結(jié)構(gòu)方面,基本采用了Vision Transformer的結(jié)構(gòu)。用一個(gè)[CLASS] token拼接到輸入token前面,并引入position embedding,一起輸入到多層Transformer模型中,最終[CLASS] token輸出的embedding通過(guò)一個(gè)MLP映射到分類(lèi)結(jié)果。
在訓(xùn)練方法上,核心是基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練。從多種類(lèi)型的數(shù)據(jù)集中,采樣一個(gè)時(shí)間序列,并使用數(shù)據(jù)增強(qiáng)方法生成其正樣本,隨機(jī)采樣負(fù)樣本,通過(guò)對(duì)比學(xué)習(xí)拉近正樣本對(duì)之間距離,推遠(yuǎn)負(fù)樣本對(duì)之間距離,提升模型的表征學(xué)習(xí)能力。在數(shù)據(jù)增強(qiáng)方法上,文中發(fā)現(xiàn)不同類(lèi)型數(shù)據(jù)適用的數(shù)據(jù)增強(qiáng)方法不同,文中采用了一種叫做RandomCropResize的比較保險(xiǎn)的增強(qiáng)方法。對(duì)原始數(shù)據(jù)隨機(jī)截取一段,然后再拉伸成原始的尺寸,作為數(shù)據(jù)增強(qiáng)結(jié)果。
為了讓訓(xùn)練好的時(shí)序基礎(chǔ)模型支持不同輸入channel維度的樣本,一種簡(jiǎn)單的做法是把多元序列拆成多個(gè)單變量序列,獨(dú)立過(guò)預(yù)訓(xùn)練模型。這種方法當(dāng)序列維度較高時(shí)效率低,且無(wú)法考慮變量間關(guān)系。本文提出了Adaptor方法,讓多元時(shí)間序列適配時(shí)序基礎(chǔ)模型。核心是用降維的方法,將原始多元時(shí)間序列映射到更低的維度,再輸入時(shí)序基礎(chǔ)模型。降維過(guò)程針對(duì)每個(gè)時(shí)間步的各個(gè)變量進(jìn)行,不影響時(shí)序關(guān)系。另外,文中也提出了使用MLP進(jìn)行降維,讓MLP跟著模型進(jìn)行學(xué)習(xí),達(dá)到有監(jiān)督的降維效果。
3.實(shí)驗(yàn)效果
在實(shí)驗(yàn)部分,文中從zero-shot表征抽取效果、finetune模型效果等角度對(duì)Mantis進(jìn)行驗(yàn)證,并進(jìn)行了消融實(shí)驗(yàn)、Adaptor類(lèi)型效果差異影響的實(shí)驗(yàn)。不論是zero-shot場(chǎng)景還是finetune場(chǎng)景,本文提出的方法都取得了優(yōu)于其他SOTA方法的效果。
本文轉(zhuǎn)載自??圓圓的算法筆記??
