偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法

發(fā)布于 2025-7-10 06:30
瀏覽
0收藏

今天給大家介紹一篇關(guān)于如何在深度模型中引入外部變量的時(shí)間序列預(yù)測(cè)工作,通過(guò)cross-attention靈活引入多種類(lèi)型的外部變量補(bǔ)充信息,提升時(shí)序預(yù)測(cè)效果。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

論文標(biāo)題:CITRAS: Covariate-Informed Transformer for Time Series Forecasting

下載地址:https://arxiv.org/pdf/2503.24007

1.研究背景

現(xiàn)有的時(shí)間序列預(yù)測(cè)模型,大多數(shù)都是在優(yōu)化待預(yù)測(cè)變量的關(guān)系建模方式上。例如一些transformer模型,核心都是通過(guò)不同的attention方式建模每個(gè)時(shí)間步和其他時(shí)間步目標(biāo)序列的關(guān)系。這些方法忽略了外部變量的重要性。

外部變量,指的是那些非預(yù)測(cè)目標(biāo)的變量序列,類(lèi)似特征的概念。這其中又可以分為2種類(lèi)型。一種是只知道歷史每個(gè)時(shí)刻取值的變量,另一種是同時(shí)知道歷史和未來(lái)每個(gè)時(shí)刻取值的變量。

本文針對(duì)這兩種類(lèi)型變量的靈活引入,提出了一種cross-attention結(jié)構(gòu),并通過(guò)attention score的平滑提升離散型變量的建模能力。在多個(gè)數(shù)據(jù)集上都取得了顯著的效果提升。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

2.建模方法

本文的核心模型結(jié)構(gòu)如下圖所示,整體基于Transformer結(jié)構(gòu),每次遞歸預(yù)測(cè)下一個(gè)時(shí)間步的值,對(duì)原始序列分patch處理后,先進(jìn)行目標(biāo)變量、各個(gè)外部變量獨(dú)立的self-attention,再通過(guò)cross-attention將外部變量信息引入目標(biāo)變量,并通過(guò)KV Shift讓未來(lái)已知變量的信息引入到歷史目標(biāo)變量中。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

Embedding部分:對(duì)目標(biāo)變量、歷史已知變量、歷史未知變量都采用類(lèi)似PatchTST的方法進(jìn)行不重疊patch劃分和MLP映射,生成embedding,輸入到后續(xù)模型中。

Cross-Time Attention:這部分就是基礎(chǔ)的self-attention,對(duì)待預(yù)測(cè)序列以及各個(gè)外部變量,都獨(dú)立的分別做self-attention生成表征。

Cross-Variate Attention:這部分是本文的核心模塊,用來(lái)進(jìn)行外部變量信息引入待預(yù)測(cè)變量。其中目標(biāo)變量表征為Query,目標(biāo)變量、未來(lái)已知變量、未來(lái)位置變量拼接到一起作為Key和Value。由于未來(lái)已知變量涉及到未來(lái)時(shí)間步的值,沒(méi)有對(duì)應(yīng)的目標(biāo)變量embedding,無(wú)法進(jìn)行信息引入,因此文中引入了KV Shift的方法,將未來(lái)已知變量回移一個(gè)時(shí)間步,實(shí)現(xiàn)對(duì)齊拼接。在遞歸進(jìn)行下一個(gè)時(shí)間步預(yù)測(cè)時(shí)再逐步引入未來(lái)時(shí)間步未來(lái)已知變量的表征。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

Attention Score Smoothing:一些外部變量是離散型的,在一個(gè)patch內(nèi)可能一直是同一個(gè)值,而時(shí)間序列在patch內(nèi)可能出現(xiàn)比較大的波動(dòng),導(dǎo)致這種變量在attention時(shí)無(wú)法刻畫(huà)全局信息。因此文中引入了attention平滑的方法,當(dāng)前patch的attention值是歷史patch的attention值的滑動(dòng)平均。計(jì)算方式如下,每次使用上一個(gè)時(shí)刻的平滑attention值和當(dāng)前時(shí)刻的attention值做加權(quán)求和。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

3.實(shí)驗(yàn)效果

整體的實(shí)驗(yàn)效果如下表所示,文本提出的方法在多個(gè)數(shù)據(jù)集中取得了顯著的效果提升。

時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū)

? 時(shí)間序列Transformer模型中靈活引入不同類(lèi)型外部特征的方法-AI.x社區(qū) 圖片 ?

本文轉(zhuǎn)載自???圓圓的算法筆記??,作者:Fareise

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦