偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型

發(fā)布于 2025-2-21 11:31
瀏覽
0收藏

今天給大家介紹一片最新的多模態(tài)時間序列預(yù)測工作。這篇文章采用了時間序列、圖像、文本三種模態(tài)的數(shù)據(jù)形式,進行時間序列預(yù)測,增強底層信息的輸入,提升時序預(yù)測效果。

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

論文標(biāo)題:Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

下載地址:??https://arxiv.org/pdf/2502.04395??

1.研究背景

傳統(tǒng)的時間序列預(yù)測方法,都是最基礎(chǔ)的時間序列形式數(shù)據(jù)進行建模的。然而,最近一些工作將文本信息、圖像信息等模態(tài)引入時間序列建模中。例如,將時間序列轉(zhuǎn)換成文本形式輸入到LLM,或者將時間序列轉(zhuǎn)換成圖像數(shù)據(jù)輸入圖像模型。

文本和圖像數(shù)據(jù)各有優(yōu)勢。文本形式可以提供豐富的上下文語義信息,而圖像形式可以非常直觀的提升時間序列的形狀信息。如何融合不同模態(tài)的信息實現(xiàn)時間序列預(yù)測,在目前的多模態(tài)大模型階段是一個值得深入研究的優(yōu)化點。

這篇文章就提出了一種融合時間序列、圖像、文本等3種模態(tài)信息的時間序列預(yù)測模型,利用各個模態(tài)的輸入進行優(yōu)勢互補,提升時間序列預(yù)測整體的效果。

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)圖片

2.建模方法

本文的核心建模方法可以分為4個部分:時間序列模態(tài)建模、圖像模態(tài)建模、文本模態(tài)建模、多模態(tài)融合。下面對這4個主要模塊展開進行介紹。

時間序列模態(tài)輸入:本文采用了Patch+檢索的時序表征抽取方式。首先將時間序列分割成patch,然后使用多個可學(xué)習(xí)的query向量,和各個patch或者patch內(nèi)部表征計算attention,相當(dāng)于用可學(xué)習(xí)query去提取各個patch以及patch內(nèi)部的重要信息,得到對應(yīng)的時間序列表征。Patch間attention檢索表征和patch內(nèi)attention檢索表征使用加權(quán)求和的方式進行融合。

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

圖像模態(tài)輸入:在圖像模態(tài)部分,會使用傅里葉變換將原始時間序列映射到頻域,并且使用三角函數(shù)構(gòu)建每個時間步的相對位置關(guān)系。再加上原始的時間序列,共得到有3個channel的張量,維度為Batch_size、序列長度、變量數(shù)量、3(3為原始序列、傅里葉變換結(jié)果、三角函數(shù)位置信息)。接下來使用層次的卷積分別進行不同維度的信息提取。最后,將卷積輸出的表征通過resize和插值的方法轉(zhuǎn)換成目標(biāo)尺寸的圖片上,得到最終的圖像模態(tài)輸入。再輸入到多模態(tài)視覺模型中,得到表征。

文本模態(tài)輸入:對于文本模態(tài),文中主要以數(shù)據(jù)集的描述為輸入,結(jié)合相應(yīng)的prompt,經(jīng)過一層多模態(tài)文本模型,得到文本表征。

多模態(tài)融合:對于上述3種類型模態(tài)的輸入,分別使用一個Encoder提取最終表征。時間序列模態(tài)使用self-attention和pooling進行提取。圖像和文本模態(tài)使用預(yù)訓(xùn)練的圖文模型(如CLIP等)分別提取圖像和文本表征,模型參數(shù)凍結(jié)。在上層使用一個Multimodal Fusion Network進行多模態(tài)信息的融合。MFN的核心是使用時序模態(tài)的表征作為query,多模態(tài)保證作為key和value,進行跨模態(tài)attention。最后,再使用一個gate網(wǎng)絡(luò),對時序表征和多模態(tài)表征進行加權(quán)融合。整體計算過程如下:

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)圖片

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)圖片

3.實驗效果

通過在長期、短期時間序列預(yù)測上的效果對比可以發(fā)現(xiàn),本文提出的方法取得了顯著的效果提升,驗證了多模態(tài)信息引入的有效性。

時序+圖像+文本,多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??圓圓的算法筆記??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦