偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型

發(fā)布于 2025-2-21 11:31

瀏覽

0收藏

今天給大家介紹一片最新的多模態(tài)時間序列預(yù)測工作。這篇文章采用了時間序列、圖像、文本三種模態(tài)的數(shù)據(jù)形式，進行時間序列預(yù)測，增強底層信息的輸入，提升時序預(yù)測效果。

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

論文標(biāo)題：Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

下載地址：??https://arxiv.org/pdf/2502.04395??

1.研究背景

傳統(tǒng)的時間序列預(yù)測方法，都是最基礎(chǔ)的時間序列形式數(shù)據(jù)進行建模的。然而，最近一些工作將文本信息、圖像信息等模態(tài)引入時間序列建模中。例如，將時間序列轉(zhuǎn)換成文本形式輸入到LLM，或者將時間序列轉(zhuǎn)換成圖像數(shù)據(jù)輸入圖像模型。

文本和圖像數(shù)據(jù)各有優(yōu)勢。文本形式可以提供豐富的上下文語義信息，而圖像形式可以非常直觀的提升時間序列的形狀信息。如何融合不同模態(tài)的信息實現(xiàn)時間序列預(yù)測，在目前的多模態(tài)大模型階段是一個值得深入研究的優(yōu)化點。

這篇文章就提出了一種融合時間序列、圖像、文本等3種模態(tài)信息的時間序列預(yù)測模型，利用各個模態(tài)的輸入進行優(yōu)勢互補，提升時間序列預(yù)測整體的效果。

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū) 圖片

2.建模方法

本文的核心建模方法可以分為4個部分：時間序列模態(tài)建模、圖像模態(tài)建模、文本模態(tài)建模、多模態(tài)融合。下面對這4個主要模塊展開進行介紹。

時間序列模態(tài)輸入：本文采用了Patch+檢索的時序表征抽取方式。首先將時間序列分割成patch，然后使用多個可學(xué)習(xí)的query向量，和各個patch或者patch內(nèi)部表征計算attention，相當(dāng)于用可學(xué)習(xí)query去提取各個patch以及patch內(nèi)部的重要信息，得到對應(yīng)的時間序列表征。Patch間attention檢索表征和patch內(nèi)attention檢索表征使用加權(quán)求和的方式進行融合。

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

圖像模態(tài)輸入：在圖像模態(tài)部分，會使用傅里葉變換將原始時間序列映射到頻域，并且使用三角函數(shù)構(gòu)建每個時間步的相對位置關(guān)系。再加上原始的時間序列，共得到有3個channel的張量，維度為Batch_size、序列長度、變量數(shù)量、3（3為原始序列、傅里葉變換結(jié)果、三角函數(shù)位置信息）。接下來使用層次的卷積分別進行不同維度的信息提取。最后，將卷積輸出的表征通過resize和插值的方法轉(zhuǎn)換成目標(biāo)尺寸的圖片上，得到最終的圖像模態(tài)輸入。再輸入到多模態(tài)視覺模型中，得到表征。

文本模態(tài)輸入：對于文本模態(tài)，文中主要以數(shù)據(jù)集的描述為輸入，結(jié)合相應(yīng)的prompt，經(jīng)過一層多模態(tài)文本模型，得到文本表征。

多模態(tài)融合：對于上述3種類型模態(tài)的輸入，分別使用一個Encoder提取最終表征。時間序列模態(tài)使用self-attention和pooling進行提取。圖像和文本模態(tài)使用預(yù)訓(xùn)練的圖文模型（如CLIP等）分別提取圖像和文本表征，模型參數(shù)凍結(jié)。在上層使用一個Multimodal Fusion Network進行多模態(tài)信息的融合。MFN的核心是使用時序模態(tài)的表征作為query，多模態(tài)保證作為key和value，進行跨模態(tài)attention。最后，再使用一個gate網(wǎng)絡(luò)，對時序表征和多模態(tài)表征進行加權(quán)融合。整體計算過程如下：

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū) 圖片

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū)

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū) 圖片

3.實驗效果

通過在長期、短期時間序列預(yù)測上的效果對比可以發(fā)現(xiàn)，本文提出的方法取得了顯著的效果提升，驗證了多模態(tài)信息引入的有效性。

時序+圖像+文本，多模態(tài)增強的時序預(yù)測模型-AI.x社區(qū) 圖片

本文轉(zhuǎn)載自??圓圓的算法筆記??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

重編程大語言模型實現(xiàn)跨模態(tài)交互的時序預(yù)測 | ICLR 2024

輕薄滴假象 ? 3928瀏覽 ? 0回復(fù)
使用Transformer來進行時序預(yù)測可還行？

Syrupup ? 4369瀏覽 ? 0回復(fù)
完全在頻域?qū)W習(xí)的時序預(yù)測模塊，提升各類SOTA模型效果

海因斯DK ? 7569瀏覽 ? 0回復(fù)
TextCoT：放大增強型多模態(tài)富文本圖像理解

AIRoobt ? 4913瀏覽 ? 0回復(fù)
時序預(yù)測Decoder中的時間步依賴問題

海因斯DK ? 4694瀏覽 ? 0回復(fù)
Transformer頻域消偏提升時序預(yù)測準(zhǔn)確性

海因斯DK ? 5804瀏覽 ? 0回復(fù)
?TextCoT：放大增強型多模態(tài)富文本圖像理解

AIRoobt ? 5512瀏覽 ? 0回復(fù)
時間序列預(yù)測+NLP大模型新作：為時序預(yù)測自動生成隱式Prompt

海因斯DK ? 4998瀏覽 ? 0回復(fù)
一文匯總：時序預(yù)測中的多頻率建模方法

海因斯DK ? 4889瀏覽 ? 0回復(fù)
高維多變量下的Transformer時序預(yù)測建模方法

海因斯DK ? 5398瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 3965瀏覽 ? 0回復(fù)
時序預(yù)測中的多類型模型組合建模方案

海因斯DK ? 4630瀏覽 ? 0回復(fù)
時序預(yù)測數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 6211瀏覽 ? 0回復(fù)
NeurIPS'24：針對時序預(yù)測中時間戳特征的研究

海因斯DK ? 5422瀏覽 ? 0回復(fù)
2024時序預(yù)測都有哪些經(jīng)典工作—總結(jié)篇

海因斯DK ? 5178瀏覽 ? 0回復(fù)
通道間關(guān)系建模在不規(guī)則時序預(yù)測中的研究

海因斯DK ? 4475瀏覽 ? 0回復(fù)
時序Pattern提取+語義對齊增強基于LLM的時序預(yù)測效果

海因斯DK ? 6110瀏覽 ? 0回復(fù)
MTBench：用于金融時序推理和回答的多模態(tài)時間序列基準(zhǔn)

靈度智能 ? 3004瀏覽 ? 0回復(fù)
用知識蒸餾從LLM中提取多模態(tài)知識提升時序預(yù)測模型效果

海因斯DK ? 2786瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

搜索場景下的相關(guān)性和效率聯(lián)合建模方法 2025-08-15 06:45:30發(fā)布
DeepSeek-R1簡明解析：從DeepSeek-V3到DeepSeek-R1，LLM是如何實現(xiàn)自我進化的？ 2025-07-31 00:47:43發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

下一篇：專門針對時間序列分類任務(wù)的時序大模型

社區(qū)精華內(nèi)容

目錄

<center id="f6lxd"><option id="f6lxd"><tbody id="f6lxd"></tbody></option></center>

<samp id="f6lxd"><option id="f6lxd"><small id="f6lxd"></small></option></samp>