偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM解決時間序列問題之語言模型+時序模型的對齊與融合建模

發(fā)布于 2024-12-24 13:33
瀏覽
0收藏

直接基于預(yù)訓(xùn)練的大語言模型(LLM)解決時間序列問題,是一個最近的重要研究點(diǎn)。之前的研究中,主要嘗試用LLM進(jìn)行zero-shot learning,或者基于LLM的參數(shù)進(jìn)行finetune。隨著研究的深入,研究者發(fā)現(xiàn),單獨(dú)的一個LLM模型,或者單獨(dú)的用LLM在時序數(shù)據(jù)上finetune,并不能取得最優(yōu)的效果。因此除了上述優(yōu)化之外,另一些工作嘗試同時引入LLM構(gòu)建文本模型和時序模型,并對兩種模態(tài)的信息進(jìn)行對齊,提升時序預(yù)測效果。

今天就給大家總結(jié)幾篇最近一段時間,使用語言模型+時序模型進(jìn)行融合建模的最新工作。

1.基于Attention的文本時序融合

Taming Pre-trained LLMs for Generalised Time Series Forecasting via Cross-modal Knowledge Distillation提出一種文本+時序模型雙分支的結(jié)構(gòu),都從LLM進(jìn)行參數(shù)初始化,并進(jìn)行跨模態(tài)的表征對齊。整體模型包含兩個分支,一個分支是文本模型,使用預(yù)訓(xùn)練的GPT2;另一個分支是時間序列模型,用來對時間序列數(shù)據(jù)進(jìn)行編碼,也使用預(yù)訓(xùn)練的GPT2。對于輸入的多元時間序列數(shù)據(jù),首先使用iTransformer中的方法,將每個變量的序列看成一個token,生成多元時間序列的表征。對于文本模型側(cè),首先使用PCA對word embedding做一個降維,生成cluster。為了實(shí)現(xiàn)時間序列和文本信息的對齊,使用一個multi-head attention,以時間序列表征作為Query,文本模型的cluster表征作為Key和Value計(jì)算融合表征。

文本模型和時間序列模型這兩個分支都進(jìn)行時間序列預(yù)測。為了對齊兩個模態(tài),文中引入了兩個約束。第一個約束是,讓文本模型和時間序列模型的隱層表征的距離最??;另一個約束是讓兩個模態(tài)的預(yù)測結(jié)果盡可能相同。在finetune階段,文本模型側(cè)不更新參數(shù),時間序列模型測使用LoRA進(jìn)行高效finetune。

LLM解決時間序列問題之語言模型+時序模型的對齊與融合建模-AI.x社區(qū)

2.Patch表征和Token表征隱空間對齊

S2IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting也是類似的建模方法,結(jié)合prompt對時序模型和文本模型進(jìn)行對齊。本文提出,將時間序列的patch表征和大模型的word embedding在隱空間對齊,然后檢索出topK的word embedding,作為隱式的prompt。具體做法為,使用上一步生成的patch embedding,和語言模型中的word embedding計(jì)算余弦相似度,選擇topK的word embedding,再將這些word embedding作為prompt,拼接到時間序列patch embedding的前方。由于大模型word embedding大多,為了減少計(jì)算量,先對word embedding做了一步映射,映射到數(shù)量很少的聚類中心上。文中使用GPT2作為語言模型部分,除了position embedding和layer normalization部分的參數(shù)外,其余的都凍結(jié)住。優(yōu)化目標(biāo)除了MSE外,還引入patch embedding和檢索出的topK cluster embedding的相似度作為約束,要求二者之間的距離越小越好。

LLM解決時間序列問題之語言模型+時序模型的對齊與融合建模-AI.x社區(qū)

3.原型Embedding對齊文本和時序

Rethinking Time Series Forecasting with LLMs via Nearest Neighbor Contrastive Learning提出一種方法是訓(xùn)練幾個文本原型向量,并讓其對齊時間序列數(shù)據(jù)表征,最后將這些原型向量作為prompt加入到時間序列輸入中。文中提出的文本原型向量名為TCTP。如下圖所示,其核心是在LLM的token embedding表征空間中,學(xué)一些可學(xué)習(xí)的embedding,實(shí)現(xiàn)一種對原始token embedding聚類的目的。同時,通過對比學(xué)習(xí)的手段,拉近這些原型embedding和時間序列表征之間的距離,作為一個中間橋梁對齊token embedding和時間序列embedding。

具體的模型結(jié)構(gòu)圖如下。TCTP的優(yōu)化目標(biāo)有兩個。一方面,要求每個token embedding和距離其最近的TCTP embedding盡可能小,實(shí)現(xiàn)將TCTP嵌入到token embedding的表征空間。另一方面,對于一個時間序列,使用patch+linear生成的時序表征,和各個TCTP計(jì)算距離,選擇距離最小的K個TCTP,通過對比學(xué)習(xí)拉近時序表征和這K個TCTP的距離,實(shí)現(xiàn)時序表征到TCTP表征的對齊,進(jìn)而對齊到預(yù)訓(xùn)練語言模型的token表征空間。

在得到TCTP表征后,將其作為soft prompt,拼接到時間序列輸入的前面,整體輸入到預(yù)訓(xùn)練的語言模型中。語言模型輸出的表征接一個可學(xué)習(xí)的線性層,映射到最終的預(yù)測結(jié)果。

LLM解決時間序列問題之語言模型+時序模型的對齊與融合建模-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise 


已于2024-12-24 13:49:41修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦