偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

時間序列預測+NLP大模型新作:為時序預測自動生成隱式Prompt

人工智能
由于時間序列的distribution shift等問題,本文對輸入序列做了一步趨勢項季節(jié)項分解。每個分解后的時間序列,都單獨做標準化,然后分割成有重疊的patch。

今天給大家介紹一篇最新的大模型+時間序列預測工作,由康涅狄格大學發(fā)表,提出了一種將時間序列在隱空間和NLP大模型對齊,并利用隱空間prompt提升時間序列預測效果的方法。

圖片

論文標題:S2IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

下載地址:https://arxiv.org/pdf/2403.05798v1.pdf

1、問題背景

大模型在時間序列上的應用越來越多,主要分為兩類:第一類使用各類時間序列數(shù)據(jù)訓練一個時間序列領(lǐng)域自己的大模型;第二類直接使用NLP領(lǐng)域訓練好的文本大模型應用到時間序列中。由于時間序列不同于圖像、文本,不同數(shù)據(jù)集的輸入格式不同、分布不同,且存在distribution shift等問題,導致使用所有時間序列數(shù)據(jù)訓練統(tǒng)一的模型比較困難。因此,越來越多的工作開始嘗試如何直接使用NLP大模型解決時間序列相關(guān)問題。

本文的聚焦點也在第二種方法,即使用NLP大模型解決時間序列問題?,F(xiàn)有的方法很多采用對時間序列的描述作為prompt,但是這種信息并不是所有時間序列數(shù)據(jù)集都有。并且現(xiàn)有的基于patch的時間序列數(shù)據(jù)處理方法,也無法完全保存時間序列數(shù)據(jù)本身的所有信息。

基于上述問題,這篇文章提出了一種新的建模方法,核心建模思路,一方面將時間序列通過tokenize處理后映射成embedding,另一方面將這些時間序列空間的表征對齊到大模型中的word embedding上。通過這種方式,讓時間序列的預測過程中,可以找到對齊的word embedding相關(guān)的信息作為prompt,提升預測效果。

圖片圖片

2、實現(xiàn)方法

下面從數(shù)據(jù)處理、隱空間對齊、模型細節(jié)等3個方面介紹一下這篇工作的實現(xiàn)方法。

數(shù)據(jù)處理:由于時間序列的distribution shift等問題,本文對輸入序列做了一步趨勢項季節(jié)項分解。每個分解后的時間序列,都單獨做標準化,然后分割成有重疊的patch。每一組patch對應趨勢項patch、季節(jié)項patch、殘差patch,將這3組patch拼接到一起,輸入到MLP中,得到每組patch的基礎(chǔ)embedding表征。

隱空間對齊:這是本文中最核心的一步。Prompt的設(shè)計對大模型的效果影響很大,而時間序列的prompt又難以設(shè)計。因此本文提出,將時間序列的patch表征和大模型的word embedding在隱空間對齊,然后檢索出topK的word embedding,作為隱式的prompt。具體做法為,使用上一步生成的patch embedding,和語言模型中的word embedding計算余弦相似度,選擇topK的word embedding,再將這些word embedding作為prompt,拼接到時間序列patch embedding的前方。由于大模型word embedding大多,為了減少計算量,先對word embedding做了一步映射,映射到數(shù)量很少的聚類中心上。

模型細節(jié):在模型細節(jié)上,使用GPT2作為語言模型部分,除了position embedding和layer normalization部分的參數(shù)外,其余的都凍結(jié)住。優(yōu)化目標除了MSE外,還引入patch embedding和檢索出的topK cluster embedding的相似度作為約束,要求二者之間的距離越小越好。最終的預測結(jié)果,也是

圖片圖片

3、實驗效果

文中對比了和一些時間序列大模型、iTransformer、PatchTST等SOTA模型的效果,在大部分數(shù)據(jù)集的不同時間窗口的預測中都取得了比較好的效果提升。

圖片圖片

同時,文中也通過t-SNE可視化分析了embedding,從圖中可以看出,時間序列的embedding在對齊之前并沒有明顯的類簇現(xiàn)象,而通過prompt生成的embedding有明顯的類簇變化,說明本文提出的方法有效的利用文本和時間序列的空間對齊,以及相應的prompt,提升時間序列表征的質(zhì)量。

圖片圖片

責任編輯:武曉燕 來源: 圓圓的算法筆記
相關(guān)推薦

2023-06-26 07:51:48

2023-10-13 15:34:55

時間序列TimesNet

2023-05-03 20:27:49

獨立預測聯(lián)合預測多元時序

2023-03-16 18:09:00

機器學習數(shù)據(jù)集

2024-05-09 16:23:14

2024-07-24 13:58:21

2023-11-06 07:27:38

模型NLP領(lǐng)域

2023-01-30 17:10:23

DeepTime元學習

2024-09-19 13:40:00

2024-07-19 10:39:38

2022-07-12 14:45:54

達摩院模型

2024-06-27 16:38:57

2022-11-24 17:00:01

模型ARDL開發(fā)

2024-06-17 16:02:58

2021-04-07 10:02:00

XGBoostPython代碼

2021-07-01 21:46:30

PythonHot-Winters數(shù)據(jù)

2024-05-29 11:36:44

2024-09-03 08:16:08

2022-07-15 16:14:39

深度學習時間序列理論

2021-07-02 10:05:45

PythonHot-winters指數(shù)平滑
點贊
收藏

51CTO技術(shù)棧公眾號