偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果

發(fā)布于 2025-5-19 00:18
瀏覽
0收藏

今天給大家介紹一篇使用大語(yǔ)言模型結(jié)合知識(shí)蒸餾方法,構(gòu)建高效輕量級(jí)時(shí)間序列預(yù)測(cè)模型的方法。文中基于大語(yǔ)言模型通過(guò)多模態(tài)建模優(yōu)化適配到時(shí)間序列數(shù)據(jù),并進(jìn)一步通過(guò)優(yōu)勢(shì)知識(shí)蒸餾將大模型信息蒸餾到小模型中,實(shí)現(xiàn)模型尺寸不變而具備大模型知識(shí)的目的,提升時(shí)序預(yù)測(cè)效果。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

論文標(biāo)題:Efficient Multivariate Time Series Forecasting via Calibrated Language Models with Privileged Knowledge Distillation

下載地址:??https://arxiv.org/pdf/2505.02138??

1.研究背景

將預(yù)訓(xùn)練的語(yǔ)言模型應(yīng)用到時(shí)間序列領(lǐng)域是業(yè)內(nèi)研究的重點(diǎn),借助LLM的域外知識(shí)進(jìn)行多模態(tài)建模,提升時(shí)間序列預(yù)測(cè)效果。然而,使用LLM進(jìn)行時(shí)序預(yù)測(cè)的一個(gè)主要問(wèn)題是性能開銷大,LLM一般參數(shù)量很大,將其應(yīng)用到時(shí)間序列預(yù)測(cè)相比基礎(chǔ)的時(shí)間序列預(yù)測(cè)模型計(jì)算量要大得多。

為了解決該問(wèn)題,這篇文章提出用知識(shí)蒸餾的手段,將LLM的知識(shí)蒸餾到時(shí)間序列預(yù)測(cè)模型中,既保證計(jì)算量不變,又能降LLM的多模態(tài)建模知識(shí)引入時(shí)間序列模型中。下面展開介紹本文的建模方法。

2.建模方法

本文的核心模塊可以分成2部分,第一部分是如何基于預(yù)訓(xùn)練的LLM訓(xùn)練一個(gè)多模態(tài)時(shí)間序列預(yù)測(cè)模型作為teacher,第二部分是如何利用知識(shí)蒸餾構(gòu)建student時(shí)序預(yù)測(cè)模型。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

對(duì)于Teacher模型,其原始是一個(gè)預(yù)訓(xùn)練LLM,將時(shí)間序列數(shù)據(jù)構(gòu)建成如下prompt的形式(包括歷史序列、未來(lái)序列的Ground Truth),將文本形式的時(shí)間序列輸入到LLM中,歷史序列和未來(lái)序列分別輸入到LLM中。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

LLM的結(jié)構(gòu)如下,整體基于Transformer,核心優(yōu)化點(diǎn)是在self-attention的計(jì)算中提出了calibrated attention?;A(chǔ)的attention計(jì)算,數(shù)字部分和文本部分的這類跨模態(tài)交互的打分也很高,這其實(shí)削弱了時(shí)間序列部分內(nèi)部的交互信息學(xué)習(xí)。為了緩解該問(wèn)題,文中對(duì)于跨模態(tài)部分的attention分直接減去一個(gè)超參數(shù)的值,削弱這部分影響,讓attention專注于數(shù)字部分內(nèi)部(即時(shí)間序列內(nèi)部)的建模,緩解文本的干擾。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

類似的,文中提出了subtractive cross attention模塊,對(duì)Transformer輸出的表征去除文本部分信息,讓后續(xù)的蒸餾重點(diǎn)聚焦數(shù)字部分信息。文中將歷史序列或未來(lái)序列Transformer最后一個(gè)位置表征作為蒸餾目標(biāo)。為了讓這個(gè)表征主要反應(yīng)時(shí)間序列部分信息,引入了一個(gè)subtractive cross attention模塊:在歷史序列和未來(lái)序列之間做一個(gè)cross-attention,然后從原始的表征中減掉cross-attention的輸出結(jié)果。這部分原理為,歷史序列和未來(lái)序列prompt的文本部分是相似的,時(shí)間序列數(shù)字部分不同,attention分高的對(duì)應(yīng)文本部分,將這部分信息從表征中去掉,保留時(shí)間序列信息,避免文本信息對(duì)后續(xù)student時(shí)間序列模型蒸餾的干擾。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

Teacher模型的訓(xùn)練目標(biāo)為未來(lái)序列重構(gòu)?;谏鲜霎a(chǎn)出的表征經(jīng)過(guò)一個(gè)PTEncoder(由LN和Transformer組成),獲取中間表征后,對(duì)原始序列進(jìn)行還原。Teachder模型的整體算法流程如下。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

Student模型是一個(gè)整體基于Transformer結(jié)構(gòu)、以時(shí)間序列數(shù)據(jù)為輸入的傳統(tǒng)時(shí)間序列模型,通過(guò)ReVIN對(duì)輸入時(shí)間序列進(jìn)行歸一化處理。其中的核心是蒸餾Teachder模型知識(shí)。文中引入了兩種類型的蒸餾。第一種是蒸餾attention分。Teacher模型在calibrated attention模塊產(chǎn)出了校準(zhǔn)后的時(shí)間序列數(shù)字間的打分,文中讓Student模型的transformer模塊中的attention打分結(jié)果與Teachder模型保持一致。

另一方面是直接蒸餾特征表征,讓Student模型學(xué)習(xí)Teacher模型通過(guò)subtractive cross attention產(chǎn)出的表征向量,直接使用Smooth L1 Loss作為損失函數(shù)。

3.實(shí)驗(yàn)效果

下表是主要的實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的方法取得了最優(yōu)的效果。

用知識(shí)蒸餾從LLM中提取多模態(tài)知識(shí)提升時(shí)序預(yù)測(cè)模型效果-AI.x社區(qū)

同時(shí),從效率上看本文的模型在參數(shù)量、訓(xùn)練時(shí)間、推理速度都優(yōu)于以往的基于LLM的時(shí)間序列預(yù)測(cè)模型。

本文轉(zhuǎn)載自????圓圓的算法筆記??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦