時(shí)間序列也能和大模型結(jié)合?亞馬遜最新工作,大模型可解釋時(shí)序預(yù)測(cè)
這幾天亞馬遜發(fā)布了一篇使用大模型做時(shí)間序列預(yù)測(cè)的工作,屬于大模型在時(shí)序預(yù)測(cè)中的第一次探索,利用大模型提升金融場(chǎng)景預(yù)測(cè)中的多模態(tài)數(shù)據(jù)處理能力和可解釋能力。這篇文章屬于一個(gè)比較有意思的探索工作,思路可以借鑒,但是想要達(dá)到SOTA效果還有待進(jìn)一步研究。下面給大家介紹一下這篇文章的建模思路。
論文標(biāo)題:Temporal Data Meets LLM - Explainable Financial Time Series Forecasting
下載地址:https://arxiv.org/pdf/2306.11025v1.pdf
1、問(wèn)題背景
金融領(lǐng)域是時(shí)間序列預(yù)測(cè)技術(shù)的一個(gè)重要應(yīng)用場(chǎng)景。與普通的時(shí)序預(yù)測(cè)不同,金融領(lǐng)域的時(shí)間序列預(yù)測(cè)建模面對(duì)著更加復(fù)雜的挑戰(zhàn),而這些挑戰(zhàn)可以使用大模型來(lái)解決,主要體現(xiàn)在以下3個(gè)方面。
第一點(diǎn)是如何建模復(fù)雜的序列間關(guān)系。在股價(jià)預(yù)測(cè)中,不同股票價(jià)格之間存在很強(qiáng)的依賴關(guān)系或關(guān)聯(lián)關(guān)系,因此能否建模好序列間關(guān)系至關(guān)重要。大模型的序列建模能力和多序列關(guān)系建模很強(qiáng),因此我們可以嘗試將大模型這些能力應(yīng)用到序列預(yù)測(cè)中。
第二點(diǎn)是對(duì)文本數(shù)據(jù)的處理能力。目前的金融場(chǎng)景時(shí)間序列預(yù)測(cè)問(wèn)題,很多都重點(diǎn)研究如何處理金融資訊信息,融入到時(shí)間序列預(yù)測(cè)建模中。股價(jià)的波動(dòng)很多程度上來(lái)源于金融資訊,只靠單純的時(shí)間序列建模是無(wú)法涵蓋全部信息的。這種多模態(tài)信息的有效引入,對(duì)于金融場(chǎng)景時(shí)序預(yù)測(cè)效果有很大幫助。大模型天然的具有強(qiáng)大的文本處理能力,因此自然成為這個(gè)問(wèn)題的有力解決方案。
第三點(diǎn)是可解釋性,這也是各個(gè)領(lǐng)域的深度學(xué)習(xí)模型都追求的一個(gè)點(diǎn),如何讓模型的預(yù)測(cè)結(jié)果更具可解釋性,能讓預(yù)測(cè)結(jié)果更有價(jià)值,指導(dǎo)我們的行動(dòng)。大模型的可解釋性也很強(qiáng),例如通過(guò)思維鏈等方式讓大模型生成給出答案的原因。
基于以上考慮,本文嘗試了利用大模型做時(shí)間序列,同時(shí)解決上述3個(gè)問(wèn)題。
2、實(shí)現(xiàn)方法
整體的建模方法主要包括對(duì)時(shí)間序列的處理、對(duì)文本信息的引入、prompt設(shè)計(jì)、基于Instruction Tuning的大模型微調(diào)4個(gè)部分。
時(shí)間序列處理:文中將時(shí)間序列通過(guò)離散化的方式轉(zhuǎn)換為符號(hào)表示,文中的預(yù)測(cè)目標(biāo)是納斯達(dá)克100各個(gè)公司股票投資回報(bào),即周期末相比周期初股價(jià)漲幅。文中將漲幅變成符號(hào),比如D1代表跌1%以內(nèi),U2代表漲2%以內(nèi)等等。處理成這種符號(hào)化的表示,方便輸入到后續(xù)的大模型中。
文本信息引入:在文本信息方面,文中利用GPT4進(jìn)行信息生成,包括公司的整體介紹、可能影響股價(jià)的優(yōu)勢(shì)和劣勢(shì)等文本信息。此外,對(duì)于新聞資訊信息,使用GPT4進(jìn)行摘要生成和關(guān)鍵字抽取,作為后續(xù)的輸入。公司介紹和摘要生成的例子如下:
prompt設(shè)計(jì):有了上述信息,整體的預(yù)測(cè)prompt如下圖所示,輸入包括離散化后的時(shí)間序列符號(hào)化表示、GPT4生成的公司簡(jiǎn)介、新聞?wù)刃畔?,讓大模型給出預(yù)測(cè)結(jié)果。
Instruction Tuning:只基于這種zero-shot的方式可能無(wú)法發(fā)揮大模型最強(qiáng)的能力,因此文中進(jìn)一步采用了Instruction Tuning,使用上述方式構(gòu)造30k的周預(yù)測(cè)和7k月預(yù)測(cè)數(shù)據(jù),用開(kāi)源的LLaMa模型進(jìn)行Instruction Tuning。(關(guān)于Instruction Tuning在之前的文章有過(guò)多次介紹,本質(zhì)上就是將任務(wù)轉(zhuǎn)換成文本,以語(yǔ)言模型為目標(biāo)微調(diào)大模型)
3、實(shí)驗(yàn)結(jié)果
下表是文中的實(shí)驗(yàn)結(jié)果,主要對(duì)比大模型之間的效果,以及其與一些簡(jiǎn)單時(shí)間序列預(yù)測(cè)方式的效果差異。整體來(lái)看,用大模型進(jìn)行這種粗粒度預(yù)測(cè)是可行的,同時(shí)GPT4的效果非常顯著,GPT4的few-shot效果要優(yōu)于基于LLaMa的instruction tuning方法。
4、總結(jié)
大模型在序列數(shù)據(jù)上的應(yīng)用,是一個(gè)值得研究的點(diǎn)。文中通過(guò)這種離散化時(shí)間序列的方式,進(jìn)行基于大模型的預(yù)測(cè),是有潛力改變金融場(chǎng)景時(shí)間序列預(yù)測(cè)范式的一個(gè)方式。