偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

統(tǒng)計(jì)學(xué)入門:時(shí)間序列分析基礎(chǔ)知識詳解

開發(fā) 前端
時(shí)間序列分析中包含了許多復(fù)雜的數(shù)學(xué)公式,它們往往難以留存于記憶之中。為了更好地掌握這些內(nèi)容,本文將整理并總結(jié)時(shí)間序列分析中的一些核心概念,如自協(xié)方差、自相關(guān)和平穩(wěn)性等,并通過Python實(shí)現(xiàn)和圖形化展示這些概念,使其更加直觀易懂。希望通過這篇文章幫助大家更清楚地理解時(shí)間序列分析的基礎(chǔ)框架和關(guān)鍵點(diǎn)。

時(shí)間序列分析中包含了許多復(fù)雜的數(shù)學(xué)公式,它們往往難以留存于記憶之中。為了更好地掌握這些內(nèi)容,本文將整理并總結(jié)時(shí)間序列分析中的一些核心概念,如自協(xié)方差、自相關(guān)和平穩(wěn)性等,并通過Python實(shí)現(xiàn)和圖形化展示這些概念,使其更加直觀易懂。希望通過這篇文章幫助大家更清楚地理解時(shí)間序列分析的基礎(chǔ)框架和關(guān)鍵點(diǎn)。

1.什么是時(shí)間序列?-自協(xié)方差、自相關(guān)和平穩(wěn)性

時(shí)間序列與時(shí)間有關(guān),隨著時(shí)間的推移觀察到的數(shù)據(jù)稱為時(shí)間序列數(shù)據(jù):例如,心率監(jiān)測,每日最高溫度等。雖然這些例子是有規(guī)律的間隔觀察到的,但也有不規(guī)則間隔觀察到的時(shí)間序列數(shù)據(jù),如盤中股票交易、臨床試驗(yàn)等。我們將使用定期觀察跨度的時(shí)間序列數(shù)據(jù),并且只有一個(gè)變量(單變量時(shí)間序列)。從數(shù)學(xué)上我們可以這樣定義時(shí)間序列:

如果我們把X _l看作一個(gè)隨機(jī)變量,可以定義一個(gè)依賴于觀測時(shí)間t的均值和方差。

對于時(shí)間序列數(shù)據(jù),可能想要比較過去和當(dāng)前的數(shù)據(jù)。所以就引出了兩個(gè)基本概念,自協(xié)方差和自相關(guān)

自協(xié)方差

從技術(shù)上講,自協(xié)方差和協(xié)方差是一樣的。協(xié)方差有如下公式:

協(xié)方差計(jì)算兩個(gè)變量X和y之間的關(guān)系。在計(jì)算樣本協(xié)方差時(shí),我們將每個(gè)觀測值與平均值之間的差除以n-1,類似于樣本方差。對于自協(xié)方差則計(jì)算前一個(gè)觀測值與當(dāng)前觀測值之間的樣本協(xié)方差。公式如下:

這里的h被稱為滯后。滯后的X是前一個(gè)X值偏移了h位置。所以公式與協(xié)方差相同。

自相關(guān)

自相關(guān)也和相關(guān)一樣,相關(guān)關(guān)系有如下公式。

相關(guān)性將協(xié)方差除以變量X和y的標(biāo)準(zhǔn)差,我們可以認(rèn)為相關(guān)性類似于標(biāo)準(zhǔn)化協(xié)方差除以標(biāo)準(zhǔn)差。對于自相關(guān),計(jì)算以前和當(dāng)前觀測值之間的相關(guān)性。h在公式中也表示滯后性。

當(dāng)協(xié)方差和相關(guān)取較大的正值時(shí),X和Y兩個(gè)變量呈正相關(guān)關(guān)系。那么自協(xié)方差和自相關(guān)呢?我們來看看可視化。

對于第一個(gè)示例,從AR(1)流程生成數(shù)據(jù)(稍后我們將看到它)。它看起來像嘈雜的數(shù)據(jù)。

在這種情況下,自協(xié)方差和自相關(guān)圖如下圖所示。x軸表示滯后。

可以看到自協(xié)方差和自相關(guān)有相似的趨勢。因此可以想象自相關(guān)可以被認(rèn)為是標(biāo)準(zhǔn)化的自協(xié)方差。

對于下面的示例將使用真實(shí)世界的數(shù)據(jù),例如AirPassengers[4]。airpassenger數(shù)據(jù)有明顯的上升趨勢。

自協(xié)方差和自相關(guān)圖如下圖所示。x軸表示滯后。

自協(xié)方差和自相關(guān)也有類似的趨勢。這個(gè)數(shù)據(jù)比第一個(gè)例子有更多的相關(guān)性和更大的滯后。

我們了解了兩個(gè)關(guān)鍵概念,自協(xié)方差和自相關(guān)。接下來,我們討論一個(gè)叫做平穩(wěn)性的新概念。平穩(wěn)時(shí)間序列意味著數(shù)據(jù)屬性,如均值、方差和協(xié)方差,不依賴于觀測時(shí)間。平穩(wěn)性有兩種類型:

弱平穩(wěn)(二階平穩(wěn))

該過程具有以下關(guān)系,稱為弱平穩(wěn)性,二階平穩(wěn)性或協(xié)方差平穩(wěn)性。(有很多稱呼它的方式。)

其中μ是常數(shù),且 ??? 不依賴于??。這些公式表明,隨著時(shí)間的推移,均值和方差是穩(wěn)定的,協(xié)方差取決于時(shí)滯。例如,上一段中的第一個(gè)例子具有弱平穩(wěn)性。

嚴(yán)格平穩(wěn)性(強(qiáng)平穩(wěn)性)

令Fx(?)表示聯(lián)合密度函數(shù)時(shí),嚴(yán)格平穩(wěn)性描述為:

如果所有時(shí)間序列數(shù)據(jù)的聯(lián)合分布不隨時(shí)間的變化而變化,則該時(shí)間序列具有嚴(yán)格的平穩(wěn)性。嚴(yán)格平穩(wěn)意味著弱平穩(wěn)。這個(gè)性質(zhì)在現(xiàn)實(shí)世界中是非常受限的。因此許多應(yīng)用程序依賴于弱平穩(wěn)性。

有一些統(tǒng)計(jì)檢驗(yàn)來檢驗(yàn)時(shí)間序列數(shù)據(jù)是否平穩(wěn),我們后面進(jìn)行介紹

2.時(shí)間序列過程

我們將介紹代表性的時(shí)間序列過程,如白噪聲、自回歸(AR)、移動(dòng)平均(MA)、ARMA和ARIMA過程。

白噪聲

當(dāng)我們擁有具有以下屬性的時(shí)間序列數(shù)據(jù)時(shí),該時(shí)間序列數(shù)據(jù)具有白噪聲。

白噪聲的均值為零,其方差在時(shí)間步長上是相同的。它具有零協(xié)方差,這意味著時(shí)間序列與其滯后版本是不相關(guān)的。所以自相關(guān)也是零。一般用于時(shí)間序列回歸分析中殘差項(xiàng)滿足的假設(shè)。白噪聲圖如下圖所示。

我們可以很容易地從標(biāo)準(zhǔn)正態(tài)分布中抽樣產(chǎn)生白噪聲序列。正如你所看到的,除了滯后0之外,似乎沒有任何相關(guān)性,隨著時(shí)間的推移,方差似乎幾乎相同,平均值似乎為零。

自回歸(AR)的過程

一些時(shí)間序列數(shù)據(jù)的值與前面步驟的值相似。在這種情況下,自回歸(AR)過程可以很好地解釋數(shù)據(jù)。AR過程有一個(gè)表示序列中先前值的數(shù)量的順序,該順序用于預(yù)測當(dāng)前值。我們用AR(order)表示。下式表示AR(1)過程。

U?假定為白噪聲,??來說是一個(gè)未知參數(shù)對應(yīng)于一步前一個(gè)值。它也被稱為shock。當(dāng)我們沿著前面的步驟解(1)式時(shí),可以得到下面的公式。

由上式可知,????僅影響Y系列。由此,可以認(rèn)識到以下幾點(diǎn):

如果| ??? | < 1,則過去值的影響隨著步驟的增加而變小。

如果| ???| = 1,無論滯后與否,過去值的影響是恒定的。

如果| ???| > 1,則隨著步驟的推移,過去值的影響會(huì)影響當(dāng)前值。

讓我們看看每種情況的可視化。

隨著???值變大,當(dāng)前一級跟隨前一級的值隨著值的增加,它看起來更平滑,直到??? = 1。當(dāng)???值大于1時(shí),這些值會(huì)像無窮大一樣增加,所以序列看起來像最終的結(jié)果。

注意:| ??? | < 1的情況有弱平穩(wěn)過程。當(dāng)AR(1)過程滿足弱平穩(wěn)性時(shí),均值和協(xié)方差為:

對于平均值,我們使用隨時(shí)間變化的平均值作為常數(shù)。利用白噪聲的平均值為零的事實(shí),可以推導(dǎo)出如下公式:

對于協(xié)方差,我們需要先改變公式(1)

然后,按這個(gè)順序推導(dǎo)方差和協(xié)方差。對于方差,可以通過對上述推導(dǎo)公式取平方來推導(dǎo)。

對于協(xié)方差,可以通過將前一步值減去平均值來推導(dǎo)。

圖片

可以類似地考慮AR(p)過程。

一般情況下,當(dāng)滿足(5)(6)條件時(shí),AR(p)過程是弱平穩(wěn)的。

公式(5)和(6)意味著所有的根公式(5)必須在單位圓之外。盡管我們可以擴(kuò)展p值,但在現(xiàn)實(shí)世界中先考慮幾個(gè)步驟就足夠了。

3.移動(dòng)平均線(MA)過程

移動(dòng)平均線(MA)過程由當(dāng)前和以前的shock的總和組成。MA過程有一個(gè)表示先前殘差或shock(U?)的數(shù)量的順序。我們用MA(階)來表示。為簡單起見,我們介紹MA(1)流程。下式表示MA(1)過程。

假設(shè)U?為白噪聲,θ?為未知參數(shù),對應(yīng)前一步shock。MA(1)過程由白噪聲組成,其均值始終為μ。另一方面,方差和協(xié)方差可以推導(dǎo)為:

可以推導(dǎo)出方差如下:

同樣可以推導(dǎo)出協(xié)方差如下:

白噪聲假設(shè)每個(gè)變量是相互獨(dú)立的,所以可以消去它們。因此對于任意參數(shù)θ?,MA(1)過程都是弱平穩(wěn)過程?,F(xiàn)在用可視化的方法來驗(yàn)證一下。

與AR(1)過程相比,均值和方差似乎保持不變。隨著參數(shù)值的增大,序列變得相對平滑。注意MA(1)過程和白噪聲方差不同。

一般來說,MA(q)過程也是弱平穩(wěn)的。

均值和協(xié)方差可以表示為:

盡管我們可以擴(kuò)展q值,但考慮現(xiàn)實(shí)世界中的前幾個(gè)步驟就足夠了。

4.自回歸移動(dòng)平均(ARMA)過程和ARIMA過程

顧名思義,自回歸移動(dòng)平均(ARMA)過程結(jié)合了AR和MA過程。直觀上,ARMA過程可以相互彌補(bǔ)缺點(diǎn),在表示數(shù)據(jù)時(shí)獲得更大的靈活性。數(shù)學(xué)表示如下:

我們將ARMA過程記為ARMA(p, q),參數(shù)p和q對應(yīng)于AR和MA過程的參數(shù)。由于MA過程總是具有弱平穩(wěn)性,因此ARMA過程的弱平穩(wěn)性取決于AR部分。所以式(14)的AR部分滿足式(5)(6),其平穩(wěn)性較弱。

通過可視化來檢查它是如何看起來像ARMA過程的。AR(p=1,q=1)過程如下:

AR(p=3, q=2)過程如下圖所示。

可以看到它可以比單獨(dú)的AR和MA過程更好地掌握更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。參數(shù)值越大,圖形越平滑。

最后自回歸積分移動(dòng)平均(ARIMA)過程與ARMA過程有一些共同之處。不同之處在于ARIMA有一個(gè)積分部分(I),積分部分是指為了獲得平穩(wěn)性需要對數(shù)據(jù)進(jìn)行差分的次數(shù)。

首先,我們定義差分算子?:

當(dāng)想要更多的差分時(shí),可以通過迭代將其擴(kuò)展到冪:

使用差分參數(shù),可以將ARIMA(p, d, q)過程定義為:

p為AR過程的階數(shù),d為待微分的次數(shù),q為MA過程的階數(shù)。在對數(shù)據(jù)進(jìn)行區(qū)分之后,ARIMA過程就變成了ARMA過程。當(dāng)時(shí)間序列的平均值不同時(shí),ARIMA過程是有用的,這意味著時(shí)間序列不是平穩(wěn)的。我們這里使用的是AirPassengers數(shù)據(jù)集。因?yàn)椴皇撬行蛄械木刀枷嗤?,?dāng)我們對這個(gè)系列應(yīng)用nabla時(shí),圖形看起來如下所示:

與左圖的原始數(shù)據(jù)相比,右圖的平均值在時(shí)間序列中似乎是穩(wěn)定的。

還有最后一個(gè)問題,我們想要在微分后擬合ARMA過程,如何定義參數(shù)?

有一些方法來確定它們?nèi)缦隆?/span>

用自相關(guān)函數(shù)(ACF)圖確定MA過程的階數(shù)(q),用部分自相關(guān)函數(shù)(PACF)圖確定AR過程的階數(shù)(p),或使用AIC或BIC來確定最佳擬合參數(shù)。

第一種方法,我們使用ACF和PACF圖來確定MA和AR過程的順序。PACF也是自相關(guān)的,但是在0 < n < k的范圍內(nèi),消除了滯后n的Y′′和Y′′+?之間的間接相關(guān)關(guān)系。我們有時(shí)不能僅用圖來確定參數(shù),所以使用第二種方法。AIC和BIC是用來估計(jì)相對于其他模型的模型質(zhì)量的信息標(biāo)準(zhǔn)。借助庫pmdarima[7],可以很容易地根據(jù)上述信息標(biāo)準(zhǔn)找到最佳參數(shù)。例如,當(dāng)使用pmdarima來估計(jì)AirPassengers數(shù)據(jù)時(shí),結(jié)果將如下所示。

# fit stepwise auto-ARIMA
 arima = pm.auto_arima(y_train, start_p=1, start_q=1,
                              max_p=3, max_q=3, # m=12,
                              seasnotallow=False,
                              d=d, trace=True,
                              error_actinotallow='ignore', # don't want to know if an order does not work
                              suppress_warnings=True, # don't want convergence warnings
                              stepwise=True) # set to stepwise
 arima.summary()

只需寫幾行代碼,就可以很好地?cái)M合和預(yù)測數(shù)據(jù)。此外pmdarima可以使用更高級的模型(如SARIMA)來估計(jì)時(shí)間序列。所以pmdarima在實(shí)際用例中非常有用。

5.時(shí)間序列的統(tǒng)計(jì)檢驗(yàn)

最后我門將介紹兩個(gè)著名的時(shí)間序列統(tǒng)計(jì)檢驗(yàn)。這些檢驗(yàn)通常用于檢查數(shù)據(jù)是否平穩(wěn)或殘差項(xiàng)是否具有自相關(guān)。在深入每個(gè)測試之前,有一個(gè)重要的概念叫做單位根。如果時(shí)間序列有單位根,它就不是平穩(wěn)的。如果AR(p)過程滿足式(5)= 1的至少一個(gè)根,這意味著AR(p)過程不是平穩(wěn)的,所以可以說AR(p)過程具有單位根的。有幾個(gè)統(tǒng)計(jì)測試使用了這個(gè)概念。

增強(qiáng)Dickey-Fuller(ADF)檢驗(yàn)

增強(qiáng)的Dickey-Fuller (ADF)檢驗(yàn)評估在給定的單變量時(shí)間序列中是否存在單位根。

ADF檢驗(yàn)采用由式(10)導(dǎo)出的下式。

然后,它設(shè)置以下零假設(shè)和備擇假設(shè)。

統(tǒng)計(jì)數(shù)據(jù)如下公式所示。

當(dāng)時(shí)間序列平穩(wěn)時(shí),分子必須為負(fù)。有幾個(gè)庫允許我們計(jì)算ADF測試,因此不需要自己實(shí)現(xiàn)它們。下面的示例顯示了三個(gè)時(shí)間序列數(shù)據(jù)示例。左邊的是AR(1)過程,中間的是MA(1)過程,最后一個(gè)是AirPassenger數(shù)據(jù)集。圖標(biāo)題顯示ADF檢驗(yàn)的進(jìn)程名和p值。

平穩(wěn)數(shù)據(jù)(左和中)小于閾值的顯著性,因此我們可以拒絕零假設(shè),這意味著數(shù)據(jù)是平穩(wěn)的。非平穩(wěn)數(shù)據(jù)(右)比閾值更大,所以我們不能拒絕零假設(shè),這意味著數(shù)據(jù)不是平穩(wěn)的。

Durbin-Watson檢驗(yàn)

Durbin-Watson檢驗(yàn)用于評價(jià)時(shí)間序列回歸模型中殘差項(xiàng)是否具有自相關(guān)性。當(dāng)我們使用時(shí)間序列假設(shè)以下回歸模型時(shí),我們可以使用最小二乘法估計(jì)參數(shù)。

如果U?不遵循白噪聲,模型質(zhì)量就不好??梢钥紤]U?具有某種自相關(guān)或序列相關(guān),我們應(yīng)該將它們包含在我們的模型中。為了驗(yàn)證這一點(diǎn),我們可以使用Durbin-Watson測試。Durbin-Watson檢驗(yàn)假設(shè)殘差項(xiàng)具有AR(1)模型。

然后設(shè)置以下零假設(shè)和備擇假設(shè)。

我們使用下面的統(tǒng)計(jì)。

這個(gè)公式可能不太直觀,所以我們把它改一下。我們假設(shè)T對于下面的關(guān)系足夠大。

我們將Durbin-Watson統(tǒng)計(jì)量變換為:

??表示一階自相關(guān)。當(dāng)自相關(guān)趨近于0時(shí),DW統(tǒng)計(jì)量趨近于2,這意味著時(shí)間序列中幾乎沒有自相關(guān)。如果時(shí)間序列中存在自相關(guān),則DW統(tǒng)計(jì)量小于2。

讓我們使用在2.4節(jié)中創(chuàng)建的ARIMA模型檢查DW統(tǒng)計(jì)量。

from statsmodels.stats.stattools import durbin_watson
 
 arima = pm.arima.ARIMA(order=(2,1,2))
 arima.fit(y_train)
 
 dw = durbin_watson(arima.resid())
 print('DW statistic: ', dw)
 # DW statistic: 1.6882339836228373

DW統(tǒng)計(jì)量小于2,因此仍然存在自相關(guān)或序列相關(guān)。下面的殘差圖顯示殘差仍然有一定的相關(guān)性。

在這種情況下,我們需要使用更高級的模型來正確擬合數(shù)據(jù)。例如SARIMA,循環(huán)神經(jīng)網(wǎng)絡(luò),prophets等。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2020-08-13 18:19:24

OpenSSL密碼學(xué)Linux

2015-06-01 13:35:43

數(shù)據(jù)中心DCIM

2009-04-17 14:22:40

XPathXML基礎(chǔ)

2009-09-14 14:49:12

LINQ查詢基礎(chǔ)知識

2025-06-16 15:27:51

統(tǒng)計(jì)學(xué)空難事件計(jì)算

2015-10-22 10:54:24

小數(shù)據(jù)統(tǒng)計(jì)

2015-10-29 09:56:23

小數(shù)據(jù)大數(shù)據(jù)統(tǒng)計(jì)學(xué)

2010-01-11 09:47:57

程控交換機(jī)

2009-10-20 17:39:57

服務(wù)器基礎(chǔ)知識

2010-08-06 08:49:00

2010-11-15 10:02:31

UPS電源技術(shù)

2010-07-30 16:38:10

路由器網(wǎng)絡(luò)

2009-10-20 09:26:53

綜合布線系統(tǒng)

2017-07-25 16:35:12

LSTM深度學(xué)習(xí)自然語言

2012-05-25 13:12:57

TitaniumMobile WebHTML5

2009-09-09 16:21:13

.NET序列化基礎(chǔ)知識

2019-10-08 16:35:53

Java網(wǎng)絡(luò)爬蟲webmagic

2023-05-12 09:40:53

ContextGolang

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2015-07-29 11:27:28

大數(shù)據(jù)時(shí)代數(shù)據(jù)分析統(tǒng)計(jì)學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號