基于時(shí)空算法研究的商業(yè)決策分析
常言道:”時(shí)空變幻莫測(cè)”。在自然界中,時(shí)空變化瞬息,常常難以捕捉其準(zhǔn)確的規(guī)律。然而,時(shí)間與空間共同記錄了過(guò)去存在的屬性,通過(guò)它們我們可以發(fā)現(xiàn)事物存在的規(guī)律,從而預(yù)測(cè)未來(lái)的趨勢(shì),以提前應(yīng)對(duì)未來(lái)情形或把握未來(lái)時(shí)機(jī)。
隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,定位技術(shù)變得愈加普及。例如, GPRS 、位置傳感器等技術(shù)的普遍應(yīng)用,使得采集與空間相關(guān)的數(shù)據(jù)變得非常容易。而采集到時(shí)空數(shù)據(jù)后,人們理所當(dāng)然希望利用這些信息的價(jià)值,洞察其中的關(guān)鍵因素以獲取決策支持。那么,合適的數(shù)據(jù)分析方法就是提取有用價(jià)值的關(guān)鍵所在。
在現(xiàn)有的數(shù)據(jù)分析工具中,大多數(shù)模型僅考慮空間維度的作用,常用的時(shí)序模型也往往難以將同時(shí)發(fā)生在不同地點(diǎn)的信息關(guān)聯(lián)起來(lái)。如果勉強(qiáng)使用這些模型,得出的模型結(jié)論常常不準(zhǔn)確,預(yù)測(cè)的結(jié)果更加無(wú)所適從。
因此,IBM SPSS 提供了結(jié)合時(shí)間與空間的數(shù)據(jù)分析模型( Spatio-Temporal Prediction ,簡(jiǎn)稱(chēng) STP )。研發(fā) STP 模型的初衷即是為了幫助人們解決涉及時(shí)空數(shù)據(jù)的商業(yè)難題。它可以應(yīng)用于天氣與環(huán)境預(yù)測(cè),智能交通解決方案,網(wǎng)絡(luò)應(yīng)用與安全分析,建筑或空間的能量管理等等。通過(guò)使用 STP 進(jìn)行建模和預(yù)測(cè),能夠?yàn)楣芾碚呋蛘咂髽I(yè)提供***的決策支持,以節(jié)省時(shí)間、成本和資源。本文主要闡述了時(shí)空分析算法的特點(diǎn)及其應(yīng)用舉例,來(lái)幫助人們了解其使用方法和實(shí)際的價(jià)值意義。
STP 模型特征
首先,STP 模型同時(shí)支持二維和三維空間場(chǎng)景,如地理信息,三維空間坐標(biāo)等。因此,STP 模型能夠被廣泛使用于各類(lèi)時(shí)空應(yīng)用。
其次,STP 模型僅憑有限的樣本點(diǎn)進(jìn)行建模,就能夠預(yù)測(cè)空間中未來(lái)任意位置的目標(biāo)信息,因此它具備強(qiáng)大的預(yù)測(cè)能力,能夠輻射到空間中任意點(diǎn)的信息。
***,STP 模型支持參數(shù)的假設(shè)分析。從而為用戶(hù)提供未來(lái)的決策支持,使他們能夠通過(guò)調(diào)整參數(shù)來(lái)適應(yīng)預(yù)期目標(biāo),幫助用戶(hù)提前防范或消除未來(lái)的問(wèn)題與負(fù)面影響。
圖 1. 時(shí)空模型應(yīng)用示例
STP 數(shù)據(jù)特點(diǎn)
圖 2. STP 模型數(shù)據(jù)格式
STP 算法實(shí)例
下面通過(guò)兩個(gè)實(shí)例來(lái)講述 STP 算法是如何被應(yīng)用并解決用戶(hù)問(wèn)題的。
- Space dimension: 連續(xù)型變量, 同時(shí)支持二維和三維兩種空間維度;
- Time dimension: 連續(xù)型變量,時(shí)間維度在 STP 使用之前需要轉(zhuǎn)換為整數(shù)索引的形式。一般可使用 STEMDP 工具進(jìn)行轉(zhuǎn)換,也可手動(dòng)轉(zhuǎn)換;
- Predictors: 連續(xù)型或者離散型變量,對(duì) Target 有影響的回歸參數(shù)。沒(méi)有指定參數(shù)時(shí),必須包含常量系數(shù);
- Target:連續(xù)型變量,模型創(chuàng)建與預(yù)測(cè)的目標(biāo)參數(shù)。
圖 3. STP 模型數(shù)據(jù)要求
* STP 要求數(shù)據(jù)必須包含一組在固定的位置信息上采集的相同時(shí)間序列的數(shù)據(jù)。
STP 建模流程
圖 4. STP 簡(jiǎn)要流程圖
Input Spatio-Temporal Data: 輸入原始采集的時(shí)空數(shù)據(jù)。
Spatio-Temporal Data Preprocessing(STEMDP): STEMDP 是 IBM SPSS 研發(fā)的轉(zhuǎn)換空間數(shù)據(jù)的工具。它能夠?qū)?shp 文件轉(zhuǎn)換成空間坐標(biāo)數(shù)據(jù),并將時(shí)間格式轉(zhuǎn)換為時(shí)間索引。如果數(shù)據(jù)本身不需要經(jīng)過(guò) STEMDP 處理,此步驟可省略。
Spatio-Temporal Prediction(STP): STP 使用 STEMDP 轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行建模。建模過(guò)程中會(huì)對(duì)協(xié)方差矩陣的使用方法進(jìn)行篩選。協(xié)方差矩陣可以應(yīng)用參數(shù)化(variogram)或者非參數(shù)化(EOF)兩種方式表示。默認(rèn)為參數(shù)化方式,若參數(shù)化方式不滿(mǎn)足條件,則應(yīng)用非參數(shù)化方式。
Output STPXML & StatXML: STP 的建模結(jié)果被存儲(chǔ)在 STPXML 和 StatXML 兩種文件中。STPXML 中的模型信息被用于預(yù)測(cè)未來(lái)目標(biāo)信息,StatXML 中內(nèi)容被用于進(jìn)行模型可視化的展示。其中,StatXML 還包含位置簇的信息。當(dāng)空間維度是二維模型且非參數(shù)化方式被最終應(yīng)用時(shí),位置簇信息將被輸出。
STP 應(yīng)用案例
數(shù)據(jù)中心溫控解決方案
從 2000 年至今,以互聯(lián)網(wǎng)為主的 IT 技術(shù)迅速發(fā)展,大量的數(shù)據(jù)中心被建設(shè)使用。據(jù) Federal 能源管理體系總結(jié)的《美國(guó)數(shù)據(jù)中心能源消耗報(bào)告》顯示,僅以 2014 年為例,美國(guó)的數(shù)據(jù)中心電能消耗為 70 億千瓦時(shí),大約占美國(guó)總電力消耗的 1.8%。從 2000 年至 2005 年,IT 業(yè)經(jīng)過(guò)初步發(fā)展,數(shù)據(jù)中心電能的消耗超過(guò)了 90%的增長(zhǎng),從 2005 年至 2010 年,IT 業(yè)快速發(fā)展時(shí)期電能消耗驚人增長(zhǎng) 24%,而從 2010 年至 2014 年,IT 業(yè)逐漸進(jìn)入穩(wěn)定時(shí)段,電能消耗增長(zhǎng)為 24%,以后未來(lái)五年每年將以大約 4%的增速平穩(wěn)增長(zhǎng)。中國(guó)同樣經(jīng)歷了 IT 業(yè)發(fā)展的幾個(gè)階段,數(shù)據(jù)中心建設(shè)一直保持著飛速發(fā)展,能源消耗也居高不下。
能源消耗占數(shù)據(jù)中心運(yùn)營(yíng)成本的大約 70%左右。因此在全球范圍內(nèi),關(guān)于如何降低數(shù)據(jù)中心電力消耗,提高能源利用率的問(wèn)題迫在眉睫。
某一數(shù)據(jù)中心打算節(jié)省大量使用的電能成本。除卻硬件與設(shè)備升級(jí)以外,還需要更為精準(zhǔn)的溫控與濕度管理,以高效的利用能源,節(jié)省成本并符合國(guó)家提倡的環(huán)保政策。
數(shù)據(jù)中心通過(guò)部署溫度傳感器和風(fēng)速傳感器來(lái)采集一段時(shí)間空間中樣本位置的溫度和風(fēng)量情況,然后使用 STP 算法進(jìn)行建模預(yù)測(cè)來(lái)幫助提升能源使用效率。
圖 5. 在數(shù)據(jù)中心選取多個(gè)樣本點(diǎn)布置溫度傳感器和風(fēng)速傳感器
1. 數(shù)據(jù)采集
圖 6. 來(lái)自于傳感器等設(shè)備采集的實(shí)時(shí)數(shù)據(jù)
STP 模型數(shù)據(jù)格式必須包含空間維度、時(shí)間維度、目標(biāo)參數(shù)。輸入?yún)?shù)可選。以上表格為從數(shù)據(jù)中心采集到的數(shù)據(jù),它們將被對(duì)應(yīng)到 STP 模型的數(shù)據(jù)輸入中,用于模型創(chuàng)建。
空間維度是位置傳感器的坐標(biāo)位置。其中 u,v,w 分別表示水平位置與高度。
時(shí)間維度表征數(shù)據(jù)采集的時(shí)間。在 STP 使用之前,需要將具體的時(shí)間轉(zhuǎn)換為時(shí)間索引,用戶(hù)可使用 STEMDP 工具進(jìn)行轉(zhuǎn)換,也可手動(dòng)進(jìn)行轉(zhuǎn)換。
輸入?yún)?shù)中 x1、x2、x3 分別代表風(fēng)速 、ACU 的作用以及高度 。 x4 和 x5 為其他可能影響的因素,但 STP 模型最終證明它們的影響非常弱,可忽略不計(jì)。
目標(biāo)參數(shù)為樣本位置的實(shí)際監(jiān)測(cè)溫度。
2. 數(shù)據(jù)建模
將以上數(shù)據(jù)作為輸入在 STP 中創(chuàng)建模型,如下圖所示。
圖 7. STP 數(shù)據(jù)輸入
圖 8. STP 模型結(jié)果
從以上結(jié)果可知,參數(shù) x4 和 x5 的 significance 值均大于 0.05,說(shuō)明它們對(duì)模型的貢獻(xiàn)較小,顯著性較差,因此在監(jiān)測(cè)結(jié)果時(shí)可省略對(duì)這兩個(gè)數(shù)據(jù)的采集。
x1、x2、x3 均對(duì)模型貢獻(xiàn)顯著,因此主要對(duì)這三個(gè)參數(shù)進(jìn)行搜集分析即可。
同時(shí),MSE、R Square 等值表征該 STP 模型效果很好,誤差很小。
3. 模型預(yù)測(cè)
根據(jù)給定輸入?yún)?shù),即風(fēng)速、ACU 等值,對(duì)數(shù)據(jù)中心未來(lái)空間內(nèi)溫度進(jìn)行預(yù)測(cè)。橙色部分標(biāo)注 STP 預(yù)測(cè)的未來(lái)時(shí)間的溫度相關(guān)信息。
$STP-y、$STPVAR-y、STPUCI-y 和$STPLCI-y 分別代表代表預(yù)測(cè)溫度、方差、預(yù)測(cè)上下區(qū)間。實(shí)際 STP 可以預(yù)測(cè)未來(lái)連續(xù)時(shí)刻的任意空間位置溫度。下面用散點(diǎn)熱圖表示該例中溫度的分布情況。
圖 9. 采集樣本位置的***時(shí)間點(diǎn)的溫度分布
圖 10. 預(yù)測(cè)下一時(shí)間點(diǎn)在不同高度層上的立體溫度分布效果圖
圖 11. 預(yù)測(cè)下一時(shí)間點(diǎn)在不同高度層上的平面溫度分布效果圖
圖 12. 預(yù)測(cè)下一時(shí)間點(diǎn)在整個(gè)空間內(nèi)立體溫度分布效果圖
STP 具備 score anywhere 的特性。即通過(guò)有限位置的樣本點(diǎn),便可以預(yù)測(cè)整個(gè)空間的溫度分布。從以上溫度效果圖可知,隨著高度增加,熱氣流往上上升,因此在高度 5.5 米時(shí),造成熱量大量聚集,溫度過(guò)高,可以在該高度及以上范圍進(jìn)行足夠的通風(fēng)散熱與降溫。除此之外,在高度 4.5 米位置對(duì)應(yīng)圖形的右上方局部溫度過(guò)高,因此考慮在此范圍內(nèi)加強(qiáng)設(shè)備運(yùn)行以使溫度下降。通過(guò) STP 對(duì)整個(gè)空間溫度的預(yù)測(cè),用戶(hù)可今早獲悉數(shù)據(jù)中心的整體溫度分布情況,從而避免局部溫度過(guò)高而造成設(shè)備的損壞與不可逆損失。
STP 還具備 what-if-analysis 的特性。用戶(hù)可以調(diào)整影響模型的可控參數(shù)來(lái)達(dá)到預(yù)期目標(biāo)。調(diào)整風(fēng)量與 ACU 后,STP 可以預(yù)計(jì)多久即可將溫度下降到合理范圍內(nèi)。如下面一組圖所示同一高度層上調(diào)整參數(shù)后溫度的變化情況。
圖 13. 預(yù)測(cè)同一高度層上未來(lái)時(shí)間段溫度變化效果圖
STP 解決方案在數(shù)據(jù)機(jī)房中的應(yīng)用不僅限于溫度預(yù)測(cè),同時(shí)也可對(duì)濕度變化及與空間相關(guān)的任一因素進(jìn)行分析預(yù)測(cè)。從而,數(shù)據(jù)中心的自動(dòng)化管理將更為先進(jìn)與優(yōu)越,且更加有效、可靠的節(jié)省電能并減少人為干預(yù)。即使當(dāng)前機(jī)房老舊、設(shè)備硬件來(lái)不及提升的情形下,也可為數(shù)據(jù)中心打造環(huán)保、智能的管理系統(tǒng)。
銀行選址決策支持方案
某銀行高管欲在某市建設(shè)新的銀行分支機(jī)構(gòu),通過(guò)一些普查與調(diào)研數(shù)據(jù)他能夠獲取到每個(gè)區(qū)域的家庭收入、以及區(qū)域內(nèi)所有銀行現(xiàn)有的分支機(jī)構(gòu)信息。通過(guò)這些信息,他考慮使用 SPSS 的 STP 模型來(lái)幫助其預(yù)測(cè)擁有潛在市場(chǎng)價(jià)值的地點(diǎn)。
他通過(guò) STP 模型創(chuàng)建了兩個(gè)模型,一個(gè)模型用于預(yù)測(cè)每個(gè)區(qū)域的收入信息、另一個(gè)模型用于預(yù)測(cè)這些區(qū)域未來(lái)的銀行分支機(jī)構(gòu)的數(shù)量。然后通過(guò)這兩種預(yù)測(cè)結(jié)果,得出該市所有區(qū)域的潛在市場(chǎng)的分布情況,從而迅速高效地幫助其完成市場(chǎng)分析,以支持決策方案的可行性。
圖 14. 預(yù)測(cè)未來(lái)銀行數(shù)量供給情況
圖 15. 預(yù)測(cè)未來(lái)居民收入情況
圖 16. 預(yù)測(cè)未來(lái)潛在市場(chǎng)分布情況
結(jié)束語(yǔ) (the end)
如果你是一個(gè)上班族,你是否時(shí)常想如何減少交通擁堵?如何高效地利用公共自行車(chē)資源?如何快速地在高峰期打到合適價(jià)格的車(chē)?
如果你是一個(gè)經(jīng)營(yíng)者,你是否經(jīng)常為市場(chǎng)選擇而躊躇不決?怎樣才能選擇一個(gè)商機(jī)***的地點(diǎn)而不至于錯(cuò)誤的擴(kuò)張帶來(lái)不可估量的損失?怎樣才能應(yīng)用大數(shù)據(jù)分析幫助企業(yè)提升智能信息化的競(jìng)爭(zhēng)力并降低成本?
STP 算法的應(yīng)用將為你提供時(shí)空問(wèn)題的***解決方案和預(yù)測(cè)支持。SPSS 同時(shí)提供各類(lèi)廣泛應(yīng)用于商業(yè)數(shù)據(jù)中的算法,最全面的幫助人們做好大數(shù)據(jù)的分析與商業(yè)決策。