時(shí)空AI技術(shù):深度強(qiáng)化學(xué)習(xí)在智能城市領(lǐng)域應(yīng)用介紹
深度強(qiáng)化學(xué)習(xí)是近年來(lái)熱起來(lái)的一項(xiàng)技術(shù)。深度強(qiáng)化學(xué)習(xí)的控制與決策流程必須包含狀態(tài),動(dòng)作,獎(jiǎng)勵(lì)是三要素。在建模過(guò)程中,智能體根據(jù)環(huán)境的當(dāng)前狀態(tài)信息輸出動(dòng)作作用于環(huán)境,然后接收到下一時(shí)刻狀態(tài)信息和獎(jiǎng)勵(lì)。以眾所周知的AlphaGo為例,盤面就是當(dāng)前的狀態(tài),動(dòng)作就是下一步往哪里落子,獎(jiǎng)勵(lì)就是最終的輸贏。整個(gè)強(qiáng)化學(xué)習(xí)過(guò)程就是不斷與環(huán)境交互,在交互的過(guò)程中產(chǎn)生數(shù)據(jù),并利用這些交互產(chǎn)生的數(shù)據(jù)來(lái)學(xué)習(xí)的過(guò)程。正是在深度強(qiáng)化學(xué)習(xí)的幫助下,AlphaGo得以橫掃世界級(jí)頂尖棋手。所以相比于有監(jiān)督學(xué)習(xí)方法,深度強(qiáng)化學(xué)習(xí)在特定場(chǎng)景下可以達(dá)到超越人類的水準(zhǔn)。
在圍棋領(lǐng)域大放異彩之后,深度強(qiáng)化學(xué)習(xí)也在不斷地拓展著自己的疆域,游戲、金融等越來(lái)越多的領(lǐng)域也出現(xiàn)了深度強(qiáng)化學(xué)習(xí)的身影?,F(xiàn)代城市作為人類生產(chǎn)、生活的核心區(qū)域,是一個(gè)匯聚了交通、物流、能源等多個(gè)產(chǎn)業(yè)的復(fù)雜綜合體。如果能夠優(yōu)化這種復(fù)雜結(jié)構(gòu),那么將會(huì)帶來(lái)巨大的社會(huì)價(jià)值。而強(qiáng)化學(xué)習(xí)恰好可以做到這件事情。本文將為大家介紹幾個(gè)強(qiáng)化學(xué)習(xí)在智能城市領(lǐng)域的應(yīng)用案例。
一、智能交通
在城市各種各樣的交通場(chǎng)景中,會(huì)遇到各種各樣的資源配置和交通調(diào)度難題。如圖3(a)所示,在一個(gè)典型的救護(hù)車輛調(diào)度場(chǎng)景中,救護(hù)車需要不斷地往返于患者和救護(hù)車站點(diǎn)。救護(hù)車的接車時(shí)間在很大程度上取決于移動(dòng)救護(hù)車的動(dòng)態(tài)重新部署策略。也就是說(shuō),在救護(hù)車可用之后,應(yīng)該把它調(diào)到哪個(gè)車站。重新調(diào)配現(xiàn)有救護(hù)車會(huì)影響未來(lái)接載病人的時(shí)間。例如在圖3(b)中,未來(lái)將有3名患者來(lái)到1號(hào)站附近,因此將現(xiàn)有的救護(hù)車1號(hào)重新部署到1號(hào)站,通過(guò)從1號(hào)站派遣救護(hù)車,可以使這些患者迅速被接走。
圖1 救護(hù)車調(diào)度場(chǎng)景
這一問(wèn)題依然可以利用強(qiáng)化學(xué)習(xí)的方法來(lái)求解。文章[1]將需要調(diào)度的救護(hù)車都被作為智能體,建模的核心就是確定相應(yīng)的狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。在這一場(chǎng)景中,影響救護(hù)車效率的因素主要包括未來(lái)車站附近的病人數(shù)量、車站救護(hù)車的數(shù)量以及救護(hù)車與車站的距離等。將這些指標(biāo)進(jìn)行一定的轉(zhuǎn)化,就可以提煉出病患密度、旅程時(shí)間等多個(gè)相關(guān)因子。這些相關(guān)因子就可以被作為輸入狀態(tài)。在這一場(chǎng)景中,決策變量,也就是救護(hù)車在完成接送任務(wù)后,被部署到不同的站點(diǎn),就是智能體的動(dòng)作。而優(yōu)化目標(biāo),也就是將接載病人的時(shí)間,就是智能體的獎(jiǎng)勵(lì),時(shí)間越短,獎(jiǎng)勵(lì)越大。理想情況下,每一輛救護(hù)車智能體都能夠找到一種優(yōu)勢(shì)策略,讓平均接送時(shí)間最短。接下來(lái),文章引入深度強(qiáng)化學(xué)習(xí)算法,對(duì)這一場(chǎng)景進(jìn)行很好地求解。
文章使用在真實(shí)世界中收集的數(shù)據(jù)集來(lái)評(píng)估動(dòng)態(tài)救護(hù)車重新部署方法。實(shí)驗(yàn)結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)的救護(hù)車的重新部署方法明顯優(yōu)于最先進(jìn)的基準(zhǔn)方法。具體來(lái)說(shuō),與基準(zhǔn)方法相比,基于深度強(qiáng)化學(xué)習(xí)的方法可以將10分鐘內(nèi)接診的患者比例從0.786提高到0.838,節(jié)省平均接診時(shí)間約20%(約100秒)。為了能夠增加及時(shí)拯救病人的可能性,每一秒都是至關(guān)重要的。
在交通場(chǎng)景中,還有很多與之相似地調(diào)度問(wèn)題,例如共享單車調(diào)度、公交車輛路線規(guī)劃、出租車/網(wǎng)約車調(diào)度等。在這些場(chǎng)景中,都可以使用與之相類似的方法。此外,隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,未來(lái)各行各業(yè)的管理將進(jìn)一步扁平化。一大批新的場(chǎng)景也會(huì)涌現(xiàn)出來(lái)。例如,交通信號(hào)燈的控制優(yōu)化、自動(dòng)駕駛的控制于決策,無(wú)人車輛的調(diào)度都屬于深度強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景。所以,強(qiáng)化學(xué)習(xí)技術(shù)在未來(lái)將會(huì)在未來(lái)的智能交通中起到重要作用。
二、智能物流
物流的發(fā)展極大地方便了人們,促進(jìn)了電子商務(wù)的發(fā)展。但龐大的運(yùn)單量卻帶來(lái)了很多管理問(wèn)題,行業(yè)派單效率和配送效率普遍低下,導(dǎo)致了大量勞動(dòng)力浪費(fèi)。在快遞領(lǐng)域,配送員的任務(wù)量不均衡現(xiàn)象是普遍存在的。這導(dǎo)致部分快遞員任務(wù)量過(guò)飽和或不足。如果能夠根據(jù)任務(wù)的不同,動(dòng)態(tài)規(guī)劃出每一個(gè)快遞員的任務(wù)進(jìn)行規(guī)劃,那么就可以減弱這種資源不均衡現(xiàn)象,來(lái)提高資源利用率和任務(wù)完成率。但在現(xiàn)實(shí)中,快遞員需要同時(shí)肩負(fù)配送和取件兩項(xiàng)職能,還要兼顧整體地配送效率更高,這無(wú)疑會(huì)增加問(wèn)題的復(fù)雜度。文章[2]利用深度強(qiáng)化學(xué)習(xí)來(lái)解決這一問(wèn)題。在文章中,作者將整個(gè)空間粗略地劃分成若干小區(qū)域,由圖4中的小方格來(lái)表示。其中A、B、C分別表示三個(gè)快遞員c1、c2、c3在每一個(gè)小區(qū)域的剩余配送量,其中陰影的小區(qū)域表示快遞員當(dāng)前的位置。D和G表示每一個(gè)小區(qū)域待取件的數(shù)量。F和H分別表示以快遞員c1、c2為視角,其他快遞員的位置。E表示快遞員c1由位置g3到達(dá)位置g2。在真實(shí)場(chǎng)景中,影響快遞員路線規(guī)劃的因素,包括剩余的配送位置、待取件的位置、隊(duì)友的位置、隊(duì)友的行進(jìn)路線等,基本都可以被這一圖結(jié)構(gòu)表達(dá)出來(lái)。所以這一圖結(jié)構(gòu)就作為智能體的狀態(tài)。而智能體的動(dòng)作則是快遞員的前進(jìn)方向,如向左還是向右,獎(jiǎng)勵(lì)就是為快遞員完成的任務(wù)量。完成的任務(wù)越多,獎(jiǎng)勵(lì)越大。同樣,在確定了這三維核心指標(biāo)后,就可以引入深度強(qiáng)化學(xué)習(xí)算法來(lái)求解。
我們可以推斷出,除了快遞員的路徑選擇,車輛的運(yùn)輸、調(diào)度,也屬于相似的場(chǎng)景,也可以使用相似的方法來(lái)解決。甚至大型物流倉(cāng)儲(chǔ)管理,也可以利用強(qiáng)化學(xué)習(xí)來(lái)建模。
三、智能能源
鍋爐燃燒優(yōu)化是一個(gè)典型的智能控制場(chǎng)景。電站鍋爐系統(tǒng)高度復(fù)雜,包含磨煤、燃燒、水汽循環(huán)等多個(gè)環(huán)節(jié),一個(gè)普通600MW中型火電機(jī)組就擁有上萬(wàn)個(gè)傳感器測(cè)點(diǎn),內(nèi)部涉及燃燒、風(fēng)煙、水熱循環(huán)等眾多物理化學(xué)過(guò)程非常復(fù)雜。純粹使用機(jī)理建模的方法很難對(duì)如此復(fù)雜的系統(tǒng)做精準(zhǔn)化建模,導(dǎo)致系統(tǒng)描述失準(zhǔn),影響優(yōu)化效果。
從控制優(yōu)化角度來(lái)講,火電燃燒優(yōu)化涉及上百個(gè)主要控制量(例如機(jī)組內(nèi)部各種鍋爐給煤量、各種風(fēng)門、閥門開(kāi)度等),而且這些變量均為連續(xù)變量(例如某個(gè)閥門開(kāi)度20%和開(kāi)度25%可能對(duì)機(jī)組運(yùn)行帶來(lái)非常不同的影響)。與此同時(shí),當(dāng)前動(dòng)作所造成的影響往往不能夠?qū)崟r(shí)反饋,所以還需要考慮到長(zhǎng)期的影響。對(duì)于如此復(fù)雜的場(chǎng)景,即便是有多年豐富經(jīng)驗(yàn)的運(yùn)行人員,也很少能夠總結(jié)出一套高效的調(diào)節(jié)策略。所以此類復(fù)雜系統(tǒng)高維連續(xù)變量控制優(yōu)化問(wèn)題是世界性的難題。
圖3 火電鍋爐運(yùn)行流程
而深度強(qiáng)化學(xué)習(xí)恰恰適合來(lái)做這件事情。圖2展示了我們基于強(qiáng)化學(xué)習(xí)的建模流程。對(duì)于一個(gè)典型的鍋爐環(huán)境,我們可以得到很多的傳感器提供系統(tǒng)的狀態(tài)描述,例如鍋爐中各種溫度、風(fēng)量、水量、壓力等監(jiān)測(cè)值。我們可以把這些實(shí)時(shí)反饋的監(jiān)測(cè)值作為狀態(tài),也就是智能體能夠“看到”的東西。然后我們將給煤量、各種風(fēng)門、閥門開(kāi)度等控制變量作為動(dòng)作。在確定了狀態(tài)和動(dòng)作,我們利用一個(gè)業(yè)務(wù)指標(biāo)(燃燒效率)作為獎(jiǎng)勵(lì)。智能體依據(jù)當(dāng)前的狀態(tài)輸出動(dòng)作,對(duì)鍋爐控制參數(shù)進(jìn)行調(diào)節(jié),鍋爐環(huán)境就會(huì)產(chǎn)生一個(gè)變化,到達(dá)一個(gè)新的狀態(tài),如果燃燒效率朝著好的方向變化,我們就給一個(gè)正向的獎(jiǎng)勵(lì),如果是不好的變化,我們可以給一個(gè)負(fù)向的獎(jiǎng)勵(lì)。在完成了建模工作后,我們接下來(lái)通過(guò)合理的學(xué)習(xí)算法,就可以學(xué)習(xí)出更好的策略。學(xué)習(xí)算法通過(guò)觀察很多的從狀態(tài)和動(dòng)作到下一個(gè)狀態(tài)的變化過(guò)程,從中抽象狀態(tài)——動(dòng)作——獎(jiǎng)勵(lì)的對(duì)應(yīng)模式,最終找到一個(gè)最佳的控制策略,可以從當(dāng)前的狀態(tài)映射到最佳的控制(動(dòng)作)變量,實(shí)現(xiàn)長(zhǎng)期平均獎(jiǎng)勵(lì)的最大化。
在上機(jī)實(shí)測(cè)過(guò)程中,基于強(qiáng)化學(xué)習(xí)的控制策略相比于人類操作達(dá)到了0.5%的效率提升,對(duì)于一臺(tái)600MW機(jī)組,相當(dāng)于年經(jīng)濟(jì)效益240萬(wàn)元。與此同時(shí),我們已經(jīng)實(shí)現(xiàn)了對(duì)于AI模型的產(chǎn)品化,具備了批量復(fù)制的能力,并在多個(gè)電廠落地并完成了驗(yàn)收。
圖4 基于強(qiáng)化學(xué)習(xí)的燃燒優(yōu)化智能體
除了燃燒優(yōu)化場(chǎng)景之外,在火電中,我們也已經(jīng)將強(qiáng)化學(xué)習(xí)方法用在了磨煤機(jī)控制優(yōu)化、冷端優(yōu)化等場(chǎng)景中,并取得了很好的效果。上文所述的控制場(chǎng)景,強(qiáng)化學(xué)習(xí)也可以在溫度控制、電網(wǎng)調(diào)度、能源管理等領(lǐng)域得到應(yīng)用。另外,火電鍋爐的控制屬于典型的過(guò)程控制。在工業(yè)生產(chǎn)中,水泥生產(chǎn)過(guò)程中的磨機(jī)控制,機(jī)場(chǎng)ACDM系統(tǒng)中的車輛與人員調(diào)度、停機(jī)位優(yōu)化,以及鋼鐵制造、化工等工業(yè)場(chǎng)景也均屬于相似的場(chǎng)景。在這些場(chǎng)景中,可以提煉出來(lái)大量的控制與優(yōu)化問(wèn)題,深度強(qiáng)化學(xué)習(xí)技術(shù)也具有著廣闊的空間。
通過(guò)案例我們可以看到,對(duì)于一個(gè)現(xiàn)實(shí)中的場(chǎng)景,如果能夠確定影響的相關(guān)因素、優(yōu)化動(dòng)作以及優(yōu)化目標(biāo),深度強(qiáng)化學(xué)習(xí)技術(shù)將可以隆重登場(chǎng)了。而這些場(chǎng)景在我們的生產(chǎn)生活中是大量存在的。所以在未來(lái)的智能城市與產(chǎn)業(yè)中,深度強(qiáng)化學(xué)習(xí)技術(shù)會(huì)起到重要的作用。但是就目前來(lái)說(shuō),深度強(qiáng)化學(xué)習(xí)的落地仍存在一些局限。這其中一部分原因是算法的學(xué)習(xí)效率仍不夠高效,適應(yīng)場(chǎng)景也較為狹窄,另外一部分原因是目前很多行業(yè)的數(shù)字化程度還比較低。但隨著物聯(lián)網(wǎng)時(shí)代的到來(lái),這一問(wèn)題將會(huì)被逐步解決。與此同時(shí),隨著大批研究人員的前仆后繼,深度強(qiáng)化學(xué)習(xí)本身的技術(shù)也在不斷地迭代發(fā)展,算法適用的范圍也越來(lái)越廣泛。未來(lái)的發(fā)展一定越來(lái)越好。
參考文獻(xiàn)
[1] Shenggong Ji,et.al A Deep ReinforcementLearning-Enabled Dynamic Redeployment System for Mobile Ambulances. UbiComp2019
[2] Li Y, Zheng Y, Yang Q. Efficient and Effective Expressvia Contextual Cooperative Reinforcement Learning[C]//Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery & Data Mining.2019: 510-519.


































