強化學習在應(yīng)用中尋找策略“最優(yōu)解”
目前,工業(yè)中通常使用AI系統(tǒng)執(zhí)行各類模式識別與預測分析任務(wù)。例如,AI系統(tǒng)可以識別圖像中的模式以檢測人臉(人臉識別),或者發(fā)現(xiàn)銷售數(shù)據(jù)中的模式以預測需求變化等等。而在另一方面,強化學習方法能夠在具備反饋循環(huán)的應(yīng)用中做出最佳決策或采取最佳行動。通過兩個直觀用例,相信大家已經(jīng)對AI與強化學習之間的區(qū)別與聯(lián)系建立起初步了解。
假定我們使用AI技術(shù)運營一家制造工廠。AI提供的模式識別功能可用于質(zhì)量保證,包括通過掃描圖像及最終產(chǎn)品以檢測設(shè)計乃至制造層面的缺陷。另一方面,強化學習系統(tǒng)則可以對制造流程所遵循的策略(例如確定需要運行的生產(chǎn)線、控制機器/機器人、確定要制造的產(chǎn)品類型等)進行計算與執(zhí)行,不斷結(jié)合反饋信息發(fā)現(xiàn)現(xiàn)有策略中的改進空間,在保證一定產(chǎn)品質(zhì)量水平的同時最大程度提升特定指標(例如產(chǎn)量)。以往,這類問題由于涉及大量影響因素而難以被常規(guī)AI系統(tǒng)所解決,但強化學習的出現(xiàn)無疑帶來了希望的曙光。
在使用強化學習計算最佳策略或政策時,相關(guān)算法面臨的主要挑戰(zhàn)在于“時間信用分配”問題。具體來講,在特定系統(tǒng)狀態(tài)之下(例如「機器的當前輸出水平,每條流水線的繁忙程度」等),行為(例如「星期三運行1號生產(chǎn)線」)對整體效能(例如「總產(chǎn)量」)產(chǎn)生的影響往往需要一段時間后才能確定。更讓人頭痛的是,總體效能還會受到具體操作方式的左右。總而言之,我們在預先制定策略與評估效果時,往往很難判斷哪些是好選擇、哪些是壞想法。在這類復雜問題中,大量潛在的系統(tǒng)狀態(tài)還會引發(fā)恐怖的“維度詛咒”,進一步加劇結(jié)果的不確定性。但好消息是,強化學習近年來在實驗室中的出色表現(xiàn)為解決這類難題帶來了值得期待的希望。
之前,強化學習的卓越性能主要表現(xiàn)在棋類游戲與電子游戲領(lǐng)域。單憑對屏幕上圖像及游戲得分這兩項輸入信息,強化學習系統(tǒng)就很快在各類雅達利游戲中橫掃人類玩家,給整個AI社區(qū)留下了深刻印象。而這套出色的系統(tǒng),是由倫敦AI研究實驗室DeepMind于2013年所一手創(chuàng)造。后來,DeepMind又從AlphaGo代理起步構(gòu)建起一系列強化學習系統(tǒng)(也稱代理),能夠在圍棋對抗中輕松擊敗世界頂尖玩家。憑借著2015年至2017年之間的這一系列壯舉,強化學習之名席卷全球。而在圍棋這一擁有無數(shù)擁躉、且向來以高復雜度與中遠期戰(zhàn)略思考著稱的腦力運動中拔得頭籌,也讓人們對于強化學習的未來應(yīng)用充滿好奇。
在此之后,DeepMind以與AI研究實驗室OpenAI發(fā)布了面向《星際爭霸》與《DOTA 2》游戲的系統(tǒng),其同樣與全球頂尖人類玩家打得有來有往??雌饋恚瑥娀瘜W習在這類要求嚴謹戰(zhàn)略思考、資源管理與游戲內(nèi)多單位操控/協(xié)調(diào)的場景下仍然擁有不俗的表現(xiàn)。
通過讓強化學習算法完成數(shù)百萬盤游戲,系統(tǒng)一步步摸索出哪些策略真實有效,而哪些策略更適用于針對不同類型的對手及玩家。以強大的算力為基礎(chǔ),強化學習算法往往會采用多種思路,并一一嘗試不同策略的具體效果。該系統(tǒng)會嘗試策略空間窮舉、自我對抗、多策略聯(lián)動以及學習人類玩家策略等多種方式,快速在策略空間探索與沿用現(xiàn)有良好策略之間取得平衡點。簡單來講,大量的試驗使得系統(tǒng)得以探索出多種不同游戲狀態(tài),而復雜的評估方法則讓AI系統(tǒng)摸索出在合理的游戲形勢下、哪些策略或操作能夠?qū)崿F(xiàn)良好的中長期收益。
但在現(xiàn)實世界中使用這些算法的主要障礙,在于我們不太可能逐一完成這數(shù)百萬次試驗。好消息是,有新的解決方案能夠解決這個難題:首先為應(yīng)用場景創(chuàng)建起計算機模擬環(huán)境(制造工廠或市場模擬環(huán)境等),而后使用強化學習算法從中整理出最佳策略,最后再將總結(jié)出的最佳策略納入實際場景、通過進一步調(diào)參反映現(xiàn)實世界。OpenAI就曾在2019年進行過一輪引人注目的演示,通過訓練機器人手臂單手解開魔方來證明這種模擬訓練方法的有效性。
但要讓這種方法切實起效,模擬環(huán)境必須能夠準確表達潛在問題。從某種意義上說,待解決的問題在模擬環(huán)境中就已經(jīng)得到某種形式的“解決”,不可有任何影響系統(tǒng)性能的外部因素。例如,如果模擬的機器人手臂與真實機器人手臂相差太大,那么實際操作時手臂就沒辦法拿穩(wěn)小小的魔方。在這種情況下,就算模型本身得到了正確訓練、也擁有了良好的抗干擾能力,仍然不可能達到預期目標。
這種種限制給強化學習的實際應(yīng)用帶來了巨大的挑戰(zhàn),甚至有可能帶來令人不快的意外。在早期制造工廠示例中,如果將其中某臺設(shè)備替換為速度更快或更慢的機器,則可能改變廠內(nèi)的整體生產(chǎn)動態(tài),導致我們不得不重新訓練強化學習模型。雖然同樣的情況也會影響到一切強化控制系統(tǒng),但人們對于強化學習方案的期望明顯更高,所以必須想辦法消除這些不符合預期的問題。
無論如何,強化學習在現(xiàn)實場景中的應(yīng)用確實展現(xiàn)了光明的未來,也已經(jīng)有眾多初創(chuàng)企業(yè)在嘗試使用強化學習技術(shù)控制制造機器人(Covariant、Osaro、Luffy)、管理生產(chǎn)規(guī)劃(Instadeep)、企業(yè)決策(Secondmind)、物流(Dorabot)、電路設(shè)計(Instadeep)、控制自動駕駛汽車(Wayve、Waymo、Five AI)、控制無人機(Amazon)、運營對沖基金(Piit.ai)乃至更多模式識別型AI系統(tǒng)無法輕松應(yīng)對的現(xiàn)實場景。
另外,各大高科技企業(yè)也已經(jīng)在強化學習研究方面投入大量資金。谷歌就在2015年以4億英鎊(約合5.25億美元)收購了DeepMind。但為了保持競爭優(yōu)勢,雙方均未公布更多交易細節(jié)。
也許當前的強化學習應(yīng)用還顯得有些笨拙且步履蹣跚,但在強大算力與雄厚財力的雙重加持之下,其很可能在不久的將來成為市場上不容忽視的核心技術(shù)成果。



































