TIV'25 | 動(dòng)作波動(dòng)率降低70%!清華發(fā)布工業(yè)控制專用神經(jīng)網(wǎng)絡(luò)模型
深度強(qiáng)化學(xué)習(xí)在機(jī)器人控制 、自動(dòng)駕駛等復(fù)雜決策任務(wù)中取得了巨大成功([2])。
然而,傳統(tǒng)強(qiáng)化學(xué)習(xí)算法訓(xùn)練出的策略網(wǎng)絡(luò)往往對(duì)觀測(cè)噪聲和外部擾動(dòng)十分敏感,導(dǎo)致輸出的動(dòng)作信號(hào)缺乏平滑性([3-5])。
現(xiàn)有的平滑方法大多從時(shí)域入手,例如設(shè)計(jì)與任務(wù)高度耦合的獎(jiǎng)勵(lì)函數(shù)、對(duì)網(wǎng)絡(luò)施加復(fù)雜的正則化約束、或構(gòu)建分層策略等。
這些方法雖然在特定任務(wù)上有效,但往往存在泛化性不強(qiáng)、限制網(wǎng)絡(luò)表達(dá)能力或設(shè)計(jì)復(fù)雜等問(wèn)題。
清華大學(xué)智能駕駛課題組(iDLab)另辟蹊徑,在智能車輛領(lǐng)域頂級(jí)期刊IEEE Transactions on Intelligent Vehicles上發(fā)表的最新研究成果指出:控制策略的不平滑現(xiàn)象,本質(zhì)上是輸出序列中高頻分量導(dǎo)致的。
圖片
論文鏈接:https://ieeexplore.ieee.org/document/10643291
這些高頻分量主要由觀測(cè)噪聲引入,并在網(wǎng)絡(luò)的正向傳播中被放大。
因此,如果能設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò),使其自身具備低通濾波能力,在濾除無(wú)用高頻噪聲的同時(shí)保留對(duì)控制有益的低頻信號(hào),即可有效提升策略的平滑性與魯棒性。
為實(shí)現(xiàn)上述目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了名為Smonet的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。
其核心是一個(gè)由多個(gè)串聯(lián)濾波層組成的濾波模塊,該網(wǎng)絡(luò)包含三大關(guān)鍵組件:
圖1 Smonet網(wǎng)絡(luò)架構(gòu)
1. 慣性濾波單元 (Inertia Cell)
該單元是實(shí)現(xiàn)低通濾波的核心。它基于簡(jiǎn)單高效的一階慣性濾波過(guò)程,通過(guò)對(duì)輸入信號(hào)進(jìn)行帶有指數(shù)衰減權(quán)重的積分,有效濾除高頻噪聲成分,從而學(xué)習(xí)到一個(gè)平滑、低頻的隱藏狀態(tài)表征。
2. 自適應(yīng)調(diào)節(jié)單元 (Adaptive Cell)
濾波不可避免地會(huì)引入延遲,過(guò)度平滑可能導(dǎo)致系統(tǒng)在需要快速響應(yīng)時(shí)表現(xiàn)不佳。為解決這一矛盾,Smonet在每個(gè)濾波層中都設(shè)計(jì)了一個(gè)自適應(yīng)單元。該單元能夠根據(jù)當(dāng)前輸入信號(hào)的動(dòng)態(tài)特性,自適應(yīng)地調(diào)整慣性單元的濾波強(qiáng)度。這使得Smonet能夠在系統(tǒng)狀態(tài)平穩(wěn)時(shí)提供強(qiáng)力平滑,在需要緊急規(guī)避或跟蹤突變信號(hào)時(shí)又能實(shí)現(xiàn)快速響應(yīng),達(dá)到了平滑性與性能的有效平衡。
圖2 Smonet濾波層

3. Smonet正則化訓(xùn)練方法
僅有網(wǎng)絡(luò)結(jié)構(gòu)還不夠,為引導(dǎo)Smonet的濾波能力向「最優(yōu)」的方向?qū)W習(xí),研究團(tuán)隊(duì)進(jìn)一步提出了一種配套的正則化訓(xùn)練方法。
該方法通過(guò)在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)策略損失函數(shù)中引入一個(gè)與濾波因子相關(guān)的正則項(xiàng),鼓勵(lì)網(wǎng)絡(luò)在大部分狀態(tài)下采用較小的濾波因子(即更強(qiáng)的平滑能力,同時(shí)允許策略的性能優(yōu)化目標(biāo)在必要時(shí)「推高」濾波因子以保證快速響應(yīng)。
這種設(shè)計(jì)在優(yōu)化過(guò)程中實(shí)現(xiàn)了控制性能和平滑性之間的動(dòng)態(tài)權(quán)衡。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在多個(gè)Mujoco仿真機(jī)器人控制任務(wù)和一個(gè)真實(shí)世界的移動(dòng)機(jī)器人避障實(shí)驗(yàn)中,對(duì)Smonet的性能進(jìn)行了全面驗(yàn)證。
仿真機(jī)器人控制
在Humanoid、Ant等多個(gè)標(biāo)準(zhǔn)測(cè)試環(huán)境中,Smonet與傳統(tǒng)MLP、GRU網(wǎng)絡(luò)進(jìn)行了對(duì)比。
噪聲魯棒性:在無(wú)噪聲環(huán)境下,Smonet的控制性能與其余網(wǎng)絡(luò)結(jié)構(gòu)相當(dāng)。但在引入高斯噪聲后,MLP和GRU的性能顯著下降,而Smonet得益于其濾波能力,依然能保持高水平的控制性能。
動(dòng)作平滑性:在所有噪聲水平下,Smonet的動(dòng)作波動(dòng)率和平均加權(quán)頻率均顯著低于對(duì)比方法。與MLP相比,平均降幅分別達(dá)到48.2%和32.1%。
圖4 不同噪聲水平下的動(dòng)作平滑性指標(biāo)對(duì)比
移動(dòng)機(jī)器人避障
為了驗(yàn)證Smonet在真實(shí)世界中的效果,研究團(tuán)隊(duì)將訓(xùn)練好的策略部署到一臺(tái)兩輪移動(dòng)機(jī)器人上,執(zhí)行軌跡跟蹤與動(dòng)態(tài)避障任務(wù) 。
實(shí)驗(yàn)結(jié)果表明,Smonet生成的控制指令明顯比MLP和GRU更平滑、抖動(dòng)更小。
在引入額外的人工觀測(cè)噪聲后,Smonet不僅保持了最低的動(dòng)作波動(dòng),還實(shí)現(xiàn)了最低的累積跟蹤誤差,展現(xiàn)出較好的魯棒性。
在高噪聲下,其動(dòng)作波動(dòng)率相比MLP和GRU分別降低了57.9%和70.4%。
圖5 真實(shí)機(jī)器人實(shí)驗(yàn)中的控制動(dòng)作(左)與累積跟蹤誤差(右)
總結(jié)
研究人員針對(duì)強(qiáng)化學(xué)習(xí)在真實(shí)世界應(yīng)用中的動(dòng)作震蕩痛點(diǎn),創(chuàng)新性地從頻域視角出發(fā),提出了具備低通濾波能力的神經(jīng)網(wǎng)絡(luò)Smonet。
通過(guò)內(nèi)置的慣性濾波單元、自適應(yīng)調(diào)節(jié)單元以及配套的正則化訓(xùn)練方法,Smonet在不犧牲控制性能的前提下,顯著提升了策略的平滑性和噪聲魯棒性。
仿真與真實(shí)世界實(shí)驗(yàn)的成功驗(yàn)證,證明了該方法在邁向更安全、更穩(wěn)定、更可靠的智能控制系統(tǒng)方面具有巨大潛力,為強(qiáng)化學(xué)習(xí)和具身智能技術(shù)在現(xiàn)實(shí)世界的落地應(yīng)用鋪平了道路。
參考資料
[1] W. Wang, J. Duan, X. Song, et al. "Smooth Filtering Neural Network for Reinforcement Learning." IEEE Transactions on Intelligent Vehicles, vol. 10, no. 5. pp. 3103-3112, May 2025.
[2] S. E. Li. Reinforcement Learning for Sequential Decision and Optimal Control. Singapore: Springer Verlag, 2023.
[3] Y. Wang, W. Wang, X. Song, et al. "ODE-based Smoothing Neural Network for Reinforcement Learning Tasks." The Thirteenth International Conference on Learning Representations (ICLR), 2025.
[4] X. Song, L. Chen, T. Liu, et al. "LipsNet++: Unifying Filter and Controller into a Policy Network." International Conference on Machine Learning (ICML). PMLR, 2025.
[5] X. Song, J. Duan, W. Wang, et al. "LipsNet: A Smooth and Robust Neural Network with Adaptive Lipschitz Constant for High Accuracy Optimal Control." International Conference on Machine Learning (ICML). PMLR, 2023.















 
 
 














 
 
 
 