偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

TIV'25 | 動(dòng)作波動(dòng)率降低70%!清華發(fā)布工業(yè)控制專用神經(jīng)網(wǎng)絡(luò)模型

人工智能
在機(jī)器人與自動(dòng)駕駛領(lǐng)域,由強(qiáng)化學(xué)習(xí)訓(xùn)練的控制策略普遍存在控制動(dòng)作不平滑的問(wèn)題。這種高頻的動(dòng)作震蕩不僅會(huì)加劇硬件磨損、導(dǎo)致系統(tǒng)過(guò)熱,更會(huì)在真實(shí)世界的復(fù)雜擾動(dòng)下引發(fā)系統(tǒng)失穩(wěn),是阻礙強(qiáng)化學(xué)習(xí)走向現(xiàn)實(shí)應(yīng)用的關(guān)鍵挑戰(zhàn)。清華大學(xué)智能駕駛課題組(iDLab)創(chuàng)新性地從頻域視角審視動(dòng)作平滑性問(wèn)題,提出了一種具備低通濾波能力的神經(jīng)網(wǎng)絡(luò)Smonet,旨在通過(guò)學(xué)習(xí)隱藏層中的低頻狀態(tài)表征,從根源上平滑控制策略。

深度強(qiáng)化學(xué)習(xí)在機(jī)器人控制 、自動(dòng)駕駛等復(fù)雜決策任務(wù)中取得了巨大成功([2])。

然而,傳統(tǒng)強(qiáng)化學(xué)習(xí)算法訓(xùn)練出的策略網(wǎng)絡(luò)往往對(duì)觀測(cè)噪聲和外部擾動(dòng)十分敏感,導(dǎo)致輸出的動(dòng)作信號(hào)缺乏平滑性([3-5])。

現(xiàn)有的平滑方法大多從時(shí)域入手,例如設(shè)計(jì)與任務(wù)高度耦合的獎(jiǎng)勵(lì)函數(shù)、對(duì)網(wǎng)絡(luò)施加復(fù)雜的正則化約束、或構(gòu)建分層策略等。

這些方法雖然在特定任務(wù)上有效,但往往存在泛化性不強(qiáng)、限制網(wǎng)絡(luò)表達(dá)能力或設(shè)計(jì)復(fù)雜等問(wèn)題。

清華大學(xué)智能駕駛課題組(iDLab)另辟蹊徑,在智能車輛領(lǐng)域頂級(jí)期刊IEEE Transactions on Intelligent Vehicles上發(fā)表的最新研究成果指出:控制策略的不平滑現(xiàn)象,本質(zhì)上是輸出序列中高頻分量導(dǎo)致的。

圖片圖片

論文鏈接:https://ieeexplore.ieee.org/document/10643291

這些高頻分量主要由觀測(cè)噪聲引入,并在網(wǎng)絡(luò)的正向傳播中被放大。

因此,如果能設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò),使其自身具備低通濾波能力,在濾除無(wú)用高頻噪聲的同時(shí)保留對(duì)控制有益的低頻信號(hào),即可有效提升策略的平滑性與魯棒性。

為實(shí)現(xiàn)上述目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了名為Smonet的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。

其核心是一個(gè)由多個(gè)串聯(lián)濾波層組成的濾波模塊,該網(wǎng)絡(luò)包含三大關(guān)鍵組件:

圖1 Smonet網(wǎng)絡(luò)架構(gòu)圖1 Smonet網(wǎng)絡(luò)架構(gòu)

1. 慣性濾波單元 (Inertia Cell)

該單元是實(shí)現(xiàn)低通濾波的核心。它基于簡(jiǎn)單高效的一階慣性濾波過(guò)程,通過(guò)對(duì)輸入信號(hào)進(jìn)行帶有指數(shù)衰減權(quán)重的積分,有效濾除高頻噪聲成分,從而學(xué)習(xí)到一個(gè)平滑、低頻的隱藏狀態(tài)表征。

2. 自適應(yīng)調(diào)節(jié)單元 (Adaptive Cell)

濾波不可避免地會(huì)引入延遲,過(guò)度平滑可能導(dǎo)致系統(tǒng)在需要快速響應(yīng)時(shí)表現(xiàn)不佳。為解決這一矛盾,Smonet在每個(gè)濾波層中都設(shè)計(jì)了一個(gè)自適應(yīng)單元。該單元能夠根據(jù)當(dāng)前輸入信號(hào)的動(dòng)態(tài)特性,自適應(yīng)地調(diào)整慣性單元的濾波強(qiáng)度。這使得Smonet能夠在系統(tǒng)狀態(tài)平穩(wěn)時(shí)提供強(qiáng)力平滑,在需要緊急規(guī)避或跟蹤突變信號(hào)時(shí)又能實(shí)現(xiàn)快速響應(yīng),達(dá)到了平滑性與性能的有效平衡。

圖2 Smonet濾波層圖2 Smonet濾波層

圖3 Smonet濾波層內(nèi)的核心單元

3. Smonet正則化訓(xùn)練方法

僅有網(wǎng)絡(luò)結(jié)構(gòu)還不夠,為引導(dǎo)Smonet的濾波能力向「最優(yōu)」的方向?qū)W習(xí),研究團(tuán)隊(duì)進(jìn)一步提出了一種配套的正則化訓(xùn)練方法。

該方法通過(guò)在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)策略損失函數(shù)中引入一個(gè)與濾波因子相關(guān)的正則項(xiàng),鼓勵(lì)網(wǎng)絡(luò)在大部分狀態(tài)下采用較小的濾波因子(即更強(qiáng)的平滑能力,同時(shí)允許策略的性能優(yōu)化目標(biāo)在必要時(shí)「推高」濾波因子以保證快速響應(yīng)。

這種設(shè)計(jì)在優(yōu)化過(guò)程中實(shí)現(xiàn)了控制性能和平滑性之間的動(dòng)態(tài)權(quán)衡。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)Mujoco仿真機(jī)器人控制任務(wù)和一個(gè)真實(shí)世界的移動(dòng)機(jī)器人避障實(shí)驗(yàn)中,對(duì)Smonet的性能進(jìn)行了全面驗(yàn)證。

仿真機(jī)器人控制

在Humanoid、Ant等多個(gè)標(biāo)準(zhǔn)測(cè)試環(huán)境中,Smonet與傳統(tǒng)MLP、GRU網(wǎng)絡(luò)進(jìn)行了對(duì)比。

噪聲魯棒性:在無(wú)噪聲環(huán)境下,Smonet的控制性能與其余網(wǎng)絡(luò)結(jié)構(gòu)相當(dāng)。但在引入高斯噪聲后,MLP和GRU的性能顯著下降,而Smonet得益于其濾波能力,依然能保持高水平的控制性能。

動(dòng)作平滑性:在所有噪聲水平下,Smonet的動(dòng)作波動(dòng)率和平均加權(quán)頻率均顯著低于對(duì)比方法。與MLP相比,平均降幅分別達(dá)到48.2%和32.1%。

圖4 不同噪聲水平下的動(dòng)作平滑性指標(biāo)對(duì)比圖4 不同噪聲水平下的動(dòng)作平滑性指標(biāo)對(duì)比

移動(dòng)機(jī)器人避障

為了驗(yàn)證Smonet在真實(shí)世界中的效果,研究團(tuán)隊(duì)將訓(xùn)練好的策略部署到一臺(tái)兩輪移動(dòng)機(jī)器人上,執(zhí)行軌跡跟蹤與動(dòng)態(tài)避障任務(wù) 。

實(shí)驗(yàn)結(jié)果表明,Smonet生成的控制指令明顯比MLP和GRU更平滑、抖動(dòng)更小。

在引入額外的人工觀測(cè)噪聲后,Smonet不僅保持了最低的動(dòng)作波動(dòng),還實(shí)現(xiàn)了最低的累積跟蹤誤差,展現(xiàn)出較好的魯棒性。

在高噪聲下,其動(dòng)作波動(dòng)率相比MLP和GRU分別降低了57.9%和70.4%。

圖5 真實(shí)機(jī)器人實(shí)驗(yàn)中的控制動(dòng)作(左)與累積跟蹤誤差(右)圖5 真實(shí)機(jī)器人實(shí)驗(yàn)中的控制動(dòng)作(左)與累積跟蹤誤差(右)

總結(jié)

研究人員針對(duì)強(qiáng)化學(xué)習(xí)在真實(shí)世界應(yīng)用中的動(dòng)作震蕩痛點(diǎn),創(chuàng)新性地從頻域視角出發(fā),提出了具備低通濾波能力的神經(jīng)網(wǎng)絡(luò)Smonet。

通過(guò)內(nèi)置的慣性濾波單元、自適應(yīng)調(diào)節(jié)單元以及配套的正則化訓(xùn)練方法,Smonet在不犧牲控制性能的前提下,顯著提升了策略的平滑性和噪聲魯棒性。

仿真與真實(shí)世界實(shí)驗(yàn)的成功驗(yàn)證,證明了該方法在邁向更安全、更穩(wěn)定、更可靠的智能控制系統(tǒng)方面具有巨大潛力,為強(qiáng)化學(xué)習(xí)和具身智能技術(shù)在現(xiàn)實(shí)世界的落地應(yīng)用鋪平了道路。

參考資料

[1] W. Wang, J. Duan, X. Song, et al. "Smooth Filtering Neural Network for Reinforcement Learning." IEEE Transactions on Intelligent Vehicles, vol. 10, no. 5. pp. 3103-3112, May 2025. 

[2] S. E. Li. Reinforcement Learning for Sequential Decision and Optimal Control. Singapore: Springer Verlag, 2023. 

[3] Y. Wang, W. Wang, X. Song, et al. "ODE-based Smoothing Neural Network for Reinforcement Learning Tasks." The Thirteenth International Conference on Learning Representations (ICLR), 2025. 

[4] X. Song, L. Chen, T. Liu, et al. "LipsNet++: Unifying Filter and Controller into a Policy Network." International Conference on Machine Learning (ICML). PMLR, 2025. 

[5] X. Song, J. Duan, W. Wang, et al. "LipsNet: A Smooth and Robust Neural Network with Adaptive Lipschitz Constant for High Accuracy Optimal Control." International Conference on Machine Learning (ICML). PMLR, 2023.

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-09-08 08:54:00

AI圖像生成模型

2024-01-10 17:25:00

AI數(shù)據(jù)

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2017-05-22 14:45:51

大數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)架構(gòu)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2024-03-18 09:53:40

GPD神經(jīng)網(wǎng)絡(luò)模型

2023-08-07 13:46:52

模型訓(xùn)練

2025-06-20 14:29:02

模型訓(xùn)練大數(shù)據(jù)

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-03-31 08:50:00

模型量化神經(jīng)網(wǎng)絡(luò)AI

2025-02-24 08:00:00

機(jī)器學(xué)習(xí)ML架構(gòu)

2023-09-17 23:09:24

Transforme深度學(xué)習(xí)

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言初探

2020-04-20 13:45:32

神經(jīng)網(wǎng)絡(luò)模型代碼

2017-05-10 14:32:31

神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)架構(gòu)模型

2017-03-10 12:16:46

機(jī)器學(xué)習(xí)

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2025-02-25 14:13:31

2021-06-21 10:43:25

Python神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2025-02-19 18:00:00

神經(jīng)網(wǎng)絡(luò)模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)