偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="6op0n"></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

TIV'25 | 動(dòng)作波動(dòng)率降低70%！清華發(fā)布工業(yè)控制專用神經(jīng)網(wǎng)絡(luò)模型

作者：新智元 2025-10-17 09:36:45

在機(jī)器人與自動(dòng)駕駛領(lǐng)域，由強(qiáng)化學(xué)習(xí)訓(xùn)練的控制策略普遍存在控制動(dòng)作不平滑的問(wèn)題。這種高頻的動(dòng)作震蕩不僅會(huì)加劇硬件磨損、導(dǎo)致系統(tǒng)過(guò)熱，更會(huì)在真實(shí)世界的復(fù)雜擾動(dòng)下引發(fā)系統(tǒng)失穩(wěn)，是阻礙強(qiáng)化學(xué)習(xí)走向現(xiàn)實(shí)應(yīng)用的關(guān)鍵挑戰(zhàn)。清華大學(xué)智能駕駛課題組（iDLab）創(chuàng)新性地從頻域視角審視動(dòng)作平滑性問(wèn)題，提出了一種具備低通濾波能力的神經(jīng)網(wǎng)絡(luò)Smonet，旨在通過(guò)學(xué)習(xí)隱藏層中的低頻狀態(tài)表征，從根源上平滑控制策略。

深度強(qiáng)化學(xué)習(xí)在機(jī)器人控制、自動(dòng)駕駛等復(fù)雜決策任務(wù)中取得了巨大成功([2])。

然而，傳統(tǒng)強(qiáng)化學(xué)習(xí)算法訓(xùn)練出的策略網(wǎng)絡(luò)往往對(duì)觀測(cè)噪聲和外部擾動(dòng)十分敏感，導(dǎo)致輸出的動(dòng)作信號(hào)缺乏平滑性([3-5])。

現(xiàn)有的平滑方法大多從時(shí)域入手，例如設(shè)計(jì)與任務(wù)高度耦合的獎(jiǎng)勵(lì)函數(shù)、對(duì)網(wǎng)絡(luò)施加復(fù)雜的正則化約束、或構(gòu)建分層策略等。

這些方法雖然在特定任務(wù)上有效，但往往存在泛化性不強(qiáng)、限制網(wǎng)絡(luò)表達(dá)能力或設(shè)計(jì)復(fù)雜等問(wèn)題。

清華大學(xué)智能駕駛課題組（iDLab）另辟蹊徑，在智能車輛領(lǐng)域頂級(jí)期刊IEEE Transactions on Intelligent Vehicles上發(fā)表的最新研究成果指出：控制策略的不平滑現(xiàn)象，本質(zhì)上是輸出序列中高頻分量導(dǎo)致的。

圖片

論文鏈接：https://ieeexplore.ieee.org/document/10643291

這些高頻分量主要由觀測(cè)噪聲引入，并在網(wǎng)絡(luò)的正向傳播中被放大。

因此，如果能設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)，使其自身具備低通濾波能力，在濾除無(wú)用高頻噪聲的同時(shí)保留對(duì)控制有益的低頻信號(hào)，即可有效提升策略的平滑性與魯棒性。

為實(shí)現(xiàn)上述目標(biāo)，研究團(tuán)隊(duì)設(shè)計(jì)了名為Smonet的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。

其核心是一個(gè)由多個(gè)串聯(lián)濾波層組成的濾波模塊，該網(wǎng)絡(luò)包含三大關(guān)鍵組件：

圖1 Smonet網(wǎng)絡(luò)架構(gòu)

1. 慣性濾波單元 (Inertia Cell)

該單元是實(shí)現(xiàn)低通濾波的核心。它基于簡(jiǎn)單高效的一階慣性濾波過(guò)程，通過(guò)對(duì)輸入信號(hào)進(jìn)行帶有指數(shù)衰減權(quán)重的積分，有效濾除高頻噪聲成分，從而學(xué)習(xí)到一個(gè)平滑、低頻的隱藏狀態(tài)表征。

2. 自適應(yīng)調(diào)節(jié)單元 (Adaptive Cell)

濾波不可避免地會(huì)引入延遲，過(guò)度平滑可能導(dǎo)致系統(tǒng)在需要快速響應(yīng)時(shí)表現(xiàn)不佳。為解決這一矛盾，Smonet在每個(gè)濾波層中都設(shè)計(jì)了一個(gè)自適應(yīng)單元。該單元能夠根據(jù)當(dāng)前輸入信號(hào)的動(dòng)態(tài)特性，自適應(yīng)地調(diào)整慣性單元的濾波強(qiáng)度。這使得Smonet能夠在系統(tǒng)狀態(tài)平穩(wěn)時(shí)提供強(qiáng)力平滑，在需要緊急規(guī)避或跟蹤突變信號(hào)時(shí)又能實(shí)現(xiàn)快速響應(yīng)，達(dá)到了平滑性與性能的有效平衡。

圖2 Smonet濾波層

圖3 Smonet濾波層內(nèi)的核心單元

3. Smonet正則化訓(xùn)練方法

僅有網(wǎng)絡(luò)結(jié)構(gòu)還不夠，為引導(dǎo)Smonet的濾波能力向「最優(yōu)」的方向?qū)W習(xí)，研究團(tuán)隊(duì)進(jìn)一步提出了一種配套的正則化訓(xùn)練方法。

該方法通過(guò)在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)策略損失函數(shù)中引入一個(gè)與濾波因子相關(guān)的正則項(xiàng)，鼓勵(lì)網(wǎng)絡(luò)在大部分狀態(tài)下采用較小的濾波因子(即更強(qiáng)的平滑能力，同時(shí)允許策略的性能優(yōu)化目標(biāo)在必要時(shí)「推高」濾波因子以保證快速響應(yīng)。

這種設(shè)計(jì)在優(yōu)化過(guò)程中實(shí)現(xiàn)了控制性能和平滑性之間的動(dòng)態(tài)權(quán)衡。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)Mujoco仿真機(jī)器人控制任務(wù)和一個(gè)真實(shí)世界的移動(dòng)機(jī)器人避障實(shí)驗(yàn)中，對(duì)Smonet的性能進(jìn)行了全面驗(yàn)證。

仿真機(jī)器人控制

在Humanoid、Ant等多個(gè)標(biāo)準(zhǔn)測(cè)試環(huán)境中，Smonet與傳統(tǒng)MLP、GRU網(wǎng)絡(luò)進(jìn)行了對(duì)比。

噪聲魯棒性：在無(wú)噪聲環(huán)境下，Smonet的控制性能與其余網(wǎng)絡(luò)結(jié)構(gòu)相當(dāng)。但在引入高斯噪聲后，MLP和GRU的性能顯著下降，而Smonet得益于其濾波能力，依然能保持高水平的控制性能。

動(dòng)作平滑性：在所有噪聲水平下，Smonet的動(dòng)作波動(dòng)率和平均加權(quán)頻率均顯著低于對(duì)比方法。與MLP相比，平均降幅分別達(dá)到48.2%和32.1%。

圖4 不同噪聲水平下的動(dòng)作平滑性指標(biāo)對(duì)比

移動(dòng)機(jī)器人避障

為了驗(yàn)證Smonet在真實(shí)世界中的效果，研究團(tuán)隊(duì)將訓(xùn)練好的策略部署到一臺(tái)兩輪移動(dòng)機(jī)器人上，執(zhí)行軌跡跟蹤與動(dòng)態(tài)避障任務(wù) 。

實(shí)驗(yàn)結(jié)果表明，Smonet生成的控制指令明顯比MLP和GRU更平滑、抖動(dòng)更小。

在引入額外的人工觀測(cè)噪聲后，Smonet不僅保持了最低的動(dòng)作波動(dòng)，還實(shí)現(xiàn)了最低的累積跟蹤誤差，展現(xiàn)出較好的魯棒性。

在高噪聲下，其動(dòng)作波動(dòng)率相比MLP和GRU分別降低了57.9%和70.4%。

圖5 真實(shí)機(jī)器人實(shí)驗(yàn)中的控制動(dòng)作（左）與累積跟蹤誤差（右）

總結(jié)

研究人員針對(duì)強(qiáng)化學(xué)習(xí)在真實(shí)世界應(yīng)用中的動(dòng)作震蕩痛點(diǎn)，創(chuàng)新性地從頻域視角出發(fā)，提出了具備低通濾波能力的神經(jīng)網(wǎng)絡(luò)Smonet。

通過(guò)內(nèi)置的慣性濾波單元、自適應(yīng)調(diào)節(jié)單元以及配套的正則化訓(xùn)練方法，Smonet在不犧牲控制性能的前提下，顯著提升了策略的平滑性和噪聲魯棒性。

仿真與真實(shí)世界實(shí)驗(yàn)的成功驗(yàn)證，證明了該方法在邁向更安全、更穩(wěn)定、更可靠的智能控制系統(tǒng)方面具有巨大潛力，為強(qiáng)化學(xué)習(xí)和具身智能技術(shù)在現(xiàn)實(shí)世界的落地應(yīng)用鋪平了道路。

參考資料

[1] W. Wang, J. Duan, X. Song, et al. "Smooth Filtering Neural Network for Reinforcement Learning." IEEE Transactions on Intelligent Vehicles, vol. 10, no. 5. pp. 3103-3112, May 2025.

[2] S. E. Li. Reinforcement Learning for Sequential Decision and Optimal Control. Singapore: Springer Verlag, 2023.

[3] Y. Wang, W. Wang, X. Song, et al. "ODE-based Smoothing Neural Network for Reinforcement Learning Tasks." The Thirteenth International Conference on Learning Representations (ICLR), 2025.

[4] X. Song, L. Chen, T. Liu, et al. "LipsNet++: Unifying Filter and Controller into a Policy Network." International Conference on Machine Learning (ICML). PMLR, 2025.

[5] X. Song, J. Duan, W. Wang, et al. "LipsNet: A Smooth and Robust Neural Network with Adaptive Lipschitz Constant for High Accuracy Optimal Control." International Conference on Machine Learning (ICML). PMLR, 2023.

責(zé)任編輯：武曉燕來(lái)源：新智元

動(dòng)作波動(dòng)率 iDLab 神經(jīng)網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)