偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

率先突破大規(guī)模多類數(shù)據(jù)損壞問(wèn)題!中科大離線強(qiáng)化學(xué)習(xí)新方式入選NeurIPS 2024

人工智能 新聞
中科大王杰教授團(tuán)隊(duì) (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

機(jī)器人控制和自動(dòng)駕駛的離線數(shù)據(jù)損壞問(wèn)題有解了!

中科大王杰教授團(tuán)隊(duì) (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

論文發(fā)表在CCF-A類人工智能頂級(jí)會(huì)議NeurIPS 2024。

圖片

現(xiàn)實(shí)世界的離線數(shù)據(jù)集(如機(jī)器人控制、自動(dòng)駕駛等)常常因傳感器故障或惡意攻擊而受到數(shù)據(jù)損壞(如數(shù)據(jù)帶有噪聲或?qū)剐怨簦?/span>的影響。

盡管現(xiàn)有離線強(qiáng)化學(xué)習(xí)(offline RL)方法在魯棒性方面已取得了進(jìn)展,但它們?nèi)噪y以處理因離線數(shù)據(jù)的各類元素(即狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和轉(zhuǎn)移動(dòng)態(tài))均部分損壞所引入的高不確定性。

作者針對(duì)離線數(shù)據(jù)的各類元素均有受損這一復(fù)雜的實(shí)際問(wèn)題,提出了一種魯棒的變分貝葉斯推斷方法TRACER。

在面臨各類數(shù)據(jù)損壞時(shí),該方法于所有實(shí)驗(yàn)中均實(shí)現(xiàn)了最優(yōu),相對(duì)于現(xiàn)有的SOTA方法提升了高達(dá)+21.1%的決策性能,并在24組僅有單類數(shù)據(jù)損壞的實(shí)驗(yàn)中仍實(shí)現(xiàn)了16組的最優(yōu)性能

TRACER主要具有以下三點(diǎn)優(yōu)勢(shì):

  • TRACER首次將貝葉斯推斷引入到抗損壞的離線強(qiáng)化學(xué)習(xí)(corruption-robust offline RL)中。通過(guò)將所有離線數(shù)據(jù)作為觀測(cè)值,TRACER捕捉了由各類損壞數(shù)據(jù)所導(dǎo)致的動(dòng)作價(jià)值函數(shù)中的不確定性。
  • 通過(guò)引入基于熵的不確定性度量,TRACER能夠區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù),從而調(diào)控并減弱損壞數(shù)據(jù)對(duì)智能體模型訓(xùn)練的影響,以增強(qiáng)魯棒性。
  • 作者在機(jī)器人控制(MuJoCo)和自動(dòng)駕駛(CARLA)仿真環(huán)境中進(jìn)行了系統(tǒng)性地測(cè)試,驗(yàn)證了TRACER在各類離線數(shù)據(jù)損壞、單類離線數(shù)據(jù)損壞的場(chǎng)景中均顯著提升了智能體的魯棒性,超出了多個(gè)現(xiàn)有的SOTA方法。

注:下文中公式若顯示不完整,請(qǐng)嘗試左右滑動(dòng)查看

背景與問(wèn)題

貝葉斯強(qiáng)化學(xué)習(xí)

即最大化證據(jù)下界(ELBO):

數(shù)據(jù)損壞下的離線強(qiáng)化學(xué)習(xí)

基于上述公式,作者的目的是基于損壞數(shù)據(jù)學(xué)習(xí)魯棒的策略

方法介紹

總的來(lái)說(shuō),該方法將所有類別的數(shù)據(jù)損壞視為行動(dòng)價(jià)值函數(shù)(action-value function)中的不確定性,并使用所有類別的離線數(shù)據(jù)作為觀測(cè)值,以估計(jì)行動(dòng)價(jià)值函數(shù)的后驗(yàn)分布。

這顯著增強(qiáng)了智能體對(duì)所有類別數(shù)據(jù)損壞的魯棒性。

此外,考慮到受損數(shù)據(jù)通常會(huì)引起更高的不確定性和熵,該方法引入了基于熵的不確定性度量,進(jìn)而能有效區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)。

基于這類度量,該方法能調(diào)節(jié)并減弱損壞數(shù)據(jù)對(duì)智能體模型訓(xùn)練的負(fù)面影響,進(jìn)而顯著提高模型在干凈測(cè)試環(huán)境中的魯棒性和性能。

動(dòng)機(jī)

使用多種受損數(shù)據(jù)估計(jì)累積獎(jiǎng)勵(lì)函數(shù)(即動(dòng)作值函數(shù))會(huì)引入很高的不確定性,原因主要有兩個(gè)方面:

  • 一是多種類型的損毀會(huì)向數(shù)據(jù)集的所有元素引入較高的不確定性;
  • 二是每個(gè)元素與累積獎(jiǎng)勵(lì)(即動(dòng)作值、Q值)之間存在明確的相關(guān)性關(guān)系。

下圖為決策過(guò)程的概率圖模型。實(shí)線連接的節(jié)點(diǎn)表示數(shù)據(jù)集中的數(shù)據(jù),而虛線連接的Q值(即動(dòng)作值、累積回報(bào))不屬于數(shù)據(jù)集。這些Q值通常是算法旨在估計(jì)的任務(wù)目標(biāo)。

圖片

為了處理這類由多種數(shù)據(jù)損毀(即狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、狀態(tài)轉(zhuǎn)移數(shù)據(jù)受損)導(dǎo)致的高不確定性問(wèn)題,基于上圖所示的概率圖模型,作者提出利用數(shù)據(jù)集中的所有元素作為觀測(cè)數(shù)據(jù)。

這樣做的目的,是利用這些觀測(cè)數(shù)據(jù)與累積獎(jiǎng)勵(lì)之間的高度相關(guān)性,來(lái)準(zhǔn)確地識(shí)別動(dòng)作值函數(shù)的不確定性。

基于受損數(shù)據(jù)的貝葉斯推斷

作者提出使用離線數(shù)據(jù)集的所有元素作為觀測(cè)值,利用數(shù)據(jù)之間的相關(guān)性同時(shí)解決不確定性問(wèn)題。

通過(guò)引入貝葉斯推理框架,該步的目標(biāo)是逼近動(dòng)作價(jià)值函數(shù)的后驗(yàn)分布。

基于熵的不確定性度量

為了進(jìn)一步應(yīng)對(duì)各類數(shù)據(jù)損壞帶來(lái)的挑戰(zhàn),作者思考如何利用不確定性進(jìn)一步增強(qiáng)魯棒性。

鑒于目標(biāo)是提高在干凈環(huán)境中的智能體性能,作者提出減少損壞數(shù)據(jù)的影響,重點(diǎn)是使用干凈數(shù)據(jù)來(lái)訓(xùn)練智能體。

因此,作者設(shè)計(jì)了一個(gè)兩步計(jì)劃——先區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù);再調(diào)控與損壞數(shù)據(jù)相關(guān)的損失,減少其影響,從而提升在干凈環(huán)境中的表現(xiàn)。

對(duì)于第一步數(shù)據(jù)的區(qū)分,由于損壞數(shù)據(jù)通常會(huì)造成比干凈數(shù)據(jù)更高的不確定性和動(dòng)作價(jià)值分布熵,因此作者提出使用熵來(lái)量化損壞數(shù)據(jù)和干凈數(shù)據(jù)的不確定性。

因此,在學(xué)習(xí)過(guò)程中,TRACER 能夠調(diào)控與損壞數(shù)據(jù)相關(guān)的損失,并專注于最小化與干凈數(shù)據(jù)相關(guān)的損失,從而增強(qiáng)在干凈環(huán)境中的魯棒性和性能。

算法架構(gòu)

TRACER的框架圖如下所示。

圖片

可見(jiàn)相對(duì)于傳統(tǒng)的離線強(qiáng)化學(xué)習(xí)算法,作者的提出方法修改了批評(píng)家(critic)模型,將其改為用于分布強(qiáng)化學(xué)習(xí)(distributional RL)的動(dòng)作值分位數(shù)回歸的架構(gòu)。

此外,作者還添加了一個(gè)新的集成模型(ensemble model)。

數(shù)據(jù)受損,依然保持魯棒性

為了模擬數(shù)據(jù)受損的情形,作者對(duì)數(shù)據(jù)集的部分?jǐn)?shù)據(jù)加入隨機(jī)噪聲或?qū)构魜?lái)構(gòu)建損壞數(shù)據(jù)。

在實(shí)驗(yàn)中,作者對(duì)30%的單類數(shù)據(jù)進(jìn)行損壞。

在機(jī)器人控制(MuJoCo)仿真環(huán)境測(cè)試中,作者選擇了常用的3個(gè)機(jī)器人控制環(huán)境(Halfcheetah,Walker2d,Hopper)

這些環(huán)境的狀態(tài)為仿真機(jī)器人各個(gè)部位(如腿部、關(guān)節(jié)等)的不同物理量(如位置、角度、速度等),控制動(dòng)作為機(jī)器人特定部位(如腿部、頭部)的力。

所有類型數(shù)據(jù)元素均存在隨機(jī)損壞(random)或?qū)箵p壞(advers)時(shí)的實(shí)驗(yàn)結(jié)果見(jiàn)下表。

可以看到,TRACER在所有控制環(huán)境中均獲得了較為明顯的性能提升,提升幅度達(dá)+21.1%,在所有環(huán)境中都獲得了最高的平均得分。

這一結(jié)果展現(xiàn)了TRACER對(duì)大規(guī)模、各類數(shù)據(jù)損壞的強(qiáng)魯棒性。

圖片

單種類型數(shù)據(jù)元素存在損壞的部分實(shí)驗(yàn)結(jié)果見(jiàn)表2和表3。

而在單類數(shù)據(jù)損壞中,TRACER于24個(gè)實(shí)驗(yàn)設(shè)置里實(shí)現(xiàn)16組最優(yōu)性能,可見(jiàn)TRACER面向小規(guī)模、單類數(shù)據(jù)損壞的問(wèn)題也能有效地增強(qiáng)魯棒性。

存在隨機(jī)損壞時(shí),TRACER在8個(gè)實(shí)驗(yàn)設(shè)置中獲得了最高的平均得分。

圖片

同樣地,單類元素存在對(duì)抗損壞時(shí),TRACER在8個(gè)實(shí)驗(yàn)設(shè)置中也獲得了最高的平均得分。

圖片

作者簡(jiǎn)介

本論文作者楊睿是中國(guó)科學(xué)技術(shù)大學(xué)2019級(jí)碩博連讀生,師從王杰教授、李斌教授,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自動(dòng)駕駛等。

他曾以第一作者在 NeurIPS、KDD 等頂級(jí)期刊與會(huì)議上發(fā)表論文兩篇,曾獲滴滴精英實(shí)習(xí)生(16/1000+)。

論文地址:https://openreview.net/pdf?id=rTxCIWsfsDGitHub:
https://github.com/MIRALab-USTC/RL-TRACER

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-11-18 07:45:00

2025-04-01 09:32:00

模型訓(xùn)練AI

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2023-04-06 16:29:18

模型AI

2020-10-15 19:22:09

Menger機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2020-11-16 08:54:05

Google 開源技術(shù)

2017-02-27 11:36:31

阿里

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2025-03-14 10:22:03

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2024-12-09 10:15:00

AI技術(shù)

2025-03-03 09:12:00

2021-07-22 15:25:14

開源技術(shù) 框架

2025-06-09 09:32:35

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2024-10-28 14:20:00

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2024-11-11 17:27:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)