偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="dctp7"><dl id="dctp7"></dl></sup><rt id="dctp7"><menu id="dctp7"></menu></rt>

<ruby id="dctp7"><rp id="dctp7"></rp></ruby>

<wbr id="dctp7"></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

強(qiáng)化學(xué)習(xí)也涌現(xiàn)？自監(jiān)督RL擴(kuò)展到1000層網(wǎng)絡(luò)，機(jī)器人任務(wù)提升50倍

作者：機(jī)器之心 2025-03-24 10:15:00

人工智能新聞

普林斯頓大學(xué)和華沙理工的最新研究提出，通過將神經(jīng)網(wǎng)絡(luò)深度從常見的 2-5 層擴(kuò)展到 1024 層，可以顯著提升自監(jiān)督 RL 的性能，特別是在無監(jiān)督目標(biāo)條件任務(wù)中的目標(biāo)達(dá)成能力。

雖然大多數(shù)強(qiáng)化學(xué)習(xí)（RL）方法都在使用淺層多層感知器（MLP），但普林斯頓大學(xué)和華沙理工的新研究表明，將對(duì)比 RL（CRL）擴(kuò)展到 1000 層可以顯著提高性能，在各種機(jī)器人任務(wù)中，性能可以提高最多 50 倍。

論文標(biāo)題：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
論文鏈接：https://arxiv.org/abs/2503.14858
GitHub 鏈接：https://github.com/wang-kevin3290/scaling-crl

研究背景

最近在人工智能領(lǐng)域里，強(qiáng)化學(xué)習(xí)的重要性因?yàn)?DeepSeek R1 等研究再次凸顯出來，該方法通過試錯(cuò)讓智能體學(xué)會(huì)在復(fù)雜環(huán)境中完成任務(wù)。盡管自監(jiān)督學(xué)習(xí)近年在語言和視覺領(lǐng)域取得了顯著突破，但 RL 領(lǐng)域的進(jìn)展相對(duì)滯后。

與其他 AI 領(lǐng)域廣泛采用的深層網(wǎng)絡(luò)結(jié)構(gòu)（如 Llama 3 和 Stable Diffusion 3 擁有數(shù)百層結(jié)構(gòu)）相比，基于狀態(tài)的強(qiáng)化學(xué)習(xí)任務(wù)通常僅使用 2-5 層的淺層網(wǎng)絡(luò)。相比之下，在視覺和語言等領(lǐng)域，模型往往只有在規(guī)模超過某個(gè)臨界值時(shí)才能獲得解決特定任務(wù)的能力，因此研究人員一直在尋找 RL 中類似的能力涌現(xiàn)現(xiàn)象。

創(chuàng)新方法

普林斯頓大學(xué)和華沙理工的最新研究提出，通過將神經(jīng)網(wǎng)絡(luò)深度從常見的 2-5 層擴(kuò)展到 1024 層，可以顯著提升自監(jiān)督 RL 的性能，特別是在無監(jiān)督目標(biāo)條件任務(wù)中的目標(biāo)達(dá)成能力。

這一發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀點(diǎn)。過去認(rèn)為訓(xùn)練大型 RL 網(wǎng)絡(luò)困難是因?yàn)?RL 問題提供的反饋極為稀少（如長(zhǎng)序列觀測(cè)后的稀疏獎(jiǎng)勵(lì)），導(dǎo)致反饋與參數(shù)比率很小。傳統(tǒng)觀點(diǎn)認(rèn)為大型 AI 系統(tǒng)應(yīng)主要以自監(jiān)督方式訓(xùn)練，而強(qiáng)化學(xué)習(xí)僅用于微調(diào)。

研究團(tuán)隊(duì)從三個(gè)關(guān)鍵方面進(jìn)行創(chuàng)新：

范式融合：重新定義「強(qiáng)化學(xué)習(xí)」和「自監(jiān)督學(xué)習(xí)」的關(guān)系，將它們結(jié)合形成自監(jiān)督強(qiáng)化學(xué)習(xí)系統(tǒng)，采用對(duì)比強(qiáng)化學(xué)習(xí)（Contrastive RL, CRL）算法；
增加數(shù)據(jù)量：通過近期的 GPU 加速強(qiáng)化學(xué)習(xí)框架增加可用數(shù)據(jù)量；
網(wǎng)絡(luò)深度突破：將網(wǎng)絡(luò)深度增加到比先前工作深 100 倍，并融合多種架構(gòu)技術(shù)穩(wěn)定訓(xùn)練過程，包括：殘差連接（Residual Connections）、層歸一化（Layer Normalization）、Swish 激活函數(shù)。

此外，研究還探究了批大?。╞atch size）和網(wǎng)絡(luò)寬度（network width）的相對(duì)重要性。

關(guān)鍵發(fā)現(xiàn)

隨著網(wǎng)絡(luò)深度的擴(kuò)大，我們能發(fā)現(xiàn)虛擬環(huán)境中的強(qiáng)化學(xué)習(xí)智能體出現(xiàn)了新行為：在深度 4 時(shí)，人形機(jī)器人會(huì)直接向目標(biāo)墜落，而在深度 16 時(shí)，它學(xué)會(huì)了直立行走。在人形機(jī)器人 U-Maze 環(huán)境中，在深度 256 時(shí)，出現(xiàn)了一種獨(dú)特的學(xué)習(xí)策略：智能體學(xué)會(huì)了越過迷宮高墻。

進(jìn)一步研究，人們發(fā)現(xiàn)在具有高維輸入的復(fù)雜任務(wù)中，深度擴(kuò)展的優(yōu)勢(shì)更大。在擴(kuò)展效果最為突出的 Humanoid U-Maze 環(huán)境中，研究人員測(cè)試了擴(kuò)展的極限，并觀察到高達(dá) 1024 層的性能持續(xù)提升。

另外，更深的網(wǎng)絡(luò)可以學(xué)習(xí)到更好的對(duì)比表征。僅在導(dǎo)航任務(wù)中，Depth-4 網(wǎng)絡(luò)使用到目標(biāo)的歐幾里得距離簡(jiǎn)單地近似 Q 值，而 Depth-64 能夠捕捉迷宮拓?fù)洌⑹褂酶?Q 值勾勒出可行路徑。

擴(kuò)展網(wǎng)絡(luò)深度也能提高 AI 的泛化能力。在訓(xùn)練期間未見過的起始-目標(biāo)對(duì)上進(jìn)行測(cè)試時(shí)，與較淺的網(wǎng)絡(luò)相比，較深的網(wǎng)絡(luò)在更高比例的任務(wù)上取得了成功。

技術(shù)細(xì)節(jié)

該研究采用了來自 ResNet 架構(gòu)的殘差連接，每個(gè)殘差塊由四個(gè)重復(fù)單元組成，每個(gè)單元包含一個(gè) Dense 層、一個(gè)層歸一化（Layer Normalization）層和 Swish 激活函數(shù)。殘差連接在殘差塊的最終激活函數(shù)之后立即應(yīng)用。

在本論文中，網(wǎng)絡(luò)深度被定義為架構(gòu)中所有殘差塊的 Dense 層總數(shù)。在所有實(shí)驗(yàn)中，深度指的是 actor 網(wǎng)絡(luò)和兩個(gè) critic encoder 網(wǎng)絡(luò)的配置，這些網(wǎng)絡(luò)被共同擴(kuò)展。

研究貢獻(xiàn)

本研究的主要貢獻(xiàn)在于展示了一種將多種構(gòu)建模塊整合到單一強(qiáng)化學(xué)習(xí)方法中的方式，該方法展現(xiàn)出卓越的可擴(kuò)展性：

實(shí)證可擴(kuò)展性：研究觀察到性能顯著提升，在半數(shù)測(cè)試環(huán)境中提升超過 20 倍，這對(duì)應(yīng)著隨模型規(guī)模增長(zhǎng)而涌現(xiàn)的質(zhì)變策略；
網(wǎng)絡(luò)架構(gòu)深度的擴(kuò)展：雖然許多先前的強(qiáng)化學(xué)習(xí)研究主要關(guān)注增加網(wǎng)絡(luò)寬度，但在擴(kuò)展深度時(shí)通常只能報(bào)告有限甚至負(fù)面的收益。相比之下，本方法成功解鎖了沿深度軸擴(kuò)展的能力，產(chǎn)生的性能改進(jìn)超過了僅靠擴(kuò)展寬度所能達(dá)到的；
實(shí)證分析：研究表明更深的網(wǎng)絡(luò)表現(xiàn)出增強(qiáng)的拼接能力，能夠?qū)W習(xí)更準(zhǔn)確的價(jià)值函數(shù)，并有效利用更大批量大小帶來的優(yōu)勢(shì)。

不過，拓展網(wǎng)絡(luò)深度是以消耗計(jì)算量為代價(jià)的，使用分布式訓(xùn)練來提升算力，以及剪枝蒸餾是未來的擴(kuò)展方向。

預(yù)計(jì)未來研究將在此基礎(chǔ)上，通過探索額外的構(gòu)建模塊來進(jìn)一步發(fā)展這一方法。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型研究神經(jīng)網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<wbr id="ogi06"><sup id="ogi06"></sup></wbr>