偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="fih9o"></kbd>

<tr id="fih9o"><td id="fih9o"></td></tr>

<abbr id="fih9o"><rp id="fih9o"><xmp id="fih9o"></xmp></rp></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

突破！自然語言強(qiáng)化學(xué)習(xí)(NLRL)：一個可處理語言反饋的強(qiáng)化學(xué)習(xí)框架

作者：機(jī)器之心 2024-12-09 08:45:00

人工智能新聞

在人工智能發(fā)展史上，強(qiáng)化學(xué)習(xí) (RL) 憑借其嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架解決了眾多復(fù)雜的決策問題，從圍棋、國際象棋到機(jī)器人控制等領(lǐng)域都取得了突破性進(jìn)展。

本論文由倫敦大學(xué)學(xué)院、上海交通大學(xué)、布朗大學(xué)、布里斯托大學(xué)、新加坡國立大學(xué)以及薩里大學(xué)的研究者合作完成。

馮熙棟是論文第一作者，即將畢業(yè)于倫敦大學(xué)學(xué)院。目前是Google DeepMind的Research Scientist，主要研究方向包括強(qiáng)化學(xué)習(xí)與生成模型。劉博是本推文作者，新加坡國立大學(xué)二年級博士生，研究強(qiáng)化學(xué)習(xí)、推理及機(jī)器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實(shí)環(huán)境中的應(yīng)用。

在人工智能發(fā)展史上，強(qiáng)化學(xué)習(xí) (RL) 憑借其嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架解決了眾多復(fù)雜的決策問題，從圍棋、國際象棋到機(jī)器人控制等領(lǐng)域都取得了突破性進(jìn)展。

然而，隨著應(yīng)用場景日益復(fù)雜，傳統(tǒng)強(qiáng)化學(xué)習(xí)過度依賴單一數(shù)值獎勵的局限性日益凸顯。在現(xiàn)實(shí)世界中，反饋信號往往是多維度、多模態(tài)的，例如教練的口頭指導(dǎo)、視覺示范，或是詳細(xì)的文字說明。

來自倫敦大學(xué)學(xué)院、上海交通大學(xué)、布朗大學(xué)、新加坡國立大學(xué)和布里斯托大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了全新的自然語言強(qiáng)化學(xué)習(xí)（Natural Language Reinforcement Learning, NLRL）范式，成功將強(qiáng)化學(xué)習(xí)的核心概念類比為基于自然語言的形式，開辟了一條通向更智能、更自然的 AI 決策學(xué)習(xí)的新道路。

論文題目: Natural Language Reinforcement Learning
論文鏈接: https://arxiv.org/abs/2411.14251
代碼鏈接: https://github.com/waterhorse1/Natural-language-RL

從數(shù)值到語言：新范式的萌芽

隨著大語言模型（LLM）在理解和生成自然語言方面的飛速發(fā)展，研究者們開始探索如何讓 AI 系統(tǒng)像人類一樣通過語言來理解任務(wù)、制定策略并解釋決策過程。論文第一作者的早期工作 ChessGPT（https://arxiv.org/abs/2306.09200）嘗試通過收集對局評論來訓(xùn)練語言模型并取得了一定成功。然而，這種基于人類數(shù)據(jù)的學(xué)習(xí)方式很快遇到了瓶頸：互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量參差不齊，高質(zhì)量專家標(biāo)注成本高昂，而對于全新任務(wù)更是無從獲取相關(guān)經(jīng)驗(yàn)數(shù)據(jù)。

這種困境促使研究團(tuán)隊(duì)開始探索一個更具突破性的方向：能否設(shè)計(jì)一個框架，讓 AI 系統(tǒng)完全通過與環(huán)境的交互來學(xué)習(xí)，而不依賴任何人類標(biāo)注數(shù)據(jù)？傳統(tǒng)強(qiáng)化學(xué)習(xí)為這個問題提供了靈感，但其單一數(shù)值獎勵的機(jī)制難以滿足復(fù)雜場景的需求。團(tuán)隊(duì)意識到需要一個新范式，既要繼承強(qiáng)化學(xué)習(xí)的數(shù)學(xué)嚴(yán)謹(jǐn)性，又要具備自然語言的表達(dá)豐富性。這個思路最終導(dǎo)向了 NLRL 的誕生。

自然語言強(qiáng)化學(xué)習(xí)

傳統(tǒng)強(qiáng)化學(xué)習(xí)雖然在數(shù)學(xué)上嚴(yán)謹(jǐn)優(yōu)雅，但其單一數(shù)值反饋機(jī)制與人類學(xué)習(xí)方式存在巨大差距。研究團(tuán)隊(duì)從象棋教練指導(dǎo)學(xué)生的場景獲得啟發(fā)：教練不會簡單說 “這步棋的價(jià)值是 0.7”，而是會詳細(xì)解釋 “這個走法控制了中心，限制了對手的機(jī)動性，同時(shí)為王翼進(jìn)攻創(chuàng)造了條件”。這種觀察促使團(tuán)隊(duì)思考：能否將豐富的語言反饋信號整合進(jìn)學(xué)習(xí)框架？

這個思路的關(guān)鍵突破來自對傳統(tǒng)強(qiáng)化學(xué)習(xí)本質(zhì)的重新思考：既然傳統(tǒng) RL 可以通過蒙特卡洛和時(shí)序差分等方法進(jìn)行學(xué)習(xí)，這些方法是否可以擴(kuò)展到語言空間？基于這一洞察，團(tuán)隊(duì)提出了 NLRL 框架，將傳統(tǒng) RL 中的數(shù)學(xué)概念類比為語言形式。以下是一個對應(yīng)關(guān)系示意圖。

具體而言，NLRL 引入 “語言任務(wù)指令”（T_L）替代抽象的獎勵函數(shù)，并設(shè)計(jì)了度量函數(shù) F 來評估軌跡描述 D_L (τ_π) 與任務(wù)指令的完成度。

語言化的決策框架

在 NLRL 中，MDP 的每個組成部分都被重新定義為文本形式。狀態(tài)變?yōu)榘暾舷挛牡淖匀徽Z言描述，動作空間轉(zhuǎn)化為帶有推理過程的語言決策，而環(huán)境反饋則擴(kuò)展為包含原因分析的詳細(xì)評估。例如，在迷宮環(huán)境中的狀態(tài)描述會包含位置、周圍環(huán)境、歷史探索等完整信息。

語言策略與推理

NLRL 中的策略 π_L 被創(chuàng)新性地分解為兩個部分：π_L (a,c|s) = π_L (c|s)π_L (a|c,s)，其中 c 代表思維過程。這種分解使得決策過程變得完全透明。以國際象棋為例，系統(tǒng)會先分析局勢（“白方控制中心點(diǎn)，黑方王翼薄弱”），提出計(jì)劃（“開展王翼進(jìn)攻，同時(shí)固守中心”），最后給出具體建議（“Nf3-e5，威脅 f7 并加強(qiáng)中心控制”）。

語言價(jià)值評估

NLRL 將傳統(tǒng)的標(biāo)量值函數(shù) V (s) 和 Q (s,a) 擴(kuò)展為語言價(jià)值函數(shù) V^L_π 和 Q^L_π。這種擴(kuò)展使得評估變得更加豐富和可解釋。評估結(jié)果不僅包含勝率，還涵蓋空間利用、子力配合等多個角度的分析，并提供具體的改進(jìn)建議。

從理論到實(shí)踐

將強(qiáng)化學(xué)習(xí)的數(shù)學(xué)概念轉(zhuǎn)化為語言形式是一個優(yōu)雅的構(gòu)想，但如何在實(shí)踐中實(shí)現(xiàn)這種轉(zhuǎn)化卻是一個巨大的挑戰(zhàn)。研究團(tuán)隊(duì)意識到，近年來大語言模型在自然語言處理和推理能力方面的突破，為 NLRL 的實(shí)現(xiàn)提供了關(guān)鍵工具。通過深入研究大語言模型的能力邊界，團(tuán)隊(duì)發(fā)現(xiàn) LLM 不僅能夠理解和生成自然語言，還具備 information synthesis（信息綜合）、reasoning（推理）和 correlation analysis（相關(guān)性分析）等能力，這些能力恰好對應(yīng)了傳統(tǒng)強(qiáng)化學(xué)習(xí)中的期望計(jì)算、價(jià)值估計(jì)和策略改進(jìn)等核心操作。

基于這一洞察，研究團(tuán)隊(duì)提出了三個關(guān)鍵技術(shù)創(chuàng)新，構(gòu)建了完整的 NLRL 實(shí)現(xiàn)框架：

語言蒙特卡洛估計(jì)

在傳統(tǒng)強(qiáng)化學(xué)習(xí)中，蒙特卡洛方法通過采樣多條軌跡并取平均值來估計(jì)狀態(tài)價(jià)值。但在語言空間中，我們無法直接對文本描述進(jìn)行算術(shù)平均。研究團(tuán)隊(duì)利用大語言模型作為信息聚合器 (aggregator)。

具體來說，當(dāng)系統(tǒng)需要評估某個狀態(tài)時(shí)，它會：

1. 從該狀態(tài)開始采樣 K 條完整軌跡

2. 將每條軌跡轉(zhuǎn)化為詳細(xì)的文本描述

3. 使用專門設(shè)計(jì)的提示讓 LLM 扮演 “專家評估員” 的角色

4.LLM 分析所有軌跡描述，提取關(guān)鍵模式和見解

5. 生成一個綜合性的評估報(bào)告

例如，在國際象棋中，系統(tǒng)可能會分析說：“基于觀察到的 20 個可能發(fā)展，此位置對白方有利。在 80% 的變化中，白方能夠通過控制中心格和針對 f7 的戰(zhàn)術(shù)威脅獲得優(yōu)勢。但需要注意的是，如果黑方成功完成王翼城堡，局勢可能趨于平衡?！?/span>

語言時(shí)序差分學(xué)習(xí)

傳統(tǒng)的時(shí)序差分學(xué)習(xí)基于貝爾曼方程，將長期價(jià)值分解為即時(shí)獎勵和未來狀態(tài)的折扣價(jià)值。NLRL 創(chuàng)新性地提出了語言貝爾曼方程，將這種時(shí)序關(guān)系擴(kuò)展到語言空間。

在 NLRL 中，語言時(shí)序差分學(xué)習(xí)包含三個關(guān)鍵組件：

1. 文本描述生成器 d：將狀態(tài)轉(zhuǎn)換 (s,a,r,s') 轉(zhuǎn)化為自然語言描述

2. 信息聚合函數(shù) G1：綜合多個時(shí)間步的信息

3. 語言組合函數(shù) G2：將即時(shí)反饋與未來評估結(jié)合

這三個組件協(xié)同工作的方式如下：

首先，d 將環(huán)境反饋轉(zhuǎn)化為詳細(xì)的文本描述，包括采取的動作、即時(shí)反饋和到達(dá)的新狀態(tài)
G2（通常是一個經(jīng)過特殊提示的 LLM）將即時(shí)描述與對未來狀態(tài)的語言評估結(jié)合，生成一個整體性的分析
G1 聚合多個這樣的分析，得出最終的狀態(tài)評估

在實(shí)踐中，這種方法表現(xiàn)出了獨(dú)特的優(yōu)勢：

可以捕捉到難以量化的微妙因素
評估結(jié)果具有很強(qiáng)的可解釋性
能夠處理長期依賴關(guān)系

語言策略提升

在傳統(tǒng)強(qiáng)化學(xué)習(xí)中，策略提升通常通過梯度上升來最大化期望回報(bào)。但在語言空間中，我們需要一個全新的策略提升機(jī)制。研究團(tuán)隊(duì)提出了基于語言相關(guān)性分析的策略提升方法。

這種提升機(jī)制的工作原理是：

1. 對當(dāng)前狀態(tài)收集多個候選動作

2. 獲取每個動作的語言價(jià)值評估

3. 使用 LLM 分析這些評估與任務(wù)目標(biāo)的相關(guān)性

4. 生成改進(jìn)的決策鏈路，包括：

詳細(xì)的推理過程
對不同選項(xiàng)的權(quán)衡分析
最終決策的依據(jù)

例如，在迷宮導(dǎo)航任務(wù)中，系統(tǒng)可能會這樣分析：“向右移動是最優(yōu)選擇，因?yàn)椋?）根據(jù)之前的探索經(jīng)驗(yàn)，右側(cè)路徑更可能通向目標(biāo) 2）即使這條路不是最短路徑，也為我們保留了回退的選項(xiàng) 3）相比向上移動可能遇到的死胡同，這個選擇風(fēng)險(xiǎn)更小?！?/span>

實(shí)驗(yàn)驗(yàn)證

研究團(tuán)隊(duì)在三個具有代表性的環(huán)境中系統(tǒng)地驗(yàn)證了 NLRL 的效果。這些實(shí)驗(yàn)不僅展示了 NLRL 的性能優(yōu)勢，更重要的是證明了該框架在不同類型任務(wù)中的普適性和可擴(kuò)展性。

迷宮導(dǎo)航 - 基于 prompt 的自然語言策略迭代

在復(fù)雜的迷宮導(dǎo)航任務(wù)中，研究團(tuán)隊(duì)測試了純基于 prompt 的自然語言策略迭代算法。研究團(tuán)隊(duì)選擇了兩種具有挑戰(zhàn)性的迷宮環(huán)境進(jìn)行測試：雙 T 型迷宮和中等復(fù)雜度迷宮。在這些環(huán)境中，智能體需要從隨機(jī)初始位置導(dǎo)航到目標(biāo)位置，同時(shí)避免撞墻。通過語言 TD 估計(jì)，在雙 T 型迷宮中實(shí)現(xiàn)了 - 11.19±2.86 的平均獎勵，遠(yuǎn)優(yōu)于基線方法的 - 27.29±4.43。但 NLRL 真正的優(yōu)勢不僅僅體現(xiàn)在數(shù)字上。系統(tǒng)能夠清晰地解釋每個決策的原因，例如：“選擇向南移動，因?yàn)椋?）北邊是死胡同，我們之前已經(jīng)探索過 2）南向路徑似乎更接近目標(biāo)位置 3）即使這條路不是最優(yōu)解，我們?nèi)员Ａ袅讼驏|撤退的選項(xiàng)。” 實(shí)驗(yàn)還發(fā)現(xiàn)，增加變化數(shù)量和前瞻步數(shù)能進(jìn)一步提升性能。

突破棋 (Breakthrough)- 自然語言價(jià)值函數(shù)

在 5x5 突破棋（狀態(tài)空間達(dá) 10^8）這個幾乎沒有人類數(shù)據(jù)的任務(wù)中，NLRL 純依靠環(huán)境反饋訓(xùn)練出了高質(zhì)量的語言評估器。通過混合不同水平的 MCTS 策略數(shù)據(jù)構(gòu)建訓(xùn)練集，評估器達(dá)到了 0.85 的準(zhǔn)確率，顯著超越 LLAMA-3.1-70b 的 0.61 以及 GPT-4o 的 0.58。更重要的是，這個評估器能提供專業(yè)級別的局勢分析。例如：“黑方略占優(yōu)勢，原因有三：1）在 d4 和 e4 形成了穩(wěn)固的雙兵鏈 2）白方右翼的兵形成了薄弱點(diǎn) 3）黑方的推進(jìn)速度比白方快半步。建議白方通過 c3-c4 來爭奪中心控制權(quán)?！?/span>

井字棋 - 自然語言 Actor-Critic

在井字棋環(huán)境中，團(tuán)隊(duì)實(shí)現(xiàn)了完整的語言 Actor-Critic 系統(tǒng)。通過動作選擇掩碼防止幻覺、經(jīng)驗(yàn)緩沖區(qū)解決遺忘問題、持續(xù)的迭代優(yōu)化等創(chuàng)新，系統(tǒng)在隨機(jī)對手下實(shí)現(xiàn) 90% 以上勝率，面對確定性策略甚至能保持 100% 的勝率，同時(shí)保持決策過程的清晰可解釋性。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="yp0ee"></abbr>

<thead id="yp0ee"><tfoot id="yp0ee"></tfoot></thead>

<nav id="yp0ee"></nav>