偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="o3uok"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Transformers學(xué)習(xí)上下文強化學(xué)習(xí)的時間差分方法原創(chuàng)

發(fā)布于 2024-5-27 12:59

瀏覽

0收藏

上下文學(xué)習(xí)指的是模型在推斷時學(xué)習(xí)能力，而不需要調(diào)整其參數(shù)。模型（例如transformers）的輸入包括上下文（即實例-標(biāo)簽對）和查詢實例（即提示）。然后，模型能夠根據(jù)上下文在推斷期間為查詢實例輸出一個標(biāo)簽。上下文學(xué)習(xí)的一個可能解釋是，（線性）transformers的前向傳播在上下文中實現(xiàn)了對實例-標(biāo)簽對的梯度下降迭代。在本文中，研究人員通過構(gòu)造證明了transformers在前向傳播中也能實現(xiàn)時間差異（TD）學(xué)習(xí)，并將這一現(xiàn)象稱為上下文TD。在訓(xùn)練transformers使用多任務(wù)TD算法后展示了上下文TD的出現(xiàn)，并進行了理論分析。此外，研究人員證明了transformers具有足夠的表達(dá)能力，可以在前向傳播中實現(xiàn)許多其他策略評估算法，包括殘差梯度、帶有資格跟蹤的TD和平均獎勵TD。

上下文學(xué)習(xí)已經(jīng)成為大型語言模型最顯著的能力之一。在上下文學(xué)習(xí)中，模型的輸入（即提示）包括上下文（即實例-標(biāo)簽對）和一個查詢實例。然后，模型在推斷期間（即前向傳播）為查詢實例輸出一個標(biāo)簽。模型輸入和輸出的一個示例可以是：

Transformers學(xué)習(xí)上下文強化學(xué)習(xí)的時間差分方法 -AI.x社區(qū)

其中，“5 → number; a → letter”是包含兩個實例-標(biāo)簽對的上下文，“6”是查詢實例。根據(jù)上下文，模型推斷查詢“6”的標(biāo)簽為“number”。值得注意的是，整個過程在模型的推斷時間內(nèi)完成，而不需要調(diào)整模型的參數(shù)。

在（1）中的示例說明了一個監(jiān)督學(xué)習(xí)問題。在經(jīng)典的機器學(xué)習(xí)框架中，這個監(jiān)督學(xué)習(xí)問題通常通過首先基于上下文中的實例-標(biāo)簽對訓(xùn)練一個分類器來解決，使用諸如梯度下降之類的方法，然后要求分類器預(yù)測查詢實例的標(biāo)簽。值得注意的是，研究表明，transformers能夠在前向傳播中實現(xiàn)這個梯度下降訓(xùn)練過程，而不需要調(diào)整任何參數(shù)，為上下文學(xué)習(xí)提供了一個可能的解釋。

超越監(jiān)督學(xué)習(xí)，智能涉及到順序決策，其中強化學(xué)習(xí)已經(jīng)成為一個成功的范式。transformers在推斷期間能否執(zhí)行上下文RL，以及如何執(zhí)行？為了解決這些問題，研究人員從馬爾可夫獎勵過程MRP中的一個簡單評估問題開始。在MRP中，代理程序在每個時間步中從一個狀態(tài)轉(zhuǎn)換到另一個狀態(tài)。用（S0，S1，S2，...）表示代理訪問的狀態(tài)序列。在每個狀態(tài)下，代理程序會接收到一個獎勵。用（r(S0)，r(S1)，r(S2)，...）表示代理程序在路途中接收到的獎勵序列。評估問題是估計值函數(shù)v，該函數(shù)計算每個狀態(tài)未來代理程序?qū)⑹盏降钠谕偅ㄕ劭郏┆剟睢Ｋ璧妮斎胼敵龅囊粋€示例可以是：

Transformers學(xué)習(xí)上下文強化學(xué)習(xí)的時間差分方法 -AI.x社區(qū)

引人注目的是，上述任務(wù)與監(jiān)督學(xué)習(xí)根本不同，因為目標(biāo)是預(yù)測值v(s)，而不是即時獎勵r(s)。此外，查詢狀態(tài)s是任意的，不必是S3。時間差分學(xué)習(xí)TD是解決這類評估問題（2）的最常用的RL算法。而且眾所周知，TD不是梯度下降。

在這項工作中，研究人員做出了三個主要貢獻。首先，通過構(gòu)造證明transformers具有足夠的表達(dá)能力來在前向傳播中實現(xiàn)TD，這一現(xiàn)象我們稱為上下文TD。換句話說，transformers能夠通過上下文TD在推斷時間內(nèi)解決問題（2）。超越最直接的TD，transformers還可以實現(xiàn)許多其他策略評估算法，包括殘差梯度（Baird，1995）、帶有資格跟蹤的TD（Sutton，1988）和平均獎勵TD（Tsitsiklis和Roy，1999）。特別地，為了實現(xiàn)平均獎勵TD，transformers需要使用多頭注意力和過度參數(shù)化的提示，例如，

Transformers學(xué)習(xí)上下文強化學(xué)習(xí)的時間差分方法 -AI.x社區(qū)

這里，“□”充當(dāng)一個虛擬占位符，在推斷期間transformers將使用它作為“記憶”。第二，通過在多個隨機生成的評估問題上訓(xùn)練transformers與TD，實證地證明了在推斷中出現(xiàn)了上下文TD。換句話說，學(xué)習(xí)的transformer參數(shù)與我們在證明中的構(gòu)造非常相符。將這種訓(xùn)練方案稱為多任務(wù)TD。第三，通過展示對于單層transformer，證明了實現(xiàn)上下文TD所需的transformer參數(shù)在多任務(wù)TD訓(xùn)練算法的不變集合的子集中，來彌合理論和實證結(jié)果之間的差距。

論文：https://arxiv.org/pdf/2405.13861

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/voNZDTww7E5ec1hUwulztw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

上下文學(xué)習(xí)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

擴散模型如何幫助創(chuàng)建更好的強化學(xué)習(xí)系統(tǒng)

51CTO內(nèi)容精選 ? 2949瀏覽 ? 0回復(fù)
Nature：最大擴散強化學(xué)習(xí)

ceesoft ? 4126瀏覽 ? 0回復(fù)
機器學(xué)習(xí)有哪些類型？監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、深度學(xué)習(xí)等等！

parson2000 ? 4055瀏覽 ? 0回復(fù)
ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機制

輕薄滴假象 ? 2657瀏覽 ? 0回復(fù)
機器學(xué)習(xí)有哪些類型？監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、深度學(xué)習(xí)等等

parson2000 ? 4749瀏覽 ? 0回復(fù)
提升5.69倍，高效RAG上下文壓縮方法COCOM

Aceryt ? 2585瀏覽 ? 0回復(fù)
訓(xùn)練模擬人形機器人的五種強化學(xué)習(xí)技術(shù)大PK

51CTO內(nèi)容精選 ? 3986瀏覽 ? 0回復(fù)
從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

AI探索時代 ? 3316瀏覽 ? 0回復(fù)
長上下文語言模型評估體系探析

Baihai_IDP ? 2981瀏覽 ? 0回復(fù)
Claude的MCP（模型上下文協(xié)議）簡介

Halo咯咯 ? 5489瀏覽 ? 0回復(fù)
為啥強化學(xué)習(xí)開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2979瀏覽 ? 0回復(fù)
基于多模態(tài)深度強化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 3306瀏覽 ? 0回復(fù)
基于深度強化學(xué)習(xí)的投資組合配置動態(tài)優(yōu)化

靈度智能 ? 3977瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 3329瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與軟件工程：開源軟件獎勵演化的強化學(xué)習(xí)

AI研究前瞻 ? 2193瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 4018瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 2334瀏覽 ? 0回復(fù)
強化學(xué)習(xí)強在哪里？基礎(chǔ)探索

柏企閱文 ? 1607瀏覽 ? 0回復(fù)
阿里開源QwenLong-L1：首個以強化學(xué)習(xí)訓(xùn)練的長上下文推理大模型

PaperAgent ? 642瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學(xué)習(xí)

下一篇： STIC：自我訓(xùn)練增強LVLM對圖像理解的能力

社區(qū)精華內(nèi)容

目錄

<ruby id="yufhq"><optgroup id="yufhq"></optgroup></ruby>