偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="50fma"></abbr>

<li id="50fma"></li>

<tt id="50fma"><em id="50fma"></em></tt><pre id="50fma"><th id="50fma"></th></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

這就是OpenAI神秘的Q*？斯坦福：語言模型就是Q函數(shù)

作者：機(jī)器之心 2024-04-24 09:47:36

人工智能新聞

近日，斯坦福大學(xué)一個(gè)團(tuán)隊(duì)的一項(xiàng)新研究似乎為這一研究方向的潛力提供了佐證，其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個(gè)獎(jiǎng)勵(lì)函數(shù)，而是一個(gè) Q 函數(shù)！」

還記得去年 11 月底爆出來的 Q* 項(xiàng)目嗎？這是傳說中 OpenAI 正在秘密開展、或?qū)眍嵏残宰兏锏?AI 項(xiàng)目。如果你想回憶一下，可參看機(jī)器之心當(dāng)時(shí)的報(bào)道《全網(wǎng)大討論：引爆 OpenAI 全員亂斗的 Q * 到底是什么？》簡(jiǎn)而言之，Q* 很可能是 Q 強(qiáng)化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合。

近日，斯坦福大學(xué)一個(gè)團(tuán)隊(duì)的一項(xiàng)新研究似乎為這一研究方向的潛力提供了佐證，其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個(gè)獎(jiǎng)勵(lì)函數(shù)，而是一個(gè) Q 函數(shù)！」由此發(fā)散思維猜想一下，也許 OpenAI 秘密的 Q* 項(xiàng)目或許真的是造就 AGI 的正確方向（或之一）。

論文標(biāo)題：From r to Q?: Your Language Model is Secretly a Q-Function
論文地址：https://arxiv.org/pdf/2404.12358.pdf

在對(duì)齊大型語言模型（LLM）與人類意圖方面，最常用的方法必然是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。通過學(xué)習(xí)基于人類標(biāo)注的比較的獎(jiǎng)勵(lì)函數(shù)，RLHF 能夠捕獲實(shí)踐中難以描述的復(fù)雜目標(biāo)。研究者們也在不斷探索使用強(qiáng)化學(xué)習(xí)技術(shù)來開發(fā)訓(xùn)練和采樣模型的新算法。尤其是直接對(duì)齊方案（比如直接偏好優(yōu)化，即 DPO）憑借其簡(jiǎn)潔性收獲了不少擁躉。

直接對(duì)齊方法的操作不是學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)然后使用強(qiáng)化學(xué)習(xí)，而是在上下文多臂賭博機(jī)設(shè)置（bandit setting）中使用獎(jiǎng)勵(lì)函數(shù)與策略之間的關(guān)系來同時(shí)優(yōu)化這兩者。類似的思想已經(jīng)被用在了視覺 - 語言模型和圖像生成模型中。

盡管有人說這樣的直接對(duì)齊方法與使用 PPO 等策略梯度算法的經(jīng)典 RLHF 方法一樣，但它們之間還是存在根本性差異。

舉個(gè)例子，經(jīng)典 RLHF 方法是使用終點(diǎn)狀態(tài)下的稀疏獎(jiǎng)勵(lì)來優(yōu)化 token 層面的價(jià)值函數(shù)。另一方面，DPO 則僅在上下文多臂賭博機(jī)設(shè)置中執(zhí)行操作，其是將整個(gè)響應(yīng)當(dāng)成單條臂處理。這是因?yàn)?，雖然事實(shí)上 token 是一次性只生成一個(gè)，但研究強(qiáng)化學(xué)習(xí)的人都知道，密集型獎(jiǎng)勵(lì)是有益的。

盡管直接對(duì)齊算法頗引人注意，但目前人們還不清楚它們能否像經(jīng)典強(qiáng)化學(xué)習(xí)算法那樣用于序列。

為了搞清楚這一點(diǎn)，斯坦福這個(gè)團(tuán)隊(duì)近日開展了一項(xiàng)研究：在大型語言模型中 token 層面的 MDP 設(shè)置中，使用二元偏好反饋的常見形式推導(dǎo)了 DPO。

他們的研究表明，DPO 訓(xùn)練會(huì)隱含地學(xué)習(xí)到一個(gè) token 層面的獎(jiǎng)勵(lì)函數(shù)，其中語言模型 logit 定義最優(yōu) Q 函數(shù)或預(yù)期的總未來獎(jiǎng)勵(lì)。然后，他們進(jìn)一步表明 DPO 有能力在 token MDP 內(nèi)靈活地建模任意可能的密集獎(jiǎng)勵(lì)函數(shù)。

這是什么意思呢？

簡(jiǎn)單來說，該團(tuán)隊(duì)表明可以將 LLM 表示成 Q 函數(shù)并且研究表明 DPO 可以將其與隱式的人類獎(jiǎng)勵(lì)對(duì)齊（根據(jù)貝爾曼方程），即在軌跡上的 DPO 損失。

并且他們證明這種表示可以擬合任何在軌跡上的反饋獎(jiǎng)勵(lì)，包括稀疏信號(hào)（如智能體應(yīng)用）。

實(shí)驗(yàn)

他們也進(jìn)行了實(shí)驗(yàn)，論證了三個(gè)可能對(duì) AI 社區(qū)有用的實(shí)用見解。

第一，他們的研究表明盡管 DPO 是作為上下文多臂賭博機(jī)而派生出來的，但 DPO 模型的隱含獎(jiǎng)勵(lì)可在每個(gè) token 層面上進(jìn)行解釋。

在實(shí)驗(yàn)中，他們以定性方式評(píng)估了 DPO 訓(xùn)練的模型是否能夠根據(jù)軌跡反饋學(xué)習(xí) credit assignment。有一個(gè)代表性示例是商討工作就職的場(chǎng)景，圖 1 給出了兩個(gè)答案。

其中左邊是正確的基礎(chǔ)摘要，右邊是經(jīng)過修改的版本 —— 有更高層的職位和相應(yīng)更高的工資。他們計(jì)算了這兩個(gè)答案的每個(gè) token 的 DPO 等價(jià)的獎(jiǎng)勵(lì)。圖 1 中的每個(gè) token 標(biāo)注的顏色就正比于該獎(jiǎng)勵(lì)。

可以看到，模型能夠成功識(shí)別對(duì)應(yīng)于錯(cuò)誤陳述的 token，同時(shí)其它 token 的值依然相差不大，這表明模型可以執(zhí)行 credit assignment。

此外，還可以看到在第一個(gè)錯(cuò)誤（250K 工資）的上下文中，模型依然為其余 token 分配了合理的值，并識(shí)別出了第二個(gè)錯(cuò)誤（management position）。這也許表明模型具備「縫合（stitching）」能力，即根據(jù)離線數(shù)據(jù)進(jìn)行組合泛化的能力。該團(tuán)隊(duì)表示，如果事實(shí)如此，那么這一發(fā)現(xiàn)將有助于強(qiáng)化學(xué)習(xí)和 RLHF 在 LLM 中的應(yīng)用。

第二，研究表明對(duì) DPO 模型進(jìn)行似然搜索類似于現(xiàn)在很多研究中在解碼期間搜索獎(jiǎng)勵(lì)函數(shù)。也就是說，他們證明在 token 層面的闡述方式下，經(jīng)典的基于搜索的算法（比如 MCTS）等價(jià)于在 DPO 策略上的基于似然的搜索。他們的實(shí)驗(yàn)表明，一種簡(jiǎn)單的波束搜索能為基礎(chǔ) DPO 策略帶來有意義的提升，見圖 2。

第三，他們確定初始策略和參考分布的選擇對(duì)于確定訓(xùn)練期間隱性獎(jiǎng)勵(lì)的軌跡非常重要。

從圖 3 可以看出，當(dāng)在 DPO 之前執(zhí)行 SFT 時(shí)，被選取和被拒絕的響應(yīng)的隱含獎(jiǎng)勵(lì)都會(huì)下降，但它們的差距會(huì)變大。

當(dāng)然，該團(tuán)隊(duì)最后也表示，這些研究結(jié)果還需要更大規(guī)模的實(shí)驗(yàn)加以檢驗(yàn)，他們也給出了一些值得探索的方向，包括使用 DPO 讓 LLM 學(xué)會(huì)基于反饋學(xué)習(xí)推理、執(zhí)行多輪對(duì)話、充當(dāng)智能體、生成圖像和視頻等。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="oymkd"></center>