偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數(shù)

人工智能 新聞
近日,斯坦福大學(xué)一個(gè)團(tuán)隊(duì)的一項(xiàng)新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個(gè)獎(jiǎng)勵(lì)函數(shù),而是一個(gè) Q 函數(shù)!」

還記得去年 11 月底爆出來的 Q* 項(xiàng)目嗎?這是傳說中 OpenAI 正在秘密開展、或?qū)眍嵏残宰兏锏?AI 項(xiàng)目。如果你想回憶一下,可參看機(jī)器之心當(dāng)時(shí)的報(bào)道《全網(wǎng)大討論:引爆 OpenAI 全員亂斗的 Q * 到底是什么?》簡(jiǎn)而言之,Q* 很可能是 Q 強(qiáng)化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合。

近日,斯坦福大學(xué)一個(gè)團(tuán)隊(duì)的一項(xiàng)新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個(gè)獎(jiǎng)勵(lì)函數(shù),而是一個(gè) Q 函數(shù)!」由此發(fā)散思維猜想一下,也許 OpenAI 秘密的 Q* 項(xiàng)目或許真的是造就 AGI 的正確方向(或之一)。


  • 論文標(biāo)題:From r to Q?: Your Language Model is Secretly a Q-Function
  • 論文地址:https://arxiv.org/pdf/2404.12358.pdf

在對(duì)齊大型語言模型(LLM)與人類意圖方面,最常用的方法必然是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。通過學(xué)習(xí)基于人類標(biāo)注的比較的獎(jiǎng)勵(lì)函數(shù),RLHF 能夠捕獲實(shí)踐中難以描述的復(fù)雜目標(biāo)。研究者們也在不斷探索使用強(qiáng)化學(xué)習(xí)技術(shù)來開發(fā)訓(xùn)練和采樣模型的新算法。尤其是直接對(duì)齊方案(比如直接偏好優(yōu)化,即 DPO)憑借其簡(jiǎn)潔性收獲了不少擁躉。

直接對(duì)齊方法的操作不是學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)然后使用強(qiáng)化學(xué)習(xí),而是在上下文多臂賭博機(jī)設(shè)置(bandit setting)中使用獎(jiǎng)勵(lì)函數(shù)與策略之間的關(guān)系來同時(shí)優(yōu)化這兩者。類似的思想已經(jīng)被用在了視覺 - 語言模型和圖像生成模型中。

盡管有人說這樣的直接對(duì)齊方法與使用 PPO 等策略梯度算法的經(jīng)典 RLHF 方法一樣,但它們之間還是存在根本性差異。

舉個(gè)例子,經(jīng)典 RLHF 方法是使用終點(diǎn)狀態(tài)下的稀疏獎(jiǎng)勵(lì)來優(yōu)化 token 層面的價(jià)值函數(shù)。另一方面,DPO 則僅在上下文多臂賭博機(jī)設(shè)置中執(zhí)行操作,其是將整個(gè)響應(yīng)當(dāng)成單條臂處理。這是因?yàn)?,雖然事實(shí)上 token 是一次性只生成一個(gè),但研究強(qiáng)化學(xué)習(xí)的人都知道,密集型獎(jiǎng)勵(lì)是有益的。

盡管直接對(duì)齊算法頗引人注意,但目前人們還不清楚它們能否像經(jīng)典強(qiáng)化學(xué)習(xí)算法那樣用于序列。

為了搞清楚這一點(diǎn),斯坦福這個(gè)團(tuán)隊(duì)近日開展了一項(xiàng)研究:在大型語言模型中 token 層面的 MDP 設(shè)置中,使用二元偏好反饋的常見形式推導(dǎo)了 DPO。

他們的研究表明,DPO 訓(xùn)練會(huì)隱含地學(xué)習(xí)到一個(gè) token 層面的獎(jiǎng)勵(lì)函數(shù),其中語言模型 logit 定義最優(yōu) Q 函數(shù)或預(yù)期的總未來獎(jiǎng)勵(lì)。然后,他們進(jìn)一步表明 DPO 有能力在 token MDP 內(nèi)靈活地建模任意可能的密集獎(jiǎng)勵(lì)函數(shù)。

這是什么意思呢?

簡(jiǎn)單來說,該團(tuán)隊(duì)表明可以將 LLM 表示成 Q 函數(shù)并且研究表明 DPO 可以將其與隱式的人類獎(jiǎng)勵(lì)對(duì)齊(根據(jù)貝爾曼方程),即在軌跡上的 DPO 損失。

并且他們證明這種表示可以擬合任何在軌跡上的反饋獎(jiǎng)勵(lì),包括稀疏信號(hào)(如智能體應(yīng)用)。

實(shí)驗(yàn)

他們也進(jìn)行了實(shí)驗(yàn),論證了三個(gè)可能對(duì) AI 社區(qū)有用的實(shí)用見解。

第一,他們的研究表明盡管 DPO 是作為上下文多臂賭博機(jī)而派生出來的,但 DPO 模型的隱含獎(jiǎng)勵(lì)可在每個(gè) token 層面上進(jìn)行解釋。

在實(shí)驗(yàn)中,他們以定性方式評(píng)估了 DPO 訓(xùn)練的模型是否能夠根據(jù)軌跡反饋學(xué)習(xí) credit assignment。有一個(gè)代表性示例是商討工作就職的場(chǎng)景,圖 1 給出了兩個(gè)答案。

其中左邊是正確的基礎(chǔ)摘要,右邊是經(jīng)過修改的版本 —— 有更高層的職位和相應(yīng)更高的工資。他們計(jì)算了這兩個(gè)答案的每個(gè) token 的 DPO 等價(jià)的獎(jiǎng)勵(lì)。圖 1 中的每個(gè) token 標(biāo)注的顏色就正比于該獎(jiǎng)勵(lì)。

可以看到,模型能夠成功識(shí)別對(duì)應(yīng)于錯(cuò)誤陳述的 token,同時(shí)其它 token 的值依然相差不大,這表明模型可以執(zhí)行 credit assignment。

此外,還可以看到在第一個(gè)錯(cuò)誤(250K 工資)的上下文中,模型依然為其余 token 分配了合理的值,并識(shí)別出了第二個(gè)錯(cuò)誤(management position)。這也許表明模型具備「縫合(stitching)」能力,即根據(jù)離線數(shù)據(jù)進(jìn)行組合泛化的能力。該團(tuán)隊(duì)表示,如果事實(shí)如此,那么這一發(fā)現(xiàn)將有助于強(qiáng)化學(xué)習(xí)和 RLHF 在 LLM 中的應(yīng)用。

第二,研究表明對(duì) DPO 模型進(jìn)行似然搜索類似于現(xiàn)在很多研究中在解碼期間搜索獎(jiǎng)勵(lì)函數(shù)。也就是說,他們證明在 token 層面的闡述方式下,經(jīng)典的基于搜索的算法(比如 MCTS)等價(jià)于在 DPO 策略上的基于似然的搜索。他們的實(shí)驗(yàn)表明,一種簡(jiǎn)單的波束搜索能為基礎(chǔ) DPO 策略帶來有意義的提升,見圖 2。

第三,他們確定初始策略和參考分布的選擇對(duì)于確定訓(xùn)練期間隱性獎(jiǎng)勵(lì)的軌跡非常重要。

從圖 3 可以看出,當(dāng)在 DPO 之前執(zhí)行 SFT 時(shí),被選取和被拒絕的響應(yīng)的隱含獎(jiǎng)勵(lì)都會(huì)下降,但它們的差距會(huì)變大。

當(dāng)然,該團(tuán)隊(duì)最后也表示,這些研究結(jié)果還需要更大規(guī)模的實(shí)驗(yàn)加以檢驗(yàn),他們也給出了一些值得探索的方向,包括使用 DPO 讓 LLM 學(xué)會(huì)基于反饋學(xué)習(xí)推理、執(zhí)行多輪對(duì)話、充當(dāng)智能體、生成圖像和視頻等。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-11-08 15:30:04

JavaScriptES6異步

2023-11-26 17:54:00

AI科學(xué)

2015-07-21 10:24:02

Windows RT升級(jí)

2014-01-02 14:04:42

2023-07-13 09:00:00

人工智能GPT模型

2019-01-02 04:40:19

物聯(lián)網(wǎng)企業(yè)IOT

2021-09-03 10:44:42

ThreadLocalObject 數(shù)組

2024-12-13 16:37:56

SpringBootJava

2011-07-19 09:41:33

2025-06-03 17:40:30

AIDeepSeekOpenAI

2012-03-21 21:38:27

蘋果

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬內(nèi)核

2023-10-12 14:18:06

2016-01-12 17:01:45

Bootstrap原因

2015-07-27 10:56:02

2020-02-17 15:55:22

Office 365

2020-12-02 10:09:00

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-01-14 12:22:10

2024-09-26 10:23:46

2009-05-19 09:06:41

Apple斯坦福iPhone
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)