這就是OpenAI神秘的Q*?斯坦福:語言模型就是Q函數(shù)
還記得去年 11 月底爆出來的 Q* 項(xiàng)目嗎?這是傳說中 OpenAI 正在秘密開展、或?qū)眍嵏残宰兏锏?AI 項(xiàng)目。如果你想回憶一下,可參看機(jī)器之心當(dāng)時(shí)的報(bào)道《全網(wǎng)大討論:引爆 OpenAI 全員亂斗的 Q * 到底是什么?》簡(jiǎn)而言之,Q* 很可能是 Q 強(qiáng)化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合。
近日,斯坦福大學(xué)一個(gè)團(tuán)隊(duì)的一項(xiàng)新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現(xiàn)在已經(jīng)取得非凡成就的「語言模型不是一個(gè)獎(jiǎng)勵(lì)函數(shù),而是一個(gè) Q 函數(shù)!」由此發(fā)散思維猜想一下,也許 OpenAI 秘密的 Q* 項(xiàng)目或許真的是造就 AGI 的正確方向(或之一)。
- 論文標(biāo)題:From r to Q?: Your Language Model is Secretly a Q-Function
- 論文地址:https://arxiv.org/pdf/2404.12358.pdf
在對(duì)齊大型語言模型(LLM)與人類意圖方面,最常用的方法必然是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。通過學(xué)習(xí)基于人類標(biāo)注的比較的獎(jiǎng)勵(lì)函數(shù),RLHF 能夠捕獲實(shí)踐中難以描述的復(fù)雜目標(biāo)。研究者們也在不斷探索使用強(qiáng)化學(xué)習(xí)技術(shù)來開發(fā)訓(xùn)練和采樣模型的新算法。尤其是直接對(duì)齊方案(比如直接偏好優(yōu)化,即 DPO)憑借其簡(jiǎn)潔性收獲了不少擁躉。
直接對(duì)齊方法的操作不是學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)然后使用強(qiáng)化學(xué)習(xí),而是在上下文多臂賭博機(jī)設(shè)置(bandit setting)中使用獎(jiǎng)勵(lì)函數(shù)與策略之間的關(guān)系來同時(shí)優(yōu)化這兩者。類似的思想已經(jīng)被用在了視覺 - 語言模型和圖像生成模型中。
盡管有人說這樣的直接對(duì)齊方法與使用 PPO 等策略梯度算法的經(jīng)典 RLHF 方法一樣,但它們之間還是存在根本性差異。
舉個(gè)例子,經(jīng)典 RLHF 方法是使用終點(diǎn)狀態(tài)下的稀疏獎(jiǎng)勵(lì)來優(yōu)化 token 層面的價(jià)值函數(shù)。另一方面,DPO 則僅在上下文多臂賭博機(jī)設(shè)置中執(zhí)行操作,其是將整個(gè)響應(yīng)當(dāng)成單條臂處理。這是因?yàn)?,雖然事實(shí)上 token 是一次性只生成一個(gè),但研究強(qiáng)化學(xué)習(xí)的人都知道,密集型獎(jiǎng)勵(lì)是有益的。
盡管直接對(duì)齊算法頗引人注意,但目前人們還不清楚它們能否像經(jīng)典強(qiáng)化學(xué)習(xí)算法那樣用于序列。
為了搞清楚這一點(diǎn),斯坦福這個(gè)團(tuán)隊(duì)近日開展了一項(xiàng)研究:在大型語言模型中 token 層面的 MDP 設(shè)置中,使用二元偏好反饋的常見形式推導(dǎo)了 DPO。
他們的研究表明,DPO 訓(xùn)練會(huì)隱含地學(xué)習(xí)到一個(gè) token 層面的獎(jiǎng)勵(lì)函數(shù),其中語言模型 logit 定義最優(yōu) Q 函數(shù)或預(yù)期的總未來獎(jiǎng)勵(lì)。然后,他們進(jìn)一步表明 DPO 有能力在 token MDP 內(nèi)靈活地建模任意可能的密集獎(jiǎng)勵(lì)函數(shù)。
這是什么意思呢?
簡(jiǎn)單來說,該團(tuán)隊(duì)表明可以將 LLM 表示成 Q 函數(shù)并且研究表明 DPO 可以將其與隱式的人類獎(jiǎng)勵(lì)對(duì)齊(根據(jù)貝爾曼方程),即在軌跡上的 DPO 損失。
并且他們證明這種表示可以擬合任何在軌跡上的反饋獎(jiǎng)勵(lì),包括稀疏信號(hào)(如智能體應(yīng)用)。
實(shí)驗(yàn)
他們也進(jìn)行了實(shí)驗(yàn),論證了三個(gè)可能對(duì) AI 社區(qū)有用的實(shí)用見解。
第一,他們的研究表明盡管 DPO 是作為上下文多臂賭博機(jī)而派生出來的,但 DPO 模型的隱含獎(jiǎng)勵(lì)可在每個(gè) token 層面上進(jìn)行解釋。
在實(shí)驗(yàn)中,他們以定性方式評(píng)估了 DPO 訓(xùn)練的模型是否能夠根據(jù)軌跡反饋學(xué)習(xí) credit assignment。有一個(gè)代表性示例是商討工作就職的場(chǎng)景,圖 1 給出了兩個(gè)答案。
其中左邊是正確的基礎(chǔ)摘要,右邊是經(jīng)過修改的版本 —— 有更高層的職位和相應(yīng)更高的工資。他們計(jì)算了這兩個(gè)答案的每個(gè) token 的 DPO 等價(jià)的獎(jiǎng)勵(lì)。圖 1 中的每個(gè) token 標(biāo)注的顏色就正比于該獎(jiǎng)勵(lì)。
可以看到,模型能夠成功識(shí)別對(duì)應(yīng)于錯(cuò)誤陳述的 token,同時(shí)其它 token 的值依然相差不大,這表明模型可以執(zhí)行 credit assignment。
此外,還可以看到在第一個(gè)錯(cuò)誤(250K 工資)的上下文中,模型依然為其余 token 分配了合理的值,并識(shí)別出了第二個(gè)錯(cuò)誤(management position)。這也許表明模型具備「縫合(stitching)」能力,即根據(jù)離線數(shù)據(jù)進(jìn)行組合泛化的能力。該團(tuán)隊(duì)表示,如果事實(shí)如此,那么這一發(fā)現(xiàn)將有助于強(qiáng)化學(xué)習(xí)和 RLHF 在 LLM 中的應(yīng)用。
第二,研究表明對(duì) DPO 模型進(jìn)行似然搜索類似于現(xiàn)在很多研究中在解碼期間搜索獎(jiǎng)勵(lì)函數(shù)。也就是說,他們證明在 token 層面的闡述方式下,經(jīng)典的基于搜索的算法(比如 MCTS)等價(jià)于在 DPO 策略上的基于似然的搜索。他們的實(shí)驗(yàn)表明,一種簡(jiǎn)單的波束搜索能為基礎(chǔ) DPO 策略帶來有意義的提升,見圖 2。
第三,他們確定初始策略和參考分布的選擇對(duì)于確定訓(xùn)練期間隱性獎(jiǎng)勵(lì)的軌跡非常重要。
從圖 3 可以看出,當(dāng)在 DPO 之前執(zhí)行 SFT 時(shí),被選取和被拒絕的響應(yīng)的隱含獎(jiǎng)勵(lì)都會(huì)下降,但它們的差距會(huì)變大。
當(dāng)然,該團(tuán)隊(duì)最后也表示,這些研究結(jié)果還需要更大規(guī)模的實(shí)驗(yàn)加以檢驗(yàn),他們也給出了一些值得探索的方向,包括使用 DPO 讓 LLM 學(xué)會(huì)基于反饋學(xué)習(xí)推理、執(zhí)行多輪對(duì)話、充當(dāng)智能體、生成圖像和視頻等。