綜合RLHF、DPO、KTO優(yōu)勢(shì),統(tǒng)一對(duì)齊框架UNA來(lái)了
論文主要作者:
1. 王智超:本科就讀于廈門大學(xué)土木工程系,研究生博士就讀于佐治亞理工并獲得土木工程和計(jì)算機(jī)工程碩士及機(jī)械工程博士,現(xiàn)任職于 Salesforce,專注于 LLM Alignment。
2. 閉彬:本科就讀于華中科技大學(xué)計(jì)算機(jī)工程系,研究生就讀于香港大學(xué)計(jì)算機(jī)科學(xué)系,博士就讀于 UCLA 計(jì)算機(jī)科學(xué)系,現(xiàn)任職于 Salesforce,專注于 LLM Alignment。
3. 黃燦:廈門大學(xué)數(shù)學(xué)系副教授
隨著大規(guī)模語(yǔ)言模型的快速發(fā)展,如 GPT、Claude 等,LLM 通過(guò)預(yù)訓(xùn)練海量的文本數(shù)據(jù)展現(xiàn)了驚人的語(yǔ)言生成能力。然而,即便如此,LLM 仍然存在生成不當(dāng)或偏離預(yù)期的結(jié)果。這種現(xiàn)象在推理過(guò)程中尤為突出,常常導(dǎo)致不準(zhǔn)確、不符合語(yǔ)境或不合倫理的回答。為了解決這一問(wèn)題,學(xué)術(shù)界和工業(yè)界提出了一系列對(duì)齊(Alignment)技術(shù),旨在優(yōu)化模型的輸出,使其更加符合人類的價(jià)值觀和期望。
其中,RLHF 是一種廣泛使用的方法,依賴于從人類反饋中學(xué)習(xí)強(qiáng)化策略。RLHF 的流程包括兩個(gè)階段:首先,通過(guò)人類偏好數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model, RM),然后使用該獎(jiǎng)勵(lì)模型指導(dǎo)策略模型(Policy Model)的強(qiáng)化學(xué)習(xí)優(yōu)化。然而,RLHF 存在若干顯著問(wèn)題,如高內(nèi)存占用、訓(xùn)練不穩(wěn)定以及流程復(fù)雜等。
為了解決 RLHF 的復(fù)雜性,DPO 方法被提出。DPO 簡(jiǎn)化了 RLHF 的流程,將強(qiáng)化學(xué)習(xí)的訓(xùn)練階段轉(zhuǎn)化為一個(gè)二分類問(wèn)題,減少了內(nèi)存消耗并提高了訓(xùn)練穩(wěn)定性。但 DPO 無(wú)法充分利用獎(jiǎng)勵(lì)模型,且僅適用于成對(duì)的偏好數(shù)據(jù),無(wú)法處理更為廣泛的反饋類型。
此外,KTO 進(jìn)一步擴(kuò)展了 DPO,能夠處理二元數(shù)據(jù)(如正向和負(fù)向反饋),但它同樣有其局限性,無(wú)法統(tǒng)一處理不同類型的反饋數(shù)據(jù),也無(wú)法有效利用已有的獎(jiǎng)勵(lì)模型。
在這種背景下,來(lái)自 Salesforce、廈門大學(xué)的研究團(tuán)隊(duì)提出了一種名為 UNA 的新方法,它通過(guò)一種通用的隱式獎(jiǎng)勵(lì)函數(shù),統(tǒng)一了當(dāng)前主流的大規(guī)模語(yǔ)言模型(LLM)對(duì)齊技術(shù)。主要包括 RLHF、DPO 和 KTO,這些技術(shù)的結(jié)合不僅簡(jiǎn)化了模型的訓(xùn)練流程,還提高了模型對(duì)齊的性能,穩(wěn)定性和效率。

- 論文標(biāo)題:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
 - 論文地址:https://arxiv.org/abs/2408.15339
 
UNA 的創(chuàng)新點(diǎn)
UNA 的核心創(chuàng)新點(diǎn)在于通過(guò)一個(gè)(generalized implicit reward function)將 RLHF、DPO 和 KTO 統(tǒng)一為一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。UNA 的創(chuàng)新體現(xiàn)在以下幾個(gè)方面:
- 推導(dǎo)通用的隱式獎(jiǎng)勵(lì)函數(shù):UNA 通過(guò)使用 RLHF 的目標(biāo)函數(shù)推導(dǎo)出一個(gè)通用的隱式獎(jiǎng)勵(lì)函數(shù)。
 - 簡(jiǎn)化 RLHF 的流程:UNA 將傳統(tǒng) RLHF 中不穩(wěn)定且資源密集的強(qiáng)化學(xué)習(xí)過(guò)程轉(zhuǎn)化為一個(gè)穩(wěn)定的監(jiān)督學(xué)習(xí)過(guò)程,減少了訓(xùn)練的不穩(wěn)定性和對(duì)內(nèi)存的需求。
 - 多種反饋數(shù)據(jù)的支持:UNA 能夠處理不同類型的反饋數(shù)據(jù),包括成對(duì)反饋(pairwise feedback)、二元反饋(binary feedback)以及基于評(píng)分的反饋(score-based feedback)。
 

- 監(jiān)督學(xué)習(xí)框架的統(tǒng)一性:UNA 通過(guò)最小化隱式獎(jiǎng)勵(lì)和顯式獎(jiǎng)勵(lì)之間的差異,統(tǒng)一了對(duì)策略模型的優(yōu)化。
 

UNA 的理論基礎(chǔ)
UNA 的理論基礎(chǔ)源于對(duì) RLHF 目標(biāo)函數(shù)的重新推導(dǎo)。研究人員證明,給定 RLHF 的經(jīng)典目標(biāo)函數(shù),最優(yōu)策略可以通過(guò)一個(gè)隱式的獎(jiǎng)勵(lì)函數(shù)來(lái)誘導(dǎo)。該隱式獎(jiǎng)勵(lì)函數(shù)是策略模型與參考策略之間的對(duì)比結(jié)果,通過(guò)這個(gè)函數(shù),UNA 能夠?qū)⒉煌愋偷莫?jiǎng)勵(lì)信息整合到統(tǒng)一的框架中進(jìn)行處理。

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
研究人員通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了 UNA 的有效性和優(yōu)越性。在多個(gè)下游任務(wù)中,UNA 相較于傳統(tǒng)的 RLHF、DPO 和 KTO 都有顯著的性能提升,特別是在訓(xùn)練速度、內(nèi)存占用和任務(wù)表現(xiàn)等方面。以下是實(shí)驗(yàn)結(jié)果的主要亮點(diǎn):
- 任務(wù)表現(xiàn):在多個(gè)語(yǔ)言理解任務(wù)和生成任務(wù)中,UNA 的表現(xiàn)優(yōu)于 RLHF 和 DPO。例如,在 Huggingface 的 Open LLM Leadboard 數(shù)據(jù)集上的測(cè)試中,UNA 在多個(gè)評(píng)價(jià)指標(biāo)上超越了 RLHF 和 DPO,表現(xiàn)出了更強(qiáng)的對(duì)齊能力和任務(wù)適應(yīng)性。
 - 訓(xùn)練速度:由于 UNA 將 RLHF 中的強(qiáng)化學(xué)習(xí)任務(wù)轉(zhuǎn)化為一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題,其訓(xùn)練速度提高了近一倍。
 - 內(nèi)存占用:UNA 的內(nèi)存消耗顯著低于 RLHF。由于 UNA 不再需要維護(hù)多個(gè)模型(如策略模型、參考策略、獎(jiǎng)勵(lì)模型和價(jià)值模型),其內(nèi)存占用大幅減少,尤其在處理大規(guī)模模型時(shí),這種優(yōu)勢(shì)尤為明顯。
 


總結(jié)
UNA 的提出標(biāo)志著大規(guī)模語(yǔ)言模型對(duì)齊技術(shù)的一個(gè)重要進(jìn)展。通過(guò)統(tǒng)一 RLHF、DPO 和 KTO,UNA 不僅簡(jiǎn)化了模型的訓(xùn)練流程,還提高了訓(xùn)練的穩(wěn)定性和效率。其通用的隱式獎(jiǎng)勵(lì)函數(shù)為模型的對(duì)齊提供了一個(gè)統(tǒng)一的框架,使得 UNA 在處理多樣化反饋數(shù)據(jù)時(shí)具有更強(qiáng)的適應(yīng)性和靈活性。實(shí)驗(yàn)結(jié)果表明,UNA 在多個(gè)下游任務(wù)中表現(xiàn)優(yōu)越,為語(yǔ)言模型的實(shí)際應(yīng)用提供了新的可能性。未來(lái),隨著 UNA 的進(jìn)一步發(fā)展,預(yù)期它將在更多的應(yīng)用場(chǎng)景中展現(xiàn)出強(qiáng)大的能力。















 
 
 









 
 
 
 