偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

直接偏好優(yōu)化(DPO)簡(jiǎn)介 原創(chuàng)

發(fā)布于 2024-4-16 10:28
瀏覽
0收藏

直接偏好優(yōu)化(Direct Preference Optimization,DPO)已成為對(duì)大模型進(jìn)行微調(diào)的基本方式。著名的 Mistral 公司開(kāi)發(fā)的 Mixtral 8x7B 模型,即稀疏專(zhuān)家混合模型(Sparse Mixture of Experts),通過(guò)使用 DPO,能夠以顯著較少的參數(shù)達(dá)到 LLaMa 70B 級(jí)別的性能。自然而然地,這一成功促使社區(qū)中許多人開(kāi)始使用 DPO 對(duì)自己的模型進(jìn)行微調(diào)。

目標(biāo)

一旦你將一個(gè)模型預(yù)訓(xùn)練得具有強(qiáng)大的生成能力,通常希望以某種方式控制其輸出。無(wú)論是將其優(yōu)化為在對(duì)話中作為聊天機(jī)器人回應(yīng),還是在代碼中回應(yīng)而不是用英語(yǔ),這里的目標(biāo)是獲取一個(gè)已經(jīng)功能齊全的 LLM,并找到一種更加有選擇性地輸出的方式。

術(shù)語(yǔ)

損失函數(shù) — 用作我們優(yōu)化模型性能的指南的函數(shù)。這是根據(jù)已被發(fā)現(xiàn)的有效性選擇的。

KL 散度 — 指的是 Kullback-Leibler 散度,它是衡量?jī)蓚€(gè)連續(xù)概率分布之間差異的一種方法。要了解更多信息,可以參考 Aparna Dhinakaran 寫(xiě)的一篇關(guān)于此主題的精彩文章。

策略 — 描述神經(jīng)網(wǎng)絡(luò)將如何做出決策的抽象。換句話說(shuō),如果一個(gè)神經(jīng)網(wǎng)絡(luò)被訓(xùn)練了 3 次,每次它都會(huì)有一個(gè)不同的策略,你可以比較它們的性能。

DPO 之前的現(xiàn)狀(PPO)

在 DPO 之前,我們通常不得不訓(xùn)練一個(gè)完全獨(dú)立的模型來(lái)幫助我們進(jìn)行微調(diào),通常稱(chēng)為獎(jiǎng)勵(lì)模型或 RLHF 模型。我們會(huì)從我們的 LLM 中采樣完成,并讓獎(jiǎng)勵(lì)模型為每個(gè)完成度給出一個(gè)分?jǐn)?shù)。這里的想法很簡(jiǎn)單。人類(lèi)評(píng)估您的 LLM 輸出是昂貴的,但您的 LLM 的質(zhì)量最終將由人類(lèi)決定。為了保持成本低廉且質(zhì)量高,您將訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)近似人類(lèi)的反饋。

直接偏好優(yōu)化(DPO)簡(jiǎn)介 -AI.x社區(qū)

PPO背后的數(shù)學(xué)原理

直接偏好優(yōu)化(DPO)簡(jiǎn)介 -AI.x社區(qū)

為什么我們不希望它偏離太多?記住模型已經(jīng)基本功能齊全,而且已經(jīng)耗費(fèi)了相當(dāng)多的計(jì)算資源才達(dá)到這個(gè)水平。因此,我們希望確保模型保留許多當(dāng)前具有的好特性,同時(shí)我們專(zhuān)注于讓它更好地遵循指令。

盡管上述方法是有效的——例如,LLaMa2 就是以這種方式進(jìn)行微調(diào)的——但它有一個(gè)主要缺點(diǎn):它需要訓(xùn)練一個(gè)完全獨(dú)立的模型,這是昂貴的并且需要大量額外的數(shù)據(jù)。

DPO如何改進(jìn)這一點(diǎn)?

DPO完全消除了對(duì)獎(jiǎng)勵(lì)模型的需求!這使我們避免了訓(xùn)練昂貴的獨(dú)立獎(jiǎng)勵(lì)模型,并且偶然地,我們發(fā)現(xiàn)DPO所需的數(shù)據(jù)量要少得多,就像PPO一樣有效。

直接偏好優(yōu)化(DPO)簡(jiǎn)介 -AI.x社區(qū)

DPO背后的數(shù)學(xué)原理

主要的飛躍源于施加的KL約束。通過(guò)添加這個(gè)約束,我們實(shí)際上可以推導(dǎo)出最大化KL受限獎(jiǎng)勵(lì)模型的理想策略。代數(shù)如下所示:

直接偏好優(yōu)化(DPO)簡(jiǎn)介 -AI.x社區(qū)

直接偏好優(yōu)化(DPO)簡(jiǎn)介 -AI.x社區(qū)

這表明,您不需要獎(jiǎng)勵(lì)模型來(lái)優(yōu)化策略以遵循人類(lèi)偏好的理想概率分布。相反,您可以直接處理策略以改進(jìn)它(這就是直接偏好優(yōu)化名稱(chēng)的由來(lái))。我們正在使用您的LLM為每個(gè)標(biāo)記生成的概率來(lái)幫助它進(jìn)行微調(diào)。

結(jié)論

首先,DPO不需要獎(jiǎng)勵(lì)模型! 您只需要高質(zhì)量的數(shù)據(jù),使得模型清楚地知道什么是好的,什么是壞的,并且它會(huì)不斷改進(jìn)。

其次,DPO是動(dòng)態(tài)的。每次使用新數(shù)據(jù)時(shí),它都會(huì)立即適應(yīng),這要?dú)w功于它找到正確方向的方式。與PPO相比,您每次有新數(shù)據(jù)都必須重新訓(xùn)練獎(jiǎng)勵(lì)模型,這是一個(gè)巨大的優(yōu)勢(shì)。

第三,DPO使您能夠訓(xùn)練模型避免某些話題,正如它會(huì)學(xué)習(xí)為其他話題提供良好答案一樣。對(duì)于新的損失方程,一種概念化的方法是將其視為指向正確方向的信號(hào)。通過(guò)同時(shí)使用好的和壞的示例,我們正在教導(dǎo)模型不僅要朝著某些響應(yīng)方向前進(jìn),還要盡量避免其他響應(yīng)方向。由于微調(diào)的一個(gè)很大部分涉及模型忽略某些主題,因此這個(gè)特性非常有價(jià)值。

譯自(有刪改):https://towardsdatascience.com/understanding-the-implications-of-direct-preference-optimization-a4bbd2d85841


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/bmvf50oGunRImufhe4Ywpw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦