偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越DPO,創(chuàng)新大模型優(yōu)化算法SimPO

發(fā)布于 2024-6-7 11:02
瀏覽
0收藏

隨著ChatGPT等模型的影響力越來越大,如何根據(jù)人類反饋優(yōu)化大模型的性能,實(shí)現(xiàn)超級(jí)對(duì)齊降低非法內(nèi)容輸出變得非常重要。


傳統(tǒng)的DPO(直接偏好優(yōu)化)是使用較多的離線偏好優(yōu)化算法,主要通過重新參數(shù)化獎(jiǎng)勵(lì)函數(shù),從人類反饋中學(xué)習(xí)以優(yōu)化大模型。但是DPO的獎(jiǎng)勵(lì)函數(shù)依賴于一個(gè)參考模型,不僅會(huì)大幅度增加AI算力和內(nèi)存需求,在訓(xùn)練和推理過程中的度量會(huì)出現(xiàn)不一致等情況。


所以,弗吉尼亞大學(xué)和普林斯頓大學(xué)的研究人員推出了更好的優(yōu)化方法SimPO。


論文地址:https://arxiv.org/abs/2405.14734

Github地址:https://github.com/princeton-nlp/SimPO

超越DPO,創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

SimPO是在DPO的基礎(chǔ)之上進(jìn)行了創(chuàng)新,通過采用序列的平均對(duì)數(shù)概率作為隱式獎(jiǎng)勵(lì)機(jī)制,這一巧妙的設(shè)計(jì)與模型生成過程緊密相連,同時(shí)消除了對(duì)參考模型的依賴,極大提升了了計(jì)算效率和內(nèi)存使用率。


此外,SimPO還提出了一個(gè)“目標(biāo)獎(jiǎng)勵(lì)邊際”的概念,將其嵌入到布拉德利-特里比較模型中,這個(gè)邊際設(shè)定使得勝出的模型響應(yīng)與失敗的響應(yīng)之間形成更大的差距,可有效增強(qiáng)算法的區(qū)分度進(jìn)一步優(yōu)化分類效果,使得模型的輸出內(nèi)容更加符合人類的偏好。


自由獎(jiǎng)勵(lì)函數(shù)

?

DPO優(yōu)化方法的獎(jiǎng)勵(lì)函數(shù)的構(gòu)建依賴于一個(gè)參考模型,通常是一個(gè)經(jīng)過監(jiān)督微調(diào)的模型。這也是致使其大幅度增加算力、內(nèi)存的主要原因。SimPO通過自由獎(jiǎng)勵(lì)函數(shù)可以有效解決這些難點(diǎn)。


自由獎(jiǎng)勵(lì)函數(shù)不再依賴于任何外部的參考模型,而是直接使用策略模型本身來計(jì)算獎(jiǎng)勵(lì)。SimPO將獎(jiǎng)勵(lì)函數(shù)定義為序列中所有標(biāo)記的對(duì)數(shù)概率的平均值,公式如下:

超越DPO,創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

這種設(shè)計(jì)使得獎(jiǎng)勵(lì)函數(shù)與模型生成過程中使用的度量(即平均對(duì)數(shù)似然)直接對(duì)齊,從而確保了模型在生成響應(yīng)時(shí)能夠更加精確地優(yōu)化目標(biāo)。


此外,SimPO的獎(jiǎng)勵(lì)函數(shù)還引入了長(zhǎng)度歸一化的技術(shù)概念。在生成任務(wù)中,序列的長(zhǎng)度往往會(huì)對(duì)模型的生成質(zhì)量產(chǎn)生影響。如果不對(duì)長(zhǎng)度進(jìn)行歸一化處理,模型可能會(huì)傾向于生成較短或較長(zhǎng)的序列,不符合用戶對(duì)生成質(zhì)量的期望。

超越DPO,創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

通過將獎(jiǎng)勵(lì)函數(shù)除以序列長(zhǎng)度,SimPO確保了獎(jiǎng)勵(lì)與序列長(zhǎng)度無關(guān),避免了模型在生成過程中對(duì)長(zhǎng)度的過度依賴。


SimPO實(shí)驗(yàn)數(shù)據(jù)

?

為了評(píng)估、驗(yàn)證SimPO的性能,研究團(tuán)隊(duì)在多種模型的預(yù)訓(xùn)練下進(jìn)行了廣泛的比較實(shí)驗(yàn),涵蓋基礎(chǔ)模型和指令微調(diào)模型,例如,非常出名的Mistral系列和Llama3等。特別是在評(píng)估指標(biāo)上,他們選取了AlpacaEval 2、MT-Bench以及最近推出的具有挑戰(zhàn)性的Arena-Hard基準(zhǔn)測(cè)試。


結(jié)果顯示,無論是在哪項(xiàng)測(cè)試中,SimPO均展現(xiàn)出了優(yōu)于DPO及同類技術(shù)的優(yōu)化性能。在AlpacaEval 2上,SimPO的提升幅度最大可達(dá)6.4分,而在Arena-Hard上,這一數(shù)值更是達(dá)到了7.5分,充分證明算法的高效性。

超越DPO,創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

值得一提的是,基于Llama3-8B-Instruct構(gòu)建的模型,在應(yīng)用SimPO算法后,在AlpacaEval 2上的表現(xiàn)達(dá)到了驚人的44.7%的控制長(zhǎng)度勝率,超越了排行榜上的Claude 3 Opus,同時(shí)在Arena-Hard上也取得了33.8%的勝率,成為高性能的80億參數(shù)開源大模型。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/pn9UQmdKWLWHszrfOUQW9w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦