偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="ipb5e"><rt id="ipb5e"><label id="ipb5e"></label></rt></pre>

<u id="ipb5e"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO

發(fā)布于 2024-6-7 11:02

瀏覽

0收藏

隨著ChatGPT等模型的影響力越來越大，如何根據(jù)人類反饋優(yōu)化大模型的性能，實(shí)現(xiàn)超級(jí)對(duì)齊降低非法內(nèi)容輸出變得非常重要。

傳統(tǒng)的DPO（直接偏好優(yōu)化）是使用較多的離線偏好優(yōu)化算法，主要通過重新參數(shù)化獎(jiǎng)勵(lì)函數(shù)，從人類反饋中學(xué)習(xí)以優(yōu)化大模型。但是DPO的獎(jiǎng)勵(lì)函數(shù)依賴于一個(gè)參考模型，不僅會(huì)大幅度增加AI算力和內(nèi)存需求，在訓(xùn)練和推理過程中的度量會(huì)出現(xiàn)不一致等情況。

所以，弗吉尼亞大學(xué)和普林斯頓大學(xué)的研究人員推出了更好的優(yōu)化方法SimPO。

論文地址：https://arxiv.org/abs/2405.14734

Github地址：https://github.com/princeton-nlp/SimPO

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

SimPO是在DPO的基礎(chǔ)之上進(jìn)行了創(chuàng)新，通過采用序列的平均對(duì)數(shù)概率作為隱式獎(jiǎng)勵(lì)機(jī)制，這一巧妙的設(shè)計(jì)與模型生成過程緊密相連，同時(shí)消除了對(duì)參考模型的依賴，極大提升了了計(jì)算效率和內(nèi)存使用率。

此外，SimPO還提出了一個(gè)“目標(biāo)獎(jiǎng)勵(lì)邊際”的概念，將其嵌入到布拉德利-特里比較模型中，這個(gè)邊際設(shè)定使得勝出的模型響應(yīng)與失敗的響應(yīng)之間形成更大的差距，可有效增強(qiáng)算法的區(qū)分度進(jìn)一步優(yōu)化分類效果，使得模型的輸出內(nèi)容更加符合人類的偏好。

自由獎(jiǎng)勵(lì)函數(shù)

?

DPO優(yōu)化方法的獎(jiǎng)勵(lì)函數(shù)的構(gòu)建依賴于一個(gè)參考模型，通常是一個(gè)經(jīng)過監(jiān)督微調(diào)的模型。這也是致使其大幅度增加算力、內(nèi)存的主要原因。SimPO通過自由獎(jiǎng)勵(lì)函數(shù)可以有效解決這些難點(diǎn)。

自由獎(jiǎng)勵(lì)函數(shù)不再依賴于任何外部的參考模型，而是直接使用策略模型本身來計(jì)算獎(jiǎng)勵(lì)。SimPO將獎(jiǎng)勵(lì)函數(shù)定義為序列中所有標(biāo)記的對(duì)數(shù)概率的平均值，公式如下：

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

這種設(shè)計(jì)使得獎(jiǎng)勵(lì)函數(shù)與模型生成過程中使用的度量（即平均對(duì)數(shù)似然）直接對(duì)齊，從而確保了模型在生成響應(yīng)時(shí)能夠更加精確地優(yōu)化目標(biāo)。

此外，SimPO的獎(jiǎng)勵(lì)函數(shù)還引入了長(zhǎng)度歸一化的技術(shù)概念。在生成任務(wù)中，序列的長(zhǎng)度往往會(huì)對(duì)模型的生成質(zhì)量產(chǎn)生影響。如果不對(duì)長(zhǎng)度進(jìn)行歸一化處理，模型可能會(huì)傾向于生成較短或較長(zhǎng)的序列，不符合用戶對(duì)生成質(zhì)量的期望。

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

通過將獎(jiǎng)勵(lì)函數(shù)除以序列長(zhǎng)度，SimPO確保了獎(jiǎng)勵(lì)與序列長(zhǎng)度無關(guān)，避免了模型在生成過程中對(duì)長(zhǎng)度的過度依賴。

SimPO實(shí)驗(yàn)數(shù)據(jù)

?

為了評(píng)估、驗(yàn)證SimPO的性能，研究團(tuán)隊(duì)在多種模型的預(yù)訓(xùn)練下進(jìn)行了廣泛的比較實(shí)驗(yàn)，涵蓋基礎(chǔ)模型和指令微調(diào)模型，例如，非常出名的Mistral系列和Llama3等。特別是在評(píng)估指標(biāo)上，他們選取了AlpacaEval 2、MT-Bench以及最近推出的具有挑戰(zhàn)性的Arena-Hard基準(zhǔn)測(cè)試。

結(jié)果顯示，無論是在哪項(xiàng)測(cè)試中，SimPO均展現(xiàn)出了優(yōu)于DPO及同類技術(shù)的優(yōu)化性能。在AlpacaEval 2上，SimPO的提升幅度最大可達(dá)6.4分，而在Arena-Hard上，這一數(shù)值更是達(dá)到了7.5分，充分證明算法的高效性。

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO-AI.x社區(qū)

值得一提的是，基于Llama3-8B-Instruct構(gòu)建的模型，在應(yīng)用SimPO算法后，在AlpacaEval 2上的表現(xiàn)達(dá)到了驚人的44.7%的控制長(zhǎng)度勝率，超越了排行榜上的Claude 3 Opus，同時(shí)在Arena-Hard上也取得了33.8%的勝率，成為高性能的80億參數(shù)開源大模型。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/pn9UQmdKWLWHszrfOUQW9w??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

今日arXiv最熱大模型論文：超越LoRA，北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法

pangguiyu ? 4287瀏覽 ? 0回復(fù)
直接偏好優(yōu)化（DPO）簡(jiǎn)介

AIGC最前線 ? 8560瀏覽 ? 0回復(fù)
LLM | SimPO：使用無參考獎(jiǎng)勵(lì)的簡(jiǎn)單偏好優(yōu)化

sbf_2000 ? 6944瀏覽 ? 0回復(fù)
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 6294瀏覽 ? 0回復(fù)
【創(chuàng)新一夏學(xué)習(xí)季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號(hào) ? 53.0w瀏覽 ? 39回復(fù)
大模型訓(xùn)練核心算法之——反向傳播算法

AI探索時(shí)代 ? 5424瀏覽 ? 0回復(fù)
超越文本，GPT-4在虹膜生物識(shí)別的創(chuàng)新應(yīng)用

Aceryt ? 3500瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 部署 LLMs 前如何計(jì)算與優(yōu)化 GPU 內(nèi)存需求？

Baihai_IDP ? 3570瀏覽 ? 0回復(fù)
超越CLIP，視覺大模型訓(xùn)練新范式？

kede96 ? 3475瀏覽 ? 0回復(fù)
ACL2024 |解釋引導(dǎo)的大語言模型主動(dòng)蒸餾：一種優(yōu)化知識(shí)轉(zhuǎn)移的創(chuàng)新框架 "ELAD"

arnoldzhw ? 4427瀏覽 ? 0回復(fù)
聊聊基于 Python 優(yōu)化算法的創(chuàng)新預(yù)測(cè)模型

Tang_Lan ? 3052瀏覽 ? 0回復(fù)
DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

AI論文解讀 ? 1.4w瀏覽 ? 0回復(fù)
從經(jīng)典到創(chuàng)新，揭秘?cái)U(kuò)散模型的6大王牌與5大創(chuàng)新思路

智駐未來 ? 6340瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開始大模型之模型DPO訓(xùn)練

周末程序猿 ? 3523瀏覽 ? 0回復(fù)
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 7200瀏覽 ? 0回復(fù)
Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

后向傳播 ? 5123瀏覽 ? 0回復(fù)
Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

后向傳播 ? 3053瀏覽 ? 0回復(fù)
RLHF 核心算法解析：從 DPO 到 DAPO 的大模型對(duì)齊技術(shù)演進(jìn)

鴻煊的學(xué)習(xí)筆記 ? 3581瀏覽 ? 0回復(fù)
PPO 與 DPO：大模型偏好對(duì)齊的兩種核心算法解析

鴻煊的學(xué)習(xí)筆記 ? 6634瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇： OpenAI開源GPT-4 SAE，提供1600萬個(gè)解釋模式

下一篇：媲美Sora，免費(fèi)使用！帶物理模擬的，文生視頻模型

社區(qū)精華內(nèi)容

目錄

<sub id="0ndic"><p id="0ndic"></p></sub>

<sub id="0ndic"></sub>

<cite id="0ndic"></cite>