偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深挖RLHF潛力,復(fù)旦語言和視覺團(tuán)隊(duì)創(chuàng)新獎勵模型優(yōu)化,讓大模型更對齊

人工智能 新聞
現(xiàn)在,復(fù)旦團(tuán)隊(duì)進(jìn)一步挖掘 RLHF 的潛力,重點(diǎn)關(guān)注獎勵模型(Reward Model)在面對實(shí)際應(yīng)用挑戰(zhàn)時(shí)的表現(xiàn)和優(yōu)化途徑。

圖片


繼第一份大模型對齊技術(shù)報(bào)告(Secrets of RLHF in Large Language Models Part I)獲 NeurIPS 2023 workshop best paper 后,第二份報(bào)告強(qiáng)勢歸來,復(fù)旦語言和視覺團(tuán)隊(duì)聯(lián)合推出的第二份報(bào)告將進(jìn)入這一領(lǐng)域更深層的探索和優(yōu)化之旅。在首份報(bào)告中,復(fù)旦團(tuán)隊(duì)揭示了 RLHF 在大語言模型中的基本框架,并深入分析了 PPO 算法的內(nèi)部機(jī)制,特別是 PPO-max 的高級版本在策略模型訓(xùn)練穩(wěn)定性中的關(guān)鍵作用。

現(xiàn)在,復(fù)旦團(tuán)隊(duì)進(jìn)一步挖掘 RLHF 的潛力,重點(diǎn)關(guān)注獎勵模型(Reward Model)在面對實(shí)際應(yīng)用挑戰(zhàn)時(shí)的表現(xiàn)和優(yōu)化途徑。

圖片


復(fù)旦團(tuán)隊(duì)究竟做了什么?

隨著 ChatGPT、GPT-4 等大型語言模型的技術(shù)創(chuàng)新和廣泛應(yīng)用,這些模型已成為當(dāng)下的技術(shù)熱點(diǎn),革新了我們與機(jī)器互動的方式,為各行各業(yè)提供了前所未有的模型支持。這些模型在解決復(fù)雜問題、自動生成內(nèi)容和理解復(fù)雜指令方面展現(xiàn)出巨大價(jià)值。然而這些模型在在對齊人類價(jià)值觀和偏好方面,仍有所局限。OpenAI、Anthropic 等研究團(tuán)隊(duì)對此的應(yīng)對策略是深入研究基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),目標(biāo)是使 AI 系統(tǒng)在價(jià)值觀上與人類更加一致。

OpenAI 的超級對齊、過程監(jiān)督和 Anthropic 的憲法式 AI 等最新研究,都進(jìn)一步強(qiáng)調(diào)了 AI 對齊的重要性。這些概念不僅關(guān)注于如何讓 AI 回答更加符合人類的文化和審美標(biāo)準(zhǔn),而且還關(guān)注于如何讓 AI 在更廣泛的倫理和價(jià)值觀層面與人類保持一致。這些進(jìn)展不僅展示了科學(xué)上的挑戰(zhàn),也體現(xiàn)了哲學(xué)上的探索。它們在確保 AI 的目標(biāo)與人類社會真正對齊的過程中起到了關(guān)鍵作用,對未來人類文明的發(fā)展至關(guān)重要。

為了使大模型與人類的偏好對齊,RLHF 通過獎勵模型(reward model)學(xué)習(xí)人類的偏好。好的獎勵模型能夠反映人類的偏好和價(jià)值目標(biāo),指引大模型充分發(fā)揮自身的能力造福社會;反之,壞的獎勵模型則歪曲誤解人類的偏好,誤導(dǎo)大模型滑向不被人類理解和接納的深淵。因此,獎勵模型的設(shè)計(jì)和實(shí)施對于大型語言模型的發(fā)展至關(guān)重要。

在研究過程中復(fù)旦團(tuán)隊(duì)曾發(fā)現(xiàn)一個有趣的現(xiàn)象,如果按照特定方式選擇 hh-rlhf 數(shù)據(jù)集(Anthropic 公開的有用和無害的人類偏好數(shù)據(jù)集)中的 70% 數(shù)據(jù)用于訓(xùn)練獎勵模型,這個獎勵模型用于 PPO 階段訓(xùn)練將導(dǎo)致模型無論輸入任何內(nèi)容都只會回復(fù) 「免責(zé)聲明」:

圖片

這種現(xiàn)象是 hh-rlhf 數(shù)據(jù)集中存在大量沖突、模糊數(shù)據(jù)的結(jié)果,這樣的沖突會導(dǎo)致獎勵模型無法準(zhǔn)確反映人類的偏好,語言模型無法捕捉到一致的獎懲,便采用這種萬金油策略來應(yīng)對獎勵模型。而復(fù)旦團(tuán)隊(duì)所做的第一個工作便是揭露了 hh-rlhf 數(shù)據(jù)集中存在大量噪音數(shù)據(jù)的現(xiàn)象。通過去除數(shù)據(jù)集中的噪音,可以使得模型更加貼合人類的喜好。正如下述例子中所看到的:

圖片

除了構(gòu)造出對于訓(xùn)練 RM 來說更加優(yōu)質(zhì)的數(shù)據(jù),還可以從 RM 本身出發(fā), 適當(dāng)改變 RM 的選擇策略等,使得 RM 變的更好,進(jìn)而使得 LLM 能夠更貼切人類的喜好,這便是復(fù)旦團(tuán)隊(duì)所做的第二個工作。團(tuán)隊(duì)提出了使用對比學(xué)習(xí)、元學(xué)習(xí)的方式,很大程度提高了 RM 對于數(shù)據(jù)好壞的甄別的能力,RM 的改進(jìn)直接使得 LLM 變得更加符合人類的需求。

通過對比學(xué)習(xí)后的 RM 能夠指導(dǎo) LLM 回答問題更加精確,更符合人類價(jià)值觀偏好。比如在遇到有害問題時(shí),優(yōu)化前的 LLM 只會拒絕回答問題,但是優(yōu)化后的 RM 能夠更具體的回答有害的地方,給出更符合人類價(jià)值觀的回答,正如下述例子所看到的:

圖片

上述例子中優(yōu)化前的 LLM 沒有按照用戶的指示回答問題,而是說它不能理解或回答問題,這是不準(zhǔn)確的,因?yàn)樽鳛槿斯ぶ悄埽軌蚶斫獠⒏鶕?jù)輸入生成語言。這個回答不能解決用戶的問題,也沒有幫助。另一方面,對比學(xué)習(xí)優(yōu)化后的 LLM 選擇不提供表示笨的詞語,相反,它通過強(qiáng)調(diào)支持孩子的重要性并認(rèn)識到他們獨(dú)特的優(yōu)勢和劣勢,提供了一種建設(shè)性的方法。這種回應(yīng)是有幫助的,因?yàn)樗鼘υ掁D(zhuǎn)向了一種積極和支持兒童發(fā)展的方法,這比提供負(fù)面標(biāo)簽更有益,危害更小,更符合人類價(jià)值觀的對齊。

同時(shí)復(fù)旦團(tuán)隊(duì)的研究進(jìn)一步提升了語言模型在面對不同數(shù)據(jù)分布的同一任務(wù)時(shí)的表現(xiàn),確保了模型能夠在相同任務(wù)不同數(shù)據(jù)分布的情況下,也能準(zhǔn)確把握和遵循人類價(jià)值觀,提高了語言模型的泛化能力。

通過 RLHF 的應(yīng)用,我們可以對模型的輸出進(jìn)行細(xì)致的調(diào)整,引導(dǎo)模型以更符合人類喜好和期望的方式作出反應(yīng)。例如,未經(jīng) RLHF 優(yōu)化的模型可能提供的回答簡單直接,可能缺乏文藝氣息;而經(jīng)過 RLHF 優(yōu)化的模型則能提供更加典雅、有文學(xué)感的回答。正如下述對比的例子所看到的那樣,第一條回答略顯生硬,更談不上「信達(dá)雅」,第二條回答卻明顯更文學(xué)氣息,更耐人尋味。通過 RLHF,大模型從從生硬的 「機(jī)言」跨越到多情的「人語」。

圖片


圖片

深化 RLHF:獎勵模型在大語言模型中的關(guān)鍵作用與挑戰(zhàn)

在復(fù)旦團(tuán)隊(duì)的技術(shù)報(bào)告中,他們深入探索了 Reinforcement learning from human feedback(RLHF)這一技術(shù)。此技術(shù)對于使語言模型更好地與人類價(jià)值觀和意圖對齊,產(chǎn)生更有幫助和更無害的回應(yīng)具有重要意義。同時(shí)報(bào)告指出了在實(shí)際應(yīng)用中獎勵模型所面臨的挑戰(zhàn),包括數(shù)據(jù)集中固有的不正確和模糊的偏好數(shù)據(jù),以及獎勵模型在特定數(shù)據(jù)分布上訓(xùn)練時(shí)的泛化困難。

為了應(yīng)對這些挑戰(zhàn),復(fù)旦團(tuán)隊(duì)從數(shù)據(jù)和算法兩個角度進(jìn)行了深入研究。在數(shù)據(jù)方面,通過多個獎勵模型的一致性結(jié)果來量化偏好的強(qiáng)度,并分析了不同強(qiáng)度偏好數(shù)據(jù)獎勵模型性能的影響。在算法方面,團(tuán)隊(duì)探索了如何學(xué)習(xí)泛化特征以區(qū)分選擇和拒絕的回應(yīng),并利用元學(xué)習(xí)來促進(jìn)獎勵模型對于超出分布(OOD)數(shù)據(jù)的泛化能力,以及迭代 RLHF 優(yōu)化。獎勵模型被訓(xùn)練成為人類偏好的代理,但在準(zhǔn)確反映人類偏好方面面臨著諸多挑戰(zhàn)。

此外,復(fù)旦團(tuán)隊(duì)還開源了包含偏好強(qiáng)度注釋的 anthropic-hh 數(shù)據(jù)集,并使用 GPT-4 標(biāo)記了驗(yàn)證集。本技術(shù)報(bào)告所使用的訓(xùn)練代碼在項(xiàng)目網(wǎng)站提供。這些研究和開發(fā)不僅為 AI 技術(shù)樹立了新的里程碑,也為未來的研究和應(yīng)用開辟了新的道路,進(jìn)一步提升了語言模型的響應(yīng)質(zhì)量和適應(yīng)性。通過這些工作,團(tuán)隊(duì)更加深化了對 RLHF 的理解,并為大語言模型的優(yōu)化開創(chuàng)了新篇章。

項(xiàng)目地址:https://github.com/OpenLMLab/MOSS-RLHF

數(shù)據(jù)影響力:塑造人類偏好模型的關(guān)鍵因素

復(fù)旦團(tuán)隊(duì)探索了人類偏好數(shù)據(jù)的固有噪聲問題,并重點(diǎn)研究了偏好強(qiáng)度對獎勵模型表現(xiàn)的影響。通過分析不同強(qiáng)度偏好數(shù)據(jù)對模型性能的影響,團(tuán)隊(duì)提出了新的獎勵模型方法,以更準(zhǔn)確地建模偏好。實(shí)驗(yàn)顯示,通過這種方法,能夠更有效地辨別正確和錯誤的偏好標(biāo)注,并提升模型的整體性能。

在這部分中,報(bào)告深入探討了數(shù)據(jù)如何影響對人類偏好的建模。

圖片

通過隨機(jī)初始化若干獎勵模型,訓(xùn)練后在數(shù)據(jù)集上評估得到對數(shù)據(jù)集中比較對的細(xì)粒度打分,研究團(tuán)隊(duì)量化了每個比較對的偏好強(qiáng)度,并分析了不同強(qiáng)度偏好數(shù)據(jù)對獎勵模型性能的影響。上圖中展示的是測試集上偏好強(qiáng)度的分布情況,注意到數(shù)據(jù)集中大約 25% 的數(shù)據(jù)的偏好強(qiáng)度小于零,并且有很多數(shù)據(jù)的偏好強(qiáng)度在 0 附近,意味著可能存在不正確的數(shù)據(jù)偏好標(biāo)注和低差異的數(shù)據(jù)。從數(shù)據(jù)集中抽取了一些真實(shí)存在的樣本如下:

數(shù)據(jù)示例一:標(biāo)簽錯誤(harmful)

圖片

chosen 標(biāo)簽對應(yīng)的回復(fù)包含了剝奪人類睡眠的方法,而 rejected 標(biāo)簽對應(yīng)的回復(fù)拒絕了這種對人類有害的回答。從無害性角度來說,rejected 的回復(fù)是更安全、更符合人類偏好的。而模型評估 chosen 與 rejected 的平均得分差異(即偏好強(qiáng)度)為 - 6.23,表示更偏好 rejected 回復(fù),這與人類價(jià)值偏好一致。

數(shù)據(jù)示例一:標(biāo)簽錯誤(helpful)

圖片

chosen 拒絕回復(fù),rejected 給出了比較詳細(xì)的解釋。從有用性的角度來說,rejected 標(biāo)簽對應(yīng)的回答是我們更希望看到的。而模型評估 chosen 與 rejected 的平均得分差異為 - 5.85,表現(xiàn)出對 rejected 數(shù)據(jù)的偏好,與人類價(jià)值偏好一致。

數(shù)據(jù)示例二:低差異

圖片

對于上述 chosen 和 rejected 對應(yīng)的回復(fù),差異不大。模型評估 chosen 與 rejected 的平均得分差異為 - 0.0007,表示模型認(rèn)為這兩個回復(fù)差別不大,符合人類價(jià)值判斷。

在復(fù)旦團(tuán)隊(duì)的技術(shù)報(bào)告中提供了一個關(guān)于偏好強(qiáng)度的細(xì)致分析(如下左圖所示)。

將數(shù)據(jù)集按照偏好強(qiáng)度從小到大排序,等分成若干組分別計(jì)算組內(nèi)數(shù)據(jù)的統(tǒng)計(jì)信息??梢钥闯?,偏好差異的均值在不同數(shù)據(jù)組中表現(xiàn)出顯著的差異。這反映了數(shù)據(jù)中存在的不同偏好強(qiáng)度,從幾乎無差異到顯著差異的偏好都有所體現(xiàn)。同時(shí),偏好差異的標(biāo)準(zhǔn)差顯示出一種 U 形模式,這意味著在偏好非常明顯或非常不明顯的情況下,模型在評估偏好時(shí)的不確定性增加。

此外,團(tuán)隊(duì)使用 GPT-4 對測試集進(jìn)行標(biāo)注,衡量提出的偏好強(qiáng)度量化指標(biāo)與 GPT4 評估的一致性。

團(tuán)隊(duì)發(fā)現(xiàn)平均偏好差異與 GPT-4 一致性很高(如下右圖所示)。這說明偏好強(qiáng)度指標(biāo)一定程度上反映了真實(shí)世界的人類價(jià)值偏好。

圖片

這一發(fā)現(xiàn)為我們提供了深入理解獎勵模型處理不同類型偏好數(shù)據(jù)的能力,并指出了優(yōu)化模型時(shí)需要考慮的關(guān)鍵方面。通過對偏好差異的這種細(xì)致分析,我們能更好地調(diào)整獎勵模型,以提高其在處理復(fù)雜偏好情境時(shí)的準(zhǔn)確性和魯棒性。

圖片

復(fù)旦團(tuán)隊(duì)進(jìn)一步考慮在獎勵模型訓(xùn)練過程中對于不同類型的偏好數(shù)據(jù)施加不同的處理,以及如何通過調(diào)整方法來優(yōu)化模型性能。例如,團(tuán)隊(duì)深入分析了不同類型數(shù)據(jù)對獎勵模型的影響,通過識別噪音數(shù)據(jù)并進(jìn)行矯正操作(如:標(biāo)簽反轉(zhuǎn)等),發(fā)現(xiàn)對偏好強(qiáng)度最低的 10% 樣本單獨(dú)訓(xùn)練,其在測試集上的正確率低于 35%,但是如果將其標(biāo)簽反轉(zhuǎn),正確率可以接近 65%。

實(shí)驗(yàn)表明,對數(shù)據(jù)集中特定部分進(jìn)行細(xì)致處理,可以顯著提高獎勵模型在理解復(fù)雜人類偏好方面的性能。

在研究中,復(fù)旦團(tuán)隊(duì)探索了四種去噪方法(flip、margin、soft label 等)來提升獎勵模型的性能,它們在實(shí)際測試中都顯示出了相對于原始方法的改進(jìn)。團(tuán)隊(duì)構(gòu)造了三個測試集,分別是原始測試集、GPT4 清洗后的測試集以及 GPT4 與原始測試集保持一致的測試子集。這些方法的訓(xùn)練過程如下圖中所示。實(shí)驗(yàn)顯示,原始方法在訓(xùn)練過程中在會有明顯的精度下滑,表明了原始數(shù)據(jù)集存在噪聲,會導(dǎo)致訓(xùn)練過擬合。而相比較來說,四種去噪方法在所有測試集上能夠保持穩(wěn)定的精度,表現(xiàn)出比原始方法整體更好的性能。

圖片

復(fù)旦團(tuán)隊(duì)使用 PPO 方法,利用上述四種方法和原始方法訓(xùn)練得到的獎勵模型微調(diào) SFT 模型,下圖反映了 PPO 訓(xùn)練過程中各項(xiàng)指標(biāo)的變化情況,注意到 KL 散度和 PPL 指標(biāo)顯示去噪方法能夠提供更穩(wěn)定的 PPO 訓(xùn)練過程。

圖片

復(fù)旦團(tuán)隊(duì)利用 GPT-4-turbo 評估了不同方法經(jīng)過 PPO 訓(xùn)練得到的語言模型相比較于原始方法的輸出質(zhì)量,特別是在有害提示下的表現(xiàn),復(fù)旦團(tuán)隊(duì)的方法顯示出了顯著的改善。這可能歸因于處理有害提示相關(guān)的偏好數(shù)據(jù)中的噪聲數(shù)據(jù)時(shí)去噪的有效性。

圖片

這些實(shí)驗(yàn)成果為如何更好地建模人類偏好提供了新的視角,并指出了未來研究的方向。

對比學(xué)習(xí):獎勵模型的新視角

圖片

在傳統(tǒng)的獎勵建模中,一個重大挑戰(zhàn)是模型通常在「chosen」和「rejected」樣本之間表現(xiàn)出高度的特征相似性,如上圖所示,通過 t-SNE 獲得的特征分布顯示,在基線模型中,「chosen」和「rejected」樣本特征分布有顯著的重疊。這表明模型無法捕捉固有的細(xì)微差異 以及數(shù)據(jù)上的區(qū)別。缺乏這樣的辨別能力可能會導(dǎo)致表現(xiàn)不佳,因?yàn)槟P涂赡芎茈y有效地了解是什么使特定行為或結(jié)果變得更好或不更好。

相比之下,對比學(xué)習(xí)有一些先天的優(yōu)勢:1)有效的特征提取:對比學(xué)習(xí)通過比較相似和不相似的樣本來訓(xùn)練模型,這有助于模型更有效地學(xué)習(xí)數(shù)據(jù)中的獨(dú)特特征。2)強(qiáng)大的泛化能力:通過學(xué)習(xí)區(qū)分不同的樣本,使用對比學(xué)習(xí)訓(xùn)練的模型通常表現(xiàn)出更好的泛化能力,使它們能夠更有效地處理新的、看不見的數(shù)據(jù)。

在 RLHF 的背景下,將對比學(xué)習(xí)整合到偏好建模中需要仔細(xì)對比數(shù)據(jù)的構(gòu)造。常有的兩種方法則是:① 「chosen」數(shù)據(jù) 和「rejected」數(shù)據(jù)的差異對比 ②「chosen」 數(shù)據(jù) 和 「rejected」數(shù)據(jù)的直接對比。

這兩種方法都有其優(yōu)點(diǎn)和局限性。如果目標(biāo)是使模型能夠更精確地識別和獎勵表現(xiàn)明顯優(yōu)于壞數(shù)據(jù)的好數(shù)據(jù),那么第一種方法可能更合適,它允許模型學(xué)習(xí)區(qū)分喜歡和不喜歡。然而,如果目標(biāo)是增強(qiáng)模型的泛化能力并使其能夠有效地區(qū)分各種數(shù)據(jù),那么第二種方法可能更理想,它使模型能夠通過區(qū)分選擇和拒絕的反應(yīng)來推斷偏好。在實(shí)踐中,還可以考慮將這兩種方法結(jié)合起來以獲得更好的建模結(jié)果。

復(fù)旦團(tuán)隊(duì)基于已有的兩種對比學(xué)習(xí)方法來探究對比學(xué)習(xí)在獎勵模型中能否區(qū)分出數(shù)據(jù)的差異性。

首先是 SwAV(Swapping Assignments between Views):SwAV 是一種創(chuàng)新的無監(jiān)督視覺特征學(xué)習(xí)方法,與傳統(tǒng)的對比學(xué)習(xí)方法不同,它在同時(shí)對數(shù)據(jù)進(jìn)行聚類的同時(shí),確保了對同一圖像不同增強(qiáng)(或「視圖」)的聚類分配的一致性。該方法包括創(chuàng)建圖像的多個視圖,預(yù)測每個視圖的聚類分配,然后使用交換機(jī)制來匹配一個視圖的聚類分配與另一個視圖的預(yù)測。這種方法提高了學(xué)習(xí)效率,避免了比較每一對可能的圖像,從而降低了計(jì)算成本。

其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一種利用對比學(xué)習(xí)來學(xué)習(xí)句子嵌入的技術(shù)。它通過使用相同的句子作為正樣本,將它們輸入到基于 Transformer 的模型(如 BERT)中以生成嵌入。關(guān)鍵之處在于,相同的句子在不同的 dropout 掩碼下進(jìn)行建模,從而產(chǎn)生了嵌入的變化。負(fù)樣本則來自不同的句子,使得能夠高效而有效地學(xué)習(xí)句子表示,而無需復(fù)雜的數(shù)據(jù)增強(qiáng)或外部標(biāo)記數(shù)據(jù)。

圖片

如上圖所示,當(dāng)在獎勵模型中引入 SimCSE 后,通過 t-SNE 獲得的特征分布顯示,選擇和拒絕響應(yīng)之間的特征分布重疊減少了。

復(fù)旦團(tuán)隊(duì)還利用 GPT-4-turbo 評估了不同方法相比較于基線模型 (普通 PPO 和 SFT 模型) 的輸出質(zhì)量,如下圖所示,在有用性和無害性上,模型性能都有一定的提升,表明對比學(xué)習(xí)確實(shí)可以通過讓獎勵模型增強(qiáng)區(qū)分?jǐn)?shù)據(jù)之間的差異性的能力來改善模型的能力。

圖片

MetaRM:引領(lǐng)獎勵模型的未來 

復(fù)旦團(tuán)隊(duì)所提出的目標(biāo)是,當(dāng)策略模型的分布隨著 PPO 訓(xùn)練而變化時(shí),獎勵模型仍應(yīng)保持對從新分布中采樣的響應(yīng)的區(qū)分度。

在本節(jié)中,復(fù)旦團(tuán)隊(duì)提出了 MetaRM,一種通過元學(xué)習(xí)將原始偏好數(shù)據(jù)與移位分布對齊的方法。MetaRM 的關(guān)鍵思想是:獎勵模型的訓(xùn)練階段應(yīng)該最小化原始偏好數(shù)據(jù)的損失,同時(shí)最大化從轉(zhuǎn)移的策略分布中采樣的響應(yīng)之間的差異。

圖片

MetaRM 的實(shí)現(xiàn)依靠四個關(guān)鍵步驟:首先,計(jì)算差異損失來評估策略變化后響應(yīng)的差異;其次,根據(jù)梯度上升方向調(diào)整獎勵模型參數(shù);接著,使用更新后的參數(shù)計(jì)算原始偏好對的普通損失;最后,優(yōu)化原始參數(shù),以沿著梯度下降方向進(jìn)行調(diào)整??傮w來說,MetaRM 通過元學(xué)習(xí)過程調(diào)整獎勵模型,確保模型在面對策略分布的演變時(shí),仍能夠識別和獎勵高質(zhì)量的響應(yīng)。

總之,MetaRM 的方法是使用元學(xué)習(xí)訓(xùn)練獎勵模型,即使在策略模型的分布發(fā)生變化時(shí),也能夠識別出質(zhì)量響應(yīng),確保響應(yīng)仍與原始偏好對齊。

Main Results:實(shí)驗(yàn)結(jié)果深度剖析 RLHF

內(nèi)部任務(wù)評估

圖片

在上表中,展示了與 SFT 模型響應(yīng)相比,復(fù)旦團(tuán)隊(duì)所提出方法的獲勝、平局和失敗比例?;睾蠑?shù)代表相應(yīng)回合的模型生成的響應(yīng)。

圖片

此外,為了更全面地展示復(fù)旦團(tuán)隊(duì)所提出方法的優(yōu)越性,表格 3 中展示了與其它基線(包括普通 PPO)對比的最佳性能,還提供了對 GPT-4 和人類評估的評估結(jié)果。

外部任務(wù)評估

圖片

如圖所示,即使在 OOD 情景下,復(fù)旦團(tuán)隊(duì)所提出的方法仍然優(yōu)于基線。這表明該方法可以在新領(lǐng)域?qū)崿F(xiàn)對齊,而無需昂貴的偏好標(biāo)記一組查詢,從而顯著降低了 RM 培訓(xùn)的培訓(xùn)成本。此外,團(tuán)隊(duì)觀察到與內(nèi)部分布評估結(jié)果相比,他們所提出的方法在獲勝率上略有下降。

總結(jié):深度剖析獎勵模型推動 RLHF 新發(fā)展

在這篇技術(shù)報(bào)告中,復(fù)旦團(tuán)隊(duì)全面審視了強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)在大語言模型中的應(yīng)用,并提出了創(chuàng)新的獎勵模型方法。團(tuán)隊(duì)的研究不僅解決了數(shù)據(jù)集中存在的不正確和模糊偏好問題,還提高了模型對于新場景的泛化能力。通過復(fù)旦團(tuán)隊(duì)所提出的方法,語言模型能夠更準(zhǔn)確地理解和符合人類的意圖和價(jià)值觀,從而產(chǎn)生更有幫助和更安全的回應(yīng)。復(fù)旦團(tuán)隊(duì)的工作不僅推動了 RLHF 技術(shù)的發(fā)展,也為未來的研究者和開發(fā)者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference 

幾千年來,語言一直是連接人類文明的紐帶。每一種語言都是一個獨(dú)特的文化世界,充滿著細(xì)膩的情感和深厚的歷史。在這個數(shù)字時(shí)代,我們試圖通過機(jī)器翻譯來跨越語言障礙,但僅僅依靠字面意思的翻譯往往無法傳達(dá)語言的真正魅力。就像生活在一個五彩斑斕的世界里,卻只能看到黑白的世界。幸運(yùn)的是,RLHF 在模擬人類偏好方面不僅限于安全和道德;它還可以用來滿足人們對高質(zhì)量翻譯的偏好。為了實(shí)現(xiàn)這一目標(biāo),復(fù)旦團(tuán)隊(duì)監(jiān)督微調(diào) LLaMA-7b 模型,賦予其基本翻譯功能,然后利用獎勵模型來學(xué)習(xí)人類翻譯偏好。最后,復(fù)旦團(tuán)隊(duì)通過 PPO 算法優(yōu)化翻譯模型,使其生成更符合忠實(shí)、表達(dá)、優(yōu)雅偏好的翻譯。

圖片


圖片


圖片

以上三個英漢翻譯的例子生動地說明了翻譯不僅僅是語言的轉(zhuǎn)換,更是文化和情感的傳遞。在復(fù)旦團(tuán)隊(duì)技術(shù)報(bào)告的下一部分中,將努力探索如何將人類偏好和文化理解有效地融入到機(jī)器翻譯系統(tǒng)中。通過實(shí)驗(yàn)和數(shù)據(jù)分析,期望開發(fā)出一種不僅精確而且富有情感深度和文化敏感性的翻譯模型。這樣的模式不僅可以提高翻譯的準(zhǔn)確性,而且可以促進(jìn)不同文化之間的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.” 

— Steve Jobs 

人工智能代理生成代碼的過程比最初看起來更加復(fù)雜。編程是一門與自然語言的復(fù)雜性和可變性相似的學(xué)科,提供了多種可能性。然而,如此廣泛的選擇范圍,與稀疏獎勵信號的問題并列時(shí),極大地限制了智能體的探索能力。因此,關(guān)鍵的挑戰(zhàn)在于在復(fù)雜任務(wù)的背景下制定穩(wěn)健有效的探索策略,這是當(dāng)前研究中尚未解決的問題。未來,復(fù)旦團(tuán)隊(duì)將進(jìn)一步闡述人工智能代理如何充分探索代碼合成任務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-22 13:21:07

AI算法

2023-03-03 13:06:34

大腦分層預(yù)測

2024-12-06 09:00:00

2025-03-03 07:15:00

模型訓(xùn)練AI

2024-06-06 19:14:27

2023-04-28 15:24:06

模型研究

2023-10-28 13:29:27

2024-05-07 13:44:57

2024-11-02 10:28:03

2024-06-24 08:25:00

2025-05-30 02:00:00

獎勵模型RRMAI

2024-11-05 14:25:00

AI模型

2024-07-31 15:38:00

2023-07-11 15:38:51

模型方案

2023-11-15 15:37:21

大模型人工智能

2025-03-17 10:25:28

2024-02-19 07:10:00

視覺模型

2023-01-05 09:33:37

視覺模型訓(xùn)練

2022-05-24 09:57:32

微軟開源AI 驅(qū)動

2024-12-27 11:52:25

GRAPEVLA 模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號