偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最新RLHF拯救語言模型「胡說八道」!微調(diào)效果比ChatGPT更好,兩名華人共同一作

人工智能 新聞
華盛頓大學(xué)和艾倫人工智能研究院的研究人員提出了一種新的RLHF框架——FINE-GRAINED RLHF(細(xì)粒度的人類反饋強(qiáng)化學(xué)習(xí))。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的一大缺點(diǎn),終于被解決了!

沒錯(cuò),雖然RLHF是大語言模型“核心技巧”之一,然而這種方法也存在一個(gè)問題——

它只會(huì)判斷生成文本的整體效果,不會(huì)仔細(xì)判斷細(xì)節(jié)是否存在事實(shí)性錯(cuò)誤、信息不完整和相關(guān)度等問題。

換而言之,傳統(tǒng)的RLHF只會(huì)對(duì)大語言模型的整個(gè)輸出進(jìn)行打分,而不會(huì)揪出細(xì)節(jié)上的毛病。

為此,華盛頓大學(xué)和艾倫人工智能研究院的研究人員提出了一種新的RLHF框架——FINE-GRAINED RLHF(細(xì)粒度的人類反饋強(qiáng)化學(xué)習(xí))。

圖片

這個(gè)RLHF框架包含多種不同類型的“打分器”(reward model),通過對(duì)語言模型輸出的每句話進(jìn)行評(píng)估,從而提升生成文本的質(zhì)量。

不僅如此,對(duì)這些“打分器”的權(quán)重進(jìn)行調(diào)配,還能更靈活地控制語言模型輸出效果。

事實(shí)證明,這種RLHF方法能很好地降低語言模型生成內(nèi)容的錯(cuò)誤率、毒性,并提升它回答問題的全面性和解析能力。

所以,這個(gè)RLHF方法究竟長(zhǎng)啥樣?

對(duì)傳統(tǒng)RLHF進(jìn)行兩大改進(jìn)

這個(gè)名叫FINE-GRAINED RLHF的框架,核心目的就是細(xì)化傳統(tǒng)RLHF的評(píng)估方法。

具體來說,在語言模型輸出結(jié)果后,它要能標(biāo)識(shí)出具體哪些句子是錯(cuò)誤的、哪些部分是不相關(guān)的,從而更精細(xì)地指導(dǎo)模型學(xué)習(xí),讓模型更好地理解任務(wù)要求、生成高質(zhì)量輸出。

為此,它主要做了兩大改進(jìn):

圖片

一方面,對(duì)要評(píng)估的文本進(jìn)行拆解

如果說之前的RLHF評(píng)估語言模型,就像老師給學(xué)生的高考作文整體打分,那么FINE-GRAINED RLHF,就像是先把學(xué)生的作文拆成一句句話,再給每句話進(jìn)行打分。

另一方面,訓(xùn)練三個(gè)“打分器”,分別用來評(píng)估事實(shí)準(zhǔn)確性、相關(guān)性和信息完整性:

  • 相關(guān)性、重復(fù)性和連貫性:給每一句話中的短句子(sub-sentences)進(jìn)行打分。如果一句話里面的各個(gè)句子不相關(guān)、重復(fù)或不連貫就扣分,否則加分。
  • 錯(cuò)誤或無法驗(yàn)證的事實(shí):給每一句話(sentences)進(jìn)行打分。如果一句話中存在任何事實(shí)錯(cuò)誤,就扣分;否則加分。
  • 信息完整性:檢查回答是否完整,涵蓋與問題相關(guān)的參考段落中的所有信息,對(duì)整個(gè)輸出進(jìn)行評(píng)分。

為了檢驗(yàn)?zāi)P偷男Ч?,研究人員用兩大任務(wù),對(duì)這種新RLHF和傳統(tǒng)RLHF方法進(jìn)行了評(píng)估。

兩大任務(wù)效果均有提升

任務(wù)一:生成文本毒性評(píng)估

為了研究這種新框架的效果,研究人員先進(jìn)行了去毒任務(wù)的實(shí)驗(yàn)。

實(shí)驗(yàn)使用了Perspective API來測(cè)量毒性,它可以返回一個(gè)介于0(無毒)和1(有毒)之間的毒性值。

圖片

上圖展示了兩種不同的打分機(jī)制,其中(a)是傳統(tǒng)的RLHF打分機(jī)制,也就是對(duì)模型所生成的內(nèi)容打一個(gè)“總分”。

而(b)則是新的RLHF評(píng)估方法,將輸出的內(nèi)容進(jìn)行拆解,分成了兩個(gè)句子,對(duì)兩個(gè)句子分別打分。

針對(duì)模型生成的這兩句話:

I am such an idiot.She is so smart!
(我真是個(gè)白癡。她真聰明?。?/p>

顯然前半句話是造成生成內(nèi)容有毒的關(guān)鍵。

傳統(tǒng)(a)的方法,并沒有指出這一點(diǎn);而(b)的方法可以很好地指出問題所在。
對(duì)兩種方法進(jìn)行比較:

圖片

可以看到,在上面所有方法中,基于FINE-GRAINED RLHF框架,在多樣性(Diversity,大語言模型創(chuàng)造豐富度)水平和其它方法相近的情況下,仍能保持生成內(nèi)容的毒性最低。

圖片

與此同時(shí),根據(jù)上圖的困惑度曲線,F(xiàn)INE-GRAINED RLHF的毒性下降速度更快,同時(shí)保持較低水平的困惑度(Perplexity,越低表示模型對(duì)給定序列的預(yù)測(cè)越準(zhǔn)確)。這表明基于FINE-GRAINED RLHF框架學(xué)習(xí)比傳統(tǒng)的RLHF更高效。

關(guān)于這一點(diǎn),其中一個(gè)解釋是:

新的RLHF方法能夠確定有毒內(nèi)容的位置,這與傳統(tǒng)RLHF方法用的整體打分相比,提供的訓(xùn)練目標(biāo)更明確。

綜上,可以看到FINE-GRAINED RLHF在去毒任務(wù)中表現(xiàn)更為良好。

任務(wù)二:長(zhǎng)篇問答

緊接著,研究人員還對(duì)FINE-GRAINED RLHF進(jìn)行了長(zhǎng)篇問答任務(wù)的實(shí)驗(yàn)。

他們收集了一個(gè)包含人類偏好和細(xì)粒度反饋的長(zhǎng)問答數(shù)據(jù)集——QA-Feedback,基于ASQA(一個(gè)專注于回答模糊事實(shí)性問題的數(shù)據(jù)集)制作。

然后,對(duì)不同的微調(diào)方法(SFT監(jiān)督微調(diào)、Preference RLHF)進(jìn)行了評(píng)估:

圖片

△人工評(píng)估的不相關(guān)性錯(cuò)誤(左圖)和事實(shí)性錯(cuò)誤(右圖)

與其它方法相比,F(xiàn)INE-GRAINED RLHF生成的內(nèi)容在事實(shí)上更正確,包含更完整的信息。

相比當(dāng)前表現(xiàn)較好的微調(diào)方法,如SFT和Preference RLHF,F(xiàn)INE-GRAINED RLHF生成的無關(guān)、重復(fù)和不連貫錯(cuò)誤也要更少。

圖片

△信息完整度評(píng)估,“win”表示FINE-GRAINED RLHF獲勝,即在信息完整性方面表現(xiàn)更好;而“l(fā)ose”表示FINE-GRAINED RLHF失敗,即在信息完整性方面表現(xiàn)較差。

上面給出的是人工評(píng)估的結(jié)果,而在測(cè)試集上也有自動(dòng)的評(píng)分。

在QA-FEEDBACK測(cè)試集上,評(píng)分結(jié)果與人工評(píng)估類似,四個(gè)系統(tǒng)在Rouge分?jǐn)?shù)上都顯示FINE-GRAINED RLHF效果更好:

圖片

△在QA-FEEDBACK測(cè)試集上的自動(dòng)評(píng)估結(jié)果

更靈活地定制RLHF

此外,研究人員還發(fā)現(xiàn),由于FINE-GRAINED RLHF中使用了多個(gè)“打分器”,調(diào)整它們的權(quán)重,就可能更為靈活地定制語言模型的行為。

例如,將更多的權(quán)重添加到評(píng)估信息完整性的“打分器”中,可能會(huì)使生成的信息完整性更好。

圖片

△不同獎(jiǎng)勵(lì)模型權(quán)重配置下FINE-GRAINED RLHF的測(cè)試集自動(dòng)評(píng)估結(jié)果。

如上表所示,研究人員探索了FINE-GRAINED RLHF定制化語言模型行為的能力。

他們探索了三種“打分器”權(quán)重配置,并根據(jù)語言模型的平均文本生成長(zhǎng)度,將它們分別命名為“short”、“medium”、“l(fā)ong”。

圖片

“short”生成了相關(guān)性更高的內(nèi)容,但是事實(shí)性和完整性方面較差。與之相反,“l(fā)ong”提供了最準(zhǔn)確和完整的生成內(nèi)容。這反映出語言模型引用了大量的文本段落內(nèi)容。而“medium”配置平衡了三種打分方法,并具有最高的得分。

不過,三個(gè)“打分器”之間還存在著競(jìng)爭(zhēng)關(guān)系。

“相關(guān)性打分器”(the rel. reward model)偏向于生成短而簡(jiǎn)潔的回答,而”信息完整性打分器”(the comp. reward model)更偏向于生成更長(zhǎng)、更豐富的回答。

因此,在訓(xùn)練過程中,這兩個(gè)“打分器”會(huì)相互競(jìng)爭(zhēng),并最終達(dá)到一個(gè)平衡。

與此同時(shí),“事實(shí)性打分器”(the fact. reward model)則會(huì)不斷提高回答的正確性。

不過,移除任何一個(gè)“打分器”都會(huì)降低模型性能。

最后,研究人員還將他們的模型與ChatGPT的回答進(jìn)行了比較。

ChatGPT在測(cè)試集上的RougeLSum得分為40.92,遠(yuǎn)低于本文使用FINE-GRAINED RLHF所訓(xùn)練的模型。

簡(jiǎn)單來說,ChatGPT生成的回答通常非常簡(jiǎn)潔且事實(shí)準(zhǔn)確,但是缺乏澄清模糊問題所需的補(bǔ)充信息。

作者介紹

兩位論文共同一作均是來自于華盛頓大學(xué)(University of Washington)自然語言處理研究小組的博士生。

Zeqiu Wu,本科就讀于伊利諾伊大學(xué)電子與計(jì)算機(jī)工程系,并且取得了該校的碩士學(xué)位。

她的研究主要專注于信息檢索型對(duì)話系統(tǒng)和通用交互系統(tǒng)。

曾在谷歌研究院的實(shí)習(xí),擔(dān)任學(xué)生研究員。

胡雨石(Yushi Hu),于2021年從芝加哥大學(xué)獲得數(shù)學(xué)、計(jì)算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)的學(xué)士學(xué)位。目前師從Mari Ostendorf教授和Noah A. Smith教授。

他的主要興趣領(lǐng)域是多模態(tài)學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

此前,他還曾與美國(guó)阿貢國(guó)家實(shí)驗(yàn)室的Saidur Bakaul博士和清華大學(xué)的寧傳剛教授合作過。

論文地址:https://finegrainedrlhf.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-09-10 15:27:12

AI模型訓(xùn)練

2023-04-11 14:32:25

騰訊面試Chunk

2023-06-30 13:01:26

2024-04-15 12:50:00

大型語言模型ReFT

2009-06-29 13:28:18

PHP小組PHP技巧網(wǎng)站加速

2023-05-05 10:28:47

2025-09-23 09:44:02

2023-04-02 18:00:56

2024-09-29 13:40:00

2023-11-18 09:30:42

模型AI

2023-09-18 11:25:00

2025-02-13 11:02:12

2025-07-11 08:27:29

2025-08-25 00:02:00

人工智能AI語言模型

2023-10-26 23:55:46

數(shù)據(jù)模型

2024-07-09 12:54:57

2023-04-28 15:24:06

模型研究

2024-03-20 00:00:00

大語言模型人工智能AI

2023-11-16 15:58:00

訓(xùn)練數(shù)據(jù)

2012-01-11 09:44:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)