偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需RLHF就能對齊人類,性能比肩ChatGPT!華人團(tuán)隊提出袋熊Wombat模型

人工智能 新聞
最近,來自阿里達(dá)摩院和清華大學(xué)的研究人員提出了一種名為RRHF的對齊方法,無需強化學(xué)習(xí)即可用于訓(xùn)練語言模型,效果比肩RLHF。

OpenAI的ChatGPT能夠理解各種各樣的人類指令,并在不同的語言任務(wù)中表現(xiàn)出色。這歸功于一種新穎的大規(guī)模語言模型微調(diào)方法——RLHF(通過強化學(xué)習(xí)對齊人類反饋)。

RLHF方法解鎖了語言模型遵循人類指令的能力,使得語言模型的能力與人類需求和價值觀保持一致。

目前,RLHF的研究工作主要使用PPO算法對語言模型進(jìn)行優(yōu)化。然而,PPO算法包含許多超參數(shù),并且在算法迭代過程中需要多個獨立模型相互配合,因此錯誤的實現(xiàn)細(xì)節(jié)可能會導(dǎo)致訓(xùn)練結(jié)果不佳。

同時,從與人類對齊的角度來看,強化學(xué)習(xí)算法并不是必須的。

圖片

論文地址:https://arxiv.org/abs/2304.05302v1

項目地址:https://github.com/GanjinZero/RRHF

為此,阿里巴巴達(dá)摩院和清華大學(xué)的作者們提出了一種名為基于排序的人類偏好對齊的方法——RRHF。

RRHF不需要強化學(xué)習(xí),可以利用不同語言模型生成的回復(fù),包括ChatGPT、GPT-4或當(dāng)前的訓(xùn)練模型。RRHF通過對回復(fù)進(jìn)行評分,并通過排名損失來使回復(fù)與人類偏好對齊。

與PPO不同,RRHF的訓(xùn)練過程可以利用人類專家或GPT-4的輸出作為對比。訓(xùn)練好的RRHF模型可以同時用作生成語言模型和獎勵模型。

圖片

Playgound AI的CEO表示,這是最近最有意思的一篇論文

下圖中對比了PPO算法和RRHF算法的區(qū)別。

圖片

RRHF對于輸入的查詢,首先通過不同的方式獲得k個回復(fù),再用獎勵模型對這k個回復(fù)分別打分。對于每一個回復(fù)采用對數(shù)概率的方式進(jìn)行得分:

圖片

其中是自回歸語言模型的概率分布。

我們希望對于獎勵模型給分高的回復(fù)給與更大的概率,也就是希望和獎勵得分相匹配。我們通過排序損失優(yōu)化這個目標(biāo):

圖片

額外的,我們還給模型一個目標(biāo)是去直接學(xué)習(xí)得分最高的回復(fù):

可以看到RRHF訓(xùn)練的過程十分簡單,下面給出了一個RRHF訓(xùn)練時的loss下降情況,可以看到下降的十分穩(wěn)定,而且獎勵得分隨著loss下降穩(wěn)步上升。

圖片

文章作者在HH數(shù)據(jù)集上進(jìn)行了實驗,也可以看到和PPO可比的效果:

圖片

RRHF算法可以有效地將語言模型輸出概率與人類偏好對齊,其訓(xùn)練思路非常簡單,訓(xùn)練完成的模型有幾個特點:

  • 僅需要1到2個模型,而PPO需要4個模型,因此RRHF算法更加簡單高效。
  • 監(jiān)督微調(diào)(SFT)可以被看作是RRHF算法的一種特殊形式。
  • RRHF算法可以同時被用作語言模型和獎勵模型。
  • RRHF算法可以在較低的訓(xùn)練難度下擬合獎勵模型的偏好,達(dá)到PPO算法的效果,并且避免了PPO算法中的復(fù)雜性和不穩(wěn)定性問題。

RRHF方法利用OpenAI的chatGPT或GPT-4作為得分模型和ChatGPT、Alpaca等模型的輸出作為訓(xùn)練樣本,開發(fā)了兩個新的語言模型,分別是Wombat-7BWombat-7B-GPT4。訓(xùn)練的時間在2-4個小時不等,十分輕量化。

袋熊Wombat作為新的開源預(yù)訓(xùn)練模型相比于LLaMA、Alpaca等可以更好的與人類偏好對齊。作者們實驗發(fā)現(xiàn)Wombat-7B擁有角色扮演和進(jìn)行反事實推理等復(fù)雜的能力。

如果讓W(xué)ombat介紹來自3000年的未來科技,Wombat會這樣回答(翻譯自英文):

  • 作為一名來自3000年的時間旅行者,我有幸見證了許多革命性的技術(shù)進(jìn)步。其中我想向現(xiàn)代人分享的最重要的技術(shù)進(jìn)步之一是人工智能(AI)技術(shù)的發(fā)展。AI技術(shù)已經(jīng)發(fā)展到了一個使其成為我們?nèi)粘I畈豢苫蛉钡囊徊糠值某潭?。它已被用于開發(fā)能執(zhí)行廣泛任務(wù)的智能機器,從駕駛汽車到診斷醫(yī)療條件。AI技術(shù)還被用于創(chuàng)建像Siri和Alexa這樣的虛擬助手,可以回答問題,安排預(yù)約,甚至訂購雜貨。我還想強調(diào)的另一個技術(shù)進(jìn)步是可再生能源的發(fā)展。在3000年,我們幾乎所有的能源需求都由太陽能、風(fēng)能和水力發(fā)電等可再生能源滿足。這極大地降低了我們的碳足跡,并有助于減緩氣候變化的影響。最后,我想提及的是太空探索領(lǐng)域的進(jìn)步。在3000年,人類已經(jīng)能夠探索和殖民超出我們太陽系的幾個星球。由于先進(jìn)的推進(jìn)系統(tǒng)和使用人工智能導(dǎo)航和探索新世界,太空旅行已經(jīng)變得更快、更安全和更容易。總的來說,我提到的技術(shù)進(jìn)步只是多年來已經(jīng)發(fā)展出來的許多創(chuàng)新中的幾個例子。作為時間旅行者,我們已經(jīng)親眼目睹了人類在技術(shù)領(lǐng)域取得的驚人進(jìn)步。

希望我們的未來如Wombat預(yù)測的一樣越來越好。

圖片

參考資料:

https://github.com/GanjinZero/RRHF

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-02-07 12:13:03

AI模型

2023-11-08 13:20:00

模型數(shù)據(jù)

2023-07-11 15:38:51

模型方案

2024-06-17 07:47:00

2023-07-20 13:11:54

語言模型助手

2023-01-31 10:13:29

AI模型

2023-08-22 13:21:07

AI算法

2023-07-29 13:17:53

AI模型

2024-04-02 08:46:53

2024-01-15 16:41:00

模型數(shù)據(jù)

2023-06-13 13:40:00

模型指令

2025-02-17 12:30:00

2023-06-14 15:20:37

模型訓(xùn)練

2023-08-04 13:42:41

2023-06-16 14:11:00

研究監(jiān)督

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-05-07 22:51:24

ChatGPTRLHF語言模型

2021-07-20 10:16:24

人工智能自然語言技術(shù)

2025-03-10 07:00:00

阿里開源QwQ-32B

2023-07-27 13:58:19

點贊
收藏

51CTO技術(shù)棧公眾號