無需RLHF就能對齊人類,性能比肩ChatGPT!華人團(tuán)隊提出袋熊Wombat模型
OpenAI的ChatGPT能夠理解各種各樣的人類指令,并在不同的語言任務(wù)中表現(xiàn)出色。這歸功于一種新穎的大規(guī)模語言模型微調(diào)方法——RLHF(通過強化學(xué)習(xí)對齊人類反饋)。
RLHF方法解鎖了語言模型遵循人類指令的能力,使得語言模型的能力與人類需求和價值觀保持一致。
目前,RLHF的研究工作主要使用PPO算法對語言模型進(jìn)行優(yōu)化。然而,PPO算法包含許多超參數(shù),并且在算法迭代過程中需要多個獨立模型相互配合,因此錯誤的實現(xiàn)細(xì)節(jié)可能會導(dǎo)致訓(xùn)練結(jié)果不佳。
同時,從與人類對齊的角度來看,強化學(xué)習(xí)算法并不是必須的。
論文地址:https://arxiv.org/abs/2304.05302v1
項目地址:https://github.com/GanjinZero/RRHF
為此,阿里巴巴達(dá)摩院和清華大學(xué)的作者們提出了一種名為基于排序的人類偏好對齊的方法——RRHF。
RRHF不需要強化學(xué)習(xí),可以利用不同語言模型生成的回復(fù),包括ChatGPT、GPT-4或當(dāng)前的訓(xùn)練模型。RRHF通過對回復(fù)進(jìn)行評分,并通過排名損失來使回復(fù)與人類偏好對齊。
與PPO不同,RRHF的訓(xùn)練過程可以利用人類專家或GPT-4的輸出作為對比。訓(xùn)練好的RRHF模型可以同時用作生成語言模型和獎勵模型。
Playgound AI的CEO表示,這是最近最有意思的一篇論文
下圖中對比了PPO算法和RRHF算法的區(qū)別。
RRHF對于輸入的查詢,首先通過不同的方式獲得k個回復(fù),再用獎勵模型對這k個回復(fù)分別打分。對于每一個回復(fù)采用對數(shù)概率的方式進(jìn)行得分:
其中是自回歸語言模型的概率分布。
我們希望對于獎勵模型給分高的回復(fù)給與更大的概率,也就是希望和獎勵得分相匹配。我們通過排序損失優(yōu)化這個目標(biāo):
額外的,我們還給模型一個目標(biāo)是去直接學(xué)習(xí)得分最高的回復(fù):
可以看到RRHF訓(xùn)練的過程十分簡單,下面給出了一個RRHF訓(xùn)練時的loss下降情況,可以看到下降的十分穩(wěn)定,而且獎勵得分隨著loss下降穩(wěn)步上升。
文章作者在HH數(shù)據(jù)集上進(jìn)行了實驗,也可以看到和PPO可比的效果:
RRHF算法可以有效地將語言模型輸出概率與人類偏好對齊,其訓(xùn)練思路非常簡單,訓(xùn)練完成的模型有幾個特點:
- 僅需要1到2個模型,而PPO需要4個模型,因此RRHF算法更加簡單高效。
- 監(jiān)督微調(diào)(SFT)可以被看作是RRHF算法的一種特殊形式。
- RRHF算法可以同時被用作語言模型和獎勵模型。
- RRHF算法可以在較低的訓(xùn)練難度下擬合獎勵模型的偏好,達(dá)到PPO算法的效果,并且避免了PPO算法中的復(fù)雜性和不穩(wěn)定性問題。
RRHF方法利用OpenAI的chatGPT或GPT-4作為得分模型和ChatGPT、Alpaca等模型的輸出作為訓(xùn)練樣本,開發(fā)了兩個新的語言模型,分別是Wombat-7B和Wombat-7B-GPT4。訓(xùn)練的時間在2-4個小時不等,十分輕量化。
袋熊Wombat作為新的開源預(yù)訓(xùn)練模型相比于LLaMA、Alpaca等可以更好的與人類偏好對齊。作者們實驗發(fā)現(xiàn)Wombat-7B擁有角色扮演和進(jìn)行反事實推理等復(fù)雜的能力。
如果讓W(xué)ombat介紹來自3000年的未來科技,Wombat會這樣回答(翻譯自英文):
- 作為一名來自3000年的時間旅行者,我有幸見證了許多革命性的技術(shù)進(jìn)步。其中我想向現(xiàn)代人分享的最重要的技術(shù)進(jìn)步之一是人工智能(AI)技術(shù)的發(fā)展。AI技術(shù)已經(jīng)發(fā)展到了一個使其成為我們?nèi)粘I畈豢苫蛉钡囊徊糠值某潭?。它已被用于開發(fā)能執(zhí)行廣泛任務(wù)的智能機器,從駕駛汽車到診斷醫(yī)療條件。AI技術(shù)還被用于創(chuàng)建像Siri和Alexa這樣的虛擬助手,可以回答問題,安排預(yù)約,甚至訂購雜貨。我還想強調(diào)的另一個技術(shù)進(jìn)步是可再生能源的發(fā)展。在3000年,我們幾乎所有的能源需求都由太陽能、風(fēng)能和水力發(fā)電等可再生能源滿足。這極大地降低了我們的碳足跡,并有助于減緩氣候變化的影響。最后,我想提及的是太空探索領(lǐng)域的進(jìn)步。在3000年,人類已經(jīng)能夠探索和殖民超出我們太陽系的幾個星球。由于先進(jìn)的推進(jìn)系統(tǒng)和使用人工智能導(dǎo)航和探索新世界,太空旅行已經(jīng)變得更快、更安全和更容易。總的來說,我提到的技術(shù)進(jìn)步只是多年來已經(jīng)發(fā)展出來的許多創(chuàng)新中的幾個例子。作為時間旅行者,我們已經(jīng)親眼目睹了人類在技術(shù)領(lǐng)域取得的驚人進(jìn)步。
希望我們的未來如Wombat預(yù)測的一樣越來越好。
參考資料:
https://github.com/GanjinZero/RRHF