偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

無需RLHF就能對齊人類，性能比肩ChatGPT！華人團(tuán)隊提出袋熊Wombat模型

作者：新智元 2023-04-28 15:24:06

人工智能新聞

最近，來自阿里達(dá)摩院和清華大學(xué)的研究人員提出了一種名為RRHF的對齊方法，無需強(qiáng)化學(xué)習(xí)即可用于訓(xùn)練語言模型，效果比肩RLHF。

OpenAI的ChatGPT能夠理解各種各樣的人類指令，并在不同的語言任務(wù)中表現(xiàn)出色。這歸功于一種新穎的大規(guī)模語言模型微調(diào)方法——RLHF（通過強(qiáng)化學(xué)習(xí)對齊人類反饋）。

RLHF方法解鎖了語言模型遵循人類指令的能力，使得語言模型的能力與人類需求和價值觀保持一致。

目前，RLHF的研究工作主要使用PPO算法對語言模型進(jìn)行優(yōu)化。然而，PPO算法包含許多超參數(shù)，并且在算法迭代過程中需要多個獨立模型相互配合，因此錯誤的實現(xiàn)細(xì)節(jié)可能會導(dǎo)致訓(xùn)練結(jié)果不佳。

同時，從與人類對齊的角度來看，強(qiáng)化學(xué)習(xí)算法并不是必須的。

論文地址：https://arxiv.org/abs/2304.05302v1

項目地址：https://github.com/GanjinZero/RRHF

為此，阿里巴巴達(dá)摩院和清華大學(xué)的作者們提出了一種名為基于排序的人類偏好對齊的方法——RRHF。

RRHF不需要強(qiáng)化學(xué)習(xí)，可以利用不同語言模型生成的回復(fù)，包括ChatGPT、GPT-4或當(dāng)前的訓(xùn)練模型。RRHF通過對回復(fù)進(jìn)行評分，并通過排名損失來使回復(fù)與人類偏好對齊。

與PPO不同，RRHF的訓(xùn)練過程可以利用人類專家或GPT-4的輸出作為對比。訓(xùn)練好的RRHF模型可以同時用作生成語言模型和獎勵模型。

Playgound AI的CEO表示，這是最近最有意思的一篇論文

下圖中對比了PPO算法和RRHF算法的區(qū)別。

RRHF對于輸入的查詢，首先通過不同的方式獲得k個回復(fù)，再用獎勵模型對這k個回復(fù)分別打分。對于每一個回復(fù)采用對數(shù)概率的方式進(jìn)行得分：

其中是自回歸語言模型的概率分布。

我們希望對于獎勵模型給分高的回復(fù)給與更大的概率，也就是希望和獎勵得分相匹配。我們通過排序損失優(yōu)化這個目標(biāo)：

額外的，我們還給模型一個目標(biāo)是去直接學(xué)習(xí)得分最高的回復(fù)：

可以看到RRHF訓(xùn)練的過程十分簡單，下面給出了一個RRHF訓(xùn)練時的loss下降情況，可以看到下降的十分穩(wěn)定，而且獎勵得分隨著loss下降穩(wěn)步上升。

文章作者在HH數(shù)據(jù)集上進(jìn)行了實驗，也可以看到和PPO可比的效果：

RRHF算法可以有效地將語言模型輸出概率與人類偏好對齊，其訓(xùn)練思路非常簡單，訓(xùn)練完成的模型有幾個特點：

僅需要1到2個模型，而PPO需要4個模型，因此RRHF算法更加簡單高效。
監(jiān)督微調(diào)（SFT）可以被看作是RRHF算法的一種特殊形式。
RRHF算法可以同時被用作語言模型和獎勵模型。
RRHF算法可以在較低的訓(xùn)練難度下擬合獎勵模型的偏好，達(dá)到PPO算法的效果，并且避免了PPO算法中的復(fù)雜性和不穩(wěn)定性問題。

RRHF方法利用OpenAI的chatGPT或GPT-4作為得分模型和ChatGPT、Alpaca等模型的輸出作為訓(xùn)練樣本，開發(fā)了兩個新的語言模型，分別是Wombat-7B和Wombat-7B-GPT4。訓(xùn)練的時間在2-4個小時不等，十分輕量化。

袋熊Wombat作為新的開源預(yù)訓(xùn)練模型相比于LLaMA、Alpaca等可以更好的與人類偏好對齊。作者們實驗發(fā)現(xiàn)Wombat-7B擁有角色扮演和進(jìn)行反事實推理等復(fù)雜的能力。

如果讓W(xué)ombat介紹來自3000年的未來科技，Wombat會這樣回答（翻譯自英文）：

作為一名來自3000年的時間旅行者，我有幸見證了許多革命性的技術(shù)進(jìn)步。其中我想向現(xiàn)代人分享的最重要的技術(shù)進(jìn)步之一是人工智能（AI）技術(shù)的發(fā)展。AI技術(shù)已經(jīng)發(fā)展到了一個使其成為我們?nèi)粘Ｉ畈豢苫蛉钡囊徊糠值某潭?。它已被用于開發(fā)能執(zhí)行廣泛任務(wù)的智能機(jī)器，從駕駛汽車到診斷醫(yī)療條件。AI技術(shù)還被用于創(chuàng)建像Siri和Alexa這樣的虛擬助手，可以回答問題，安排預(yù)約，甚至訂購雜貨。我還想強(qiáng)調(diào)的另一個技術(shù)進(jìn)步是可再生能源的發(fā)展。在3000年，我們幾乎所有的能源需求都由太陽能、風(fēng)能和水力發(fā)電等可再生能源滿足。這極大地降低了我們的碳足跡，并有助于減緩氣候變化的影響。最后，我想提及的是太空探索領(lǐng)域的進(jìn)步。在3000年，人類已經(jīng)能夠探索和殖民超出我們太陽系的幾個星球。由于先進(jìn)的推進(jìn)系統(tǒng)和使用人工智能導(dǎo)航和探索新世界，太空旅行已經(jīng)變得更快、更安全和更容易?？偟膩碚f，我提到的技術(shù)進(jìn)步只是多年來已經(jīng)發(fā)展出來的許多創(chuàng)新中的幾個例子。作為時間旅行者，我們已經(jīng)親眼目睹了人類在技術(shù)領(lǐng)域取得的驚人進(jìn)步。

希望我們的未來如Wombat預(yù)測的一樣越來越好。

參考資料：

https://github.com/GanjinZero/RRHF

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="sahem"></style>

<sub id="sahem"><p id="sahem"></p></sub>

<p id="sahem"></p>

<blockquote id="sahem"></blockquote>

<button id="sahem"><th id="sahem"></th></button>

<sub id="sahem"></sub>