偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RLHF缺陷完整揭示!MIT哈佛等32位學(xué)者聯(lián)合發(fā)布

人工智能 新聞
RLHF區(qū)別于其他強(qiáng)化學(xué)習(xí)方式的關(guān)鍵之處就在于人類反饋。但作者認(rèn)為,人類反饋很容易存在不準(zhǔn)確的情況,因而是缺陷的一大重要來源。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

MIT哈佛斯坦福等機(jī)構(gòu)在內(nèi)的32位科學(xué)家聯(lián)合指出:

被視作ChatGPT成功關(guān)鍵的RLHF,存在缺陷,而且分布在各個(gè)環(huán)節(jié)。

他們調(diào)查翻閱了250篇相關(guān)論文,僅研究正文就長達(dá)18頁,其中7頁描述了具體缺陷。

圖片

此研究一經(jīng)發(fā)出,就受到大量關(guān)注。

有網(wǎng)友表示:這是一次偉大嘗試。所有這些都是為了幫助啟動(dòng) RLHF 的學(xué)術(shù)議程。

圖片

第一作者Casper還給了RLHF一個(gè)「新的解釋」:

Rehashing Lessons from Historical Failures
從歷史的失敗中汲取經(jīng)驗(yàn)

圖片

不僅指出問題,還有解決方案

作者在論文中表示,這項(xiàng)研究主要有三項(xiàng)貢獻(xiàn)。

第一是指出了RLHF在人類反饋、獎(jiǎng)勵(lì)模型和決策三個(gè)主要環(huán)節(jié)中的缺陷。

第二點(diǎn)則是針對(duì)這些問題,提供了具體的解決思路。

第三則是呼吁提高RLHF訓(xùn)練出的模型的透明度,并表示訓(xùn)練信息公開有助于提高企業(yè)責(zé)任感。

我們先來看看作者在各個(gè)環(huán)節(jié)中都指出了哪些具體缺陷。

人類反饋的局限性

RLHF區(qū)別于其他強(qiáng)化學(xué)習(xí)方式的關(guān)鍵之處就在于人類反饋。

但作者認(rèn)為,人類反饋很容易存在不準(zhǔn)確的情況,因而是缺陷的一大重要來源。

在人類反饋環(huán)節(jié)中,作者首先提到的是人類會(huì)產(chǎn)生誤導(dǎo)性評(píng)價(jià)

對(duì)大模型而言,所涉及的專業(yè)領(lǐng)域涵蓋了方方面面,沒有人能做到樣樣精通。

因此需要在不同領(lǐng)域選擇有代表力的人物,并讓他們給出高質(zhì)量的反饋。

但實(shí)際上這項(xiàng)工作是十分困難的。

此外由于人并非完全理性,個(gè)別評(píng)價(jià)者的觀點(diǎn)難免帶有偏見,甚至可能產(chǎn)生毒害。

除了觀念問題引起的「故意」偏差,還有一些偏差是「不小心」的。

由于時(shí)間、注意力的不足,人類犯錯(cuò)誤的情況是很難避免的

而一些帶有迷惑色彩的信息,也可能導(dǎo)致人類被誤導(dǎo)。

而一些對(duì)于有一定困難的任務(wù),人類甚至難以對(duì)其做出評(píng)價(jià)。

論文介紹,不只是做出評(píng)價(jià)時(shí)會(huì)產(chǎn)生偏見,評(píng)價(jià)收集的過程同樣是偏見的一大來源。

收集過程中需要對(duì)評(píng)價(jià)的有用性進(jìn)行評(píng)估,所以評(píng)估人員的主觀想法同樣可能帶來影響。

在這個(gè)過程當(dāng)中,還不可避免地存在成本與質(zhì)量之間的權(quán)衡,影響準(zhǔn)確程度。

除了反饋的內(nèi)容,反饋的形式也存在一定的局限性,這也是出于成本的考慮。

獎(jiǎng)勵(lì)模型和策略也需改善

接著,作者又指出,除了人類的反饋,RLHF本身的獎(jiǎng)勵(lì)模型和決策方式也有需要改進(jìn)之處。

其中獎(jiǎng)勵(lì)函數(shù)可能難以準(zhǔn)確描述價(jià)值判斷,單個(gè)函數(shù)更是無法代表整個(gè)人類社會(huì)的價(jià)值觀。

獎(jiǎng)勵(lì)模型還有泛化能力差的問題,存在獎(jiǎng)勵(lì)機(jī)制被惡意利用的風(fēng)險(xiǎn)。

此外,獎(jiǎng)勵(lì)模型的質(zhì)量也難以評(píng)估,即使能夠?qū)崿F(xiàn)也需要很高的成本。

因?yàn)檎鎸?shí)的獎(jiǎng)勵(lì)函數(shù)通常是不可知的,只能通過策略優(yōu)化進(jìn)行間接評(píng)估。

策略方面,論文指出很難高效地對(duì)策略進(jìn)行優(yōu)化,難以保證策略的魯棒性。

在策略執(zhí)行階段,可能會(huì)出現(xiàn)與獎(jiǎng)勵(lì)階段的差異,此前處理得很好的內(nèi)容突然出現(xiàn)問題。

而策略階段可能使用一些預(yù)訓(xùn)練模型,這同樣可能引入其中所包含的偏見信息。

另外,在對(duì)獎(jiǎng)勵(lì)模型和決策方式進(jìn)行協(xié)同訓(xùn)練時(shí),會(huì)出現(xiàn)漂移問題,在效率和避免過擬合之間找到平衡點(diǎn)也存在困難。

如何解決

根據(jù)論文內(nèi)容我們可以看到,從人類反饋到RLHF自身的獎(jiǎng)勵(lì)模型和決策方式,都存在不同程度的問題。

那么該如何解決呢?作者為我們提供了一些思路。

圖片

比如針對(duì)人類反饋的局限性問題,作者的策略是可以引入另一套AI系統(tǒng)或獎(jiǎng)勵(lì)模型,對(duì)反饋進(jìn)行評(píng)價(jià)。

還有對(duì)過程進(jìn)行監(jiān)督指導(dǎo)、要求提供更精細(xì)化的反饋等措施。

另外兩個(gè)環(huán)節(jié),作者同樣給出了解決方案。

對(duì)于可以獎(jiǎng)勵(lì)模型,把讓AI協(xié)助人類反饋這個(gè)思路調(diào)換一下,讓人類直接監(jiān)督其表現(xiàn)。

而對(duì)于決策方式問題,可以在預(yù)訓(xùn)練階段就對(duì)模型進(jìn)行對(duì)齊,并在訓(xùn)練中加入指導(dǎo)。

作者還指出,除了RLHF,其他AI領(lǐng)域存在的安全問題同樣需要引起重視,并提出了相應(yīng)的對(duì)策。

RLHF is Not All You Need

作者簡介

領(lǐng)銜的兩位作者分別是MIT CSAIL實(shí)驗(yàn)室的Stephen Casper和哈佛大學(xué)的Xander Davies。

Casper的主要研究方向是對(duì)齊算法,此前曾發(fā)表過關(guān)于擴(kuò)散模型評(píng)估的論文并獲得ICML的Spotlight Paper獎(jiǎng)。

Davies的主要研究方向是AI安全,今年有兩篇論文被ICML Workshop收錄。

其他作者當(dāng)中,還可以看到不少華人的名字。

圖片

論文地址:https://arxiv.org/pdf/2307.15217.pdf

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-08-01 14:29:00

研究論文

2021-03-24 15:10:11

算法科學(xué)技術(shù)

2025-07-01 09:07:00

2023-04-27 09:41:47

2021-08-05 09:46:11

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-06-21 15:24:56

機(jī)器人人工智能算法

2020-03-13 09:30:39

區(qū)塊鏈安全應(yīng)用程序

2023-08-01 16:21:44

模型AI

2025-02-20 11:31:31

2011-07-07 14:23:56

HaiPad點(diǎn)心海爾

2025-05-08 09:10:30

2014-10-22 09:06:02

華為

2023-12-16 09:49:18

2018-03-24 20:23:06

華為開發(fā)者開源

2018-03-02 12:17:59

大數(shù)據(jù)

2009-05-13 10:13:30

IntelNokiaoFone

2018-01-29 11:57:25

華為云

2025-03-26 17:29:39

2022-06-06 12:26:03

5G5G-Advance5.5G
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)