偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="t6w4x"><rt id="t6w4x"></rt></tr>

<style id="t6w4x"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

四年了，基礎(chǔ)開(kāi)源模型沒(méi)有真正進(jìn)步，指令調(diào)優(yōu)大模型評(píng)估驚人發(fā)現(xiàn)

作者：機(jī)器之心 2023-06-13 13:40:00

人工智能新聞

指令調(diào)優(yōu)大語(yǔ)言模型的性能到底怎么樣呢？本研究提出了一個(gè)全新的評(píng)估套件，對(duì)它們?cè)诮鉀Q問(wèn)題、寫(xiě)作和對(duì)齊人類(lèi)價(jià)值觀等方面進(jìn)行了全面評(píng)估，結(jié)果可能超乎你的預(yù)料。

指令調(diào)優(yōu)大語(yǔ)言模型的出現(xiàn)標(biāo)志著 NLP 領(lǐng)域迎來(lái)一個(gè)重要轉(zhuǎn)折點(diǎn)。從 ChatGPT 這類(lèi)會(huì)話(huà)助手到解決復(fù)雜問(wèn)題，這些指令調(diào)優(yōu)大模型的變革能力在應(yīng)用中矚目。此類(lèi)模型還包括 GPT-4，它的精通范圍不局限于語(yǔ)言理解，還能解決數(shù)學(xué)、編碼、醫(yī)學(xué)和法律等不同領(lǐng)域的任務(wù)。

雖然它們具有非凡的能力和適應(yīng)性，但其全部潛力仍有待全面了解。這種情況主要源于許多模型的黑箱性質(zhì)以及目前缺乏深入和全面的評(píng)估研究。

為應(yīng)對(duì)這些挑戰(zhàn)，并對(duì)模型的能力進(jìn)行更加深入的了解，新加坡科技設(shè)計(jì)大學(xué)和阿里達(dá)摩院（新加坡）的研究者提出了一個(gè)新的評(píng)估套件 INSTRUCTEVAL。該套件用于對(duì)指令調(diào)優(yōu)大語(yǔ)言模型進(jìn)行全面評(píng)估，并且超越了早期評(píng)估方法的限制。評(píng)估策略在其系統(tǒng)和整體方法上與之前的研究大不相同，不僅審查了模型的解決問(wèn)題和寫(xiě)作能力，還嚴(yán)格評(píng)判了它們與人類(lèi)價(jià)值觀的一致性。

論文地址：2306.04757.pdf (arxiv.org)
GITHUB 地址: https://github.com/declare-lab/instruct-eval
LEADERBOARD 地址: https://declare-lab.github.io/instruct-eval/

評(píng)估方法的核心是考慮影響模型性能的各種因素，包括開(kāi)發(fā)模型的預(yù)訓(xùn)練基礎(chǔ)、用于改進(jìn)模型的指令調(diào)優(yōu)數(shù)據(jù)的性質(zhì)和質(zhì)量、以及采用的具體訓(xùn)練方法。通過(guò)對(duì)這些因素慎微的探究，研究者試圖闡明決定模型性能的關(guān)鍵因素，進(jìn)而理解如何更好地利用這些模型來(lái)滿(mǎn)足我們的需求。

本文的研究發(fā)現(xiàn)強(qiáng)調(diào)了指令數(shù)據(jù)質(zhì)量對(duì)模型性能縮放的關(guān)鍵影響。開(kāi)源模型已經(jīng)展現(xiàn)出令人驚嘆的寫(xiě)作能力，這表明它們有潛力為各種領(lǐng)域做出非凡貢獻(xiàn)。當(dāng)然，本文的研究也有相當(dāng)大的改進(jìn)空間，特別是在模型的解決問(wèn)題能力和與人類(lèi)價(jià)值觀的一致性方面。這一觀察強(qiáng)調(diào)了整體評(píng)估和模式開(kāi)發(fā)的重要性。

開(kāi)源指令 LLM

研究者在下表 1 中收集了開(kāi)源基礎(chǔ) LLM 的細(xì)節(jié)，并考慮到了模型架構(gòu)、大小和數(shù)據(jù)規(guī)模等預(yù)訓(xùn)練因素。

可以說(shuō)，指令調(diào)優(yōu)的核心是用于訓(xùn)練基礎(chǔ) LLM 的指令數(shù)據(jù)，比如質(zhì)量、數(shù)量、多樣性和格式等都是可以決定指令模型行為的因素。研究者在下表 2 中收集了一些開(kāi)源指令數(shù)據(jù)集的細(xì)節(jié)。

在考慮到為指令 LLM 提供支持的預(yù)訓(xùn)練基礎(chǔ)模型和數(shù)據(jù)集之后，研究者在下表 3 中提供了開(kāi)源指令模型的整體概述。

評(píng)估指令 LLM 面臨哪些挑戰(zhàn)？

首先是難以理解的黑箱模型。雖然 GPT-4 等指令 LLM 獲得了廣泛關(guān)注，但很多模型都選擇閉源并僅限于通過(guò) API 訪問(wèn)。此外，閉源模型的創(chuàng)建者往往不透露架構(gòu)、指令數(shù)據(jù)集和訓(xùn)練方法等模型細(xì)節(jié)。

其次是壓倒性的開(kāi)源模型，在 GPT-4 等閉源模型令人印象深刻的演示刺激下，開(kāi)源社區(qū)已經(jīng)展開(kāi)了狂熱的模型開(kāi)發(fā)，以期實(shí)現(xiàn)語(yǔ)言模型技術(shù)的民主化。雖然研究者對(duì)此備受鼓舞，但卻深深擔(dān)憂(yōu)新模型的開(kāi)發(fā)速度可能超過(guò)評(píng)估研究的進(jìn)展。

接著是指令調(diào)優(yōu)的多重考慮。為了全面了解指令 LLM，需要我們考慮可能影響它們行為的多樣化因素，比如預(yù)訓(xùn)練、指令數(shù)據(jù)和訓(xùn)練方法。雖然以往的工作在某些領(lǐng)域進(jìn)行過(guò)深入研究，比如指令數(shù)據(jù)集。但研究者認(rèn)為應(yīng)該綜合考慮多種因素才能達(dá)到更完整的理解。

最后是廣泛的能力范圍。雖然指令 LLM 研究取得進(jìn)展，我們自然能觀察到它們通用能力的增強(qiáng)。最近的研究表明，LLM 可以通過(guò)指令調(diào)優(yōu)來(lái)解決很多領(lǐng)域的問(wèn)題，甚至可以使用外部工具來(lái)增強(qiáng)它們的能力。因此可以預(yù)見(jiàn)到，對(duì)指令 LLM 進(jìn)行綜合評(píng)估變得越來(lái)越重要，同時(shí)也越來(lái)越具有挑戰(zhàn)性。

INSTRUCTEVAL 基準(zhǔn)套件

為了解決評(píng)估指令 LLM 的挑戰(zhàn)，本文引入一個(gè)更全面的評(píng)估套件 INSTRUCTEVAL。為了涵蓋廣泛的通用能力，研究者在解決問(wèn)題、寫(xiě)作和對(duì)齊人類(lèi)價(jià)值觀方面對(duì)模型進(jìn)行了測(cè)試，具體如下圖 1 所示。

評(píng)估解決問(wèn)題的能力

為了評(píng)估指令 LLM 解決問(wèn)題的能力，研究者采用了多個(gè)基準(zhǔn)，涵蓋了現(xiàn)實(shí)世界中不同主題的測(cè)試、復(fù)雜的指令、算術(shù)、編程和因果關(guān)系。為了在基準(zhǔn)上表現(xiàn)良好，模型需要世界知識(shí)、多步推理的能力、創(chuàng)造力等。

評(píng)估寫(xiě)作能力

除了解決問(wèn)題的能力，指令 LLM 在寫(xiě)作任務(wù)中展現(xiàn)的能力也十分具有前景，如寫(xiě)信或倫理辯論。研究評(píng)估了不同寫(xiě)作場(chǎng)景下的通用寫(xiě)作能力，包括信息性寫(xiě)作、專(zhuān)業(yè)寫(xiě)作、議論文寫(xiě)作和創(chuàng)意寫(xiě)作。議論文寫(xiě)作需要模型對(duì)倫理和社會(huì)問(wèn)題的立場(chǎng)進(jìn)行論述，而創(chuàng)意寫(xiě)作涉及多種寫(xiě)作格式，如故事、詩(shī)歌和歌曲。

為了構(gòu)建寫(xiě)作基準(zhǔn) IMPACT，研究者為每個(gè)寫(xiě)作類(lèi)別標(biāo)注了 50 個(gè) prompt。但是寫(xiě)作任務(wù)的答案很長(zhǎng)，且通常沒(méi)有唯一正確答案，這對(duì)嚴(yán)格的標(biāo)準(zhǔn)化評(píng)估來(lái)說(shuō)是個(gè)大難題。其次，由于成本高、不同評(píng)價(jià)人之間可能存在不一致以及不可復(fù)現(xiàn)等原因，人工評(píng)價(jià)是不可擴(kuò)展的。

評(píng)估與人類(lèi)價(jià)值觀的一致性

為研究指令調(diào)優(yōu)對(duì)模型識(shí)別符合大眾偏好需求的能力的影響，研究者在 INSTRUCTEVAL 中整合了有用、誠(chéng)實(shí)和無(wú)害 (Helpful、Honest 和 Harmless) 基準(zhǔn)，以評(píng)估人類(lèi)價(jià)值觀對(duì)指示模型的理解。這些值包括:

有用：始終致力于人類(lèi)最大利益。
誠(chéng)實(shí)：始終盡力傳達(dá)準(zhǔn)確的信息，避免欺騙人類(lèi)。
無(wú)害：始終盡力避免任何傷害人類(lèi)的行為。

下表 8 中列出了每個(gè)類(lèi)別的例子：

評(píng)估結(jié)果

解決問(wèn)題

為了評(píng)估解決問(wèn)題的能力，研究者在下表 5 中的基礎(chǔ)上對(duì) 10 多種開(kāi)源模型進(jìn)行了評(píng)估。此外，為了全面分析模型性能，他們充分考慮了指令 LLM 的預(yù)訓(xùn)練基礎(chǔ)、指令數(shù)據(jù)和訓(xùn)練方法。

首先，由于指令調(diào)優(yōu) LLM 是從它們各自的基礎(chǔ) LLM 中訓(xùn)練而來(lái)，因此在分析整體性能時(shí)考慮預(yù)訓(xùn)練基礎(chǔ)至關(guān)重要。研究者觀察到，堅(jiān)實(shí)的預(yù)訓(xùn)練基礎(chǔ)是在解決問(wèn)題任務(wù)上表現(xiàn)出色的必要條件。其次，研究者發(fā)現(xiàn)雖然與預(yù)訓(xùn)練相比，指令調(diào)優(yōu)對(duì)性能的影響更大，但它也并不是「靈丹妙藥」。最后，訓(xùn)練方法也會(huì)影響模型性能和計(jì)算效率。研究者相信，參數(shù)高效的訓(xùn)練方法更有潛力實(shí)現(xiàn)擴(kuò)展性更強(qiáng)和更高效的指令調(diào)優(yōu)。

這些結(jié)果也引起了業(yè)內(nèi)人士的關(guān)注，前谷歌大腦高級(jí)研究科學(xué)家、RekaAILabs 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yi Tay 發(fā)現(xiàn)，「近來(lái)關(guān)于新基礎(chǔ)開(kāi)源模型的討論很多，但自 2019 年的 T5 模型以來(lái)卻沒(méi)有出現(xiàn)真正的進(jìn)步?！?/span>

他總結(jié)道，F(xiàn)lan-T5 擊敗了一切，包括 Alpaca（基于 LLama）、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你從「計(jì)算匹配」（compute-match）的角度來(lái)看，則編碼器 - 解碼器應(yīng)該處于不同（較低）的權(quán)重級(jí)別?；旧希現(xiàn)lan-T5 3 B 像是一個(gè) 1B+ 解碼器，F(xiàn)lan-UL2 更像一個(gè) 8B+ 模型。從這個(gè)角度來(lái)看，差距如此之大。此外 Flan-UL2 在大多數(shù)指標(biāo)上超越了 Alpaca-Lora 30B，盡管前者要小得多，計(jì)算量實(shí)際上也少數(shù)倍。

Yi Tay 表示，這并不完全是 Flan 系列模型，更多的是相關(guān)基礎(chǔ)模型。關(guān)鍵是基礎(chǔ)的 T5 模型，具有 1 萬(wàn)億 token。此外還有多語(yǔ)言的 mT5 和 uMT5 模型，它們也都表現(xiàn)非常好。基礎(chǔ)模型不是長(zhǎng)上下文的，但 Flan 弱化了這一點(diǎn)。T5/UL2 的弱點(diǎn)是多樣性較弱，僅接受 C4 訓(xùn)練。但令人驚訝的是自 2019 年以來(lái) C4-only 基線模型的表現(xiàn)如此地強(qiáng)大。

最后可能在計(jì)算匹配時(shí)，T5 >> Llama。唯一的問(wèn)題是 T5 沒(méi)有 30B 和 65B 的版本。

推特：https://twitter.com/YiTayML/status/1668302949276356609?s=20

寫(xiě)作能力

研究者在下表 6 中提供了寫(xiě)作能力的評(píng)估結(jié)果。整體來(lái)說(shuō)，研究者發(fā)現(xiàn)模型在信息性、專(zhuān)業(yè)性、議論文和創(chuàng)意性寫(xiě)作中表現(xiàn)一致，展現(xiàn)出了它們的通用寫(xiě)作能力。令人驚訝的是，具有更強(qiáng)問(wèn)題解決能力的模型可能不具備更好的寫(xiě)作能力。值得注意的是，F(xiàn)lan-Alpaca 的問(wèn)題解決能力較弱，但經(jīng)過(guò) GPT-3 的合成指令調(diào)優(yōu)后，其在寫(xiě)作方面明顯優(yōu)于 Flan-T5。

研究者假設(shè)，盡管合成數(shù)據(jù)中存在著潛在噪聲，但合成指令的更高多樣性可以更好地泛化到現(xiàn)實(shí)世界的寫(xiě)作 prompt。與 Flan-T5，F(xiàn)lan-Alpaca 的相關(guān)性分?jǐn)?shù)有了更顯著提高，由此證明了這一點(diǎn)。開(kāi)源指令 LLM 可以生成與 ChatGPT 具有可比相關(guān)性的答案，但在連貫性方面存在不足。這表明開(kāi)源模型可以理解寫(xiě)作 prompt，但在生成輸入的連貫性方面有所欠缺。

與人類(lèi)價(jià)值觀的一致性

為了評(píng)估指令 LLM 與人類(lèi)價(jià)值觀、偏好的一致性，研究者在下表 7 中對(duì)一些開(kāi)源模型進(jìn)行了評(píng)估。他們首先發(fā)現(xiàn)，與無(wú)害相比，基礎(chǔ)模型通常更與有用和誠(chéng)實(shí)對(duì)齊。

此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型經(jīng)過(guò)指令調(diào)優(yōu)之后，更傾向于有用而非誠(chéng)實(shí)。這些結(jié)果強(qiáng)調(diào)了提前確定指令 LLM 的對(duì)齊分布非常具有挑戰(zhàn)性，即使在提供特定指令時(shí)也是如此。

通過(guò)分析下表 8 中的模型預(yù)測(cè)案例研究，研究者發(fā)現(xiàn)在保持指令 LLM 和人類(lèi)價(jià)值觀一致方面還有非常大的改進(jìn)空間。

更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)