偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

四年了,基礎(chǔ)開(kāi)源模型沒(méi)有真正進(jìn)步,指令調(diào)優(yōu)大模型評(píng)估驚人發(fā)現(xiàn)

人工智能 新聞
指令調(diào)優(yōu)大語(yǔ)言模型的性能到底怎么樣呢?本研究提出了一個(gè)全新的評(píng)估套件,對(duì)它們?cè)诮鉀Q問(wèn)題、寫(xiě)作和對(duì)齊人類(lèi)價(jià)值觀等方面進(jìn)行了全面評(píng)估,結(jié)果可能超乎你的預(yù)料。

指令調(diào)優(yōu)大語(yǔ)言模型的出現(xiàn)標(biāo)志著 NLP 領(lǐng)域迎來(lái)一個(gè)重要轉(zhuǎn)折點(diǎn)。從 ChatGPT 這類(lèi)會(huì)話(huà)助手到解決復(fù)雜問(wèn)題,這些指令調(diào)優(yōu)大模型的變革能力在應(yīng)用中矚目。此類(lèi)模型還包括 GPT-4,它的精通范圍不局限于語(yǔ)言理解,還能解決數(shù)學(xué)、編碼、醫(yī)學(xué)和法律等不同領(lǐng)域的任務(wù)。

雖然它們具有非凡的能力和適應(yīng)性,但其全部潛力仍有待全面了解。這種情況主要源于許多模型的黑箱性質(zhì)以及目前缺乏深入和全面的評(píng)估研究。

為應(yīng)對(duì)這些挑戰(zhàn),并對(duì)模型的能力進(jìn)行更加深入的了解,新加坡科技設(shè)計(jì)大學(xué)和阿里達(dá)摩院(新加坡)的研究者提出了一個(gè)新的評(píng)估套件 INSTRUCTEVAL。該套件用于對(duì)指令調(diào)優(yōu)大語(yǔ)言模型進(jìn)行全面評(píng)估,并且超越了早期評(píng)估方法的限制。評(píng)估策略在其系統(tǒng)和整體方法上與之前的研究大不相同,不僅審查了模型的解決問(wèn)題和寫(xiě)作能力,還嚴(yán)格評(píng)判了它們與人類(lèi)價(jià)值觀的一致性。


圖片

  • 論文地址:2306.04757.pdf (arxiv.org)
  • GITHUB 地址: https://github.com/declare-lab/instruct-eval
  • LEADERBOARD 地址: https://declare-lab.github.io/instruct-eval/ 

評(píng)估方法的核心是考慮影響模型性能的各種因素,包括開(kāi)發(fā)模型的預(yù)訓(xùn)練基礎(chǔ)、用于改進(jìn)模型的指令調(diào)優(yōu)數(shù)據(jù)的性質(zhì)和質(zhì)量、以及采用的具體訓(xùn)練方法。通過(guò)對(duì)這些因素慎微的探究,研究者試圖闡明決定模型性能的關(guān)鍵因素,進(jìn)而理解如何更好地利用這些模型來(lái)滿(mǎn)足我們的需求。

本文的研究發(fā)現(xiàn)強(qiáng)調(diào)了指令數(shù)據(jù)質(zhì)量對(duì)模型性能縮放的關(guān)鍵影響。開(kāi)源模型已經(jīng)展現(xiàn)出令人驚嘆的寫(xiě)作能力,這表明它們有潛力為各種領(lǐng)域做出非凡貢獻(xiàn)。當(dāng)然,本文的研究也有相當(dāng)大的改進(jìn)空間,特別是在模型的解決問(wèn)題能力和與人類(lèi)價(jià)值觀的一致性方面。這一觀察強(qiáng)調(diào)了整體評(píng)估和模式開(kāi)發(fā)的重要性。

開(kāi)源指令 LLM

研究者在下表 1 中收集了開(kāi)源基礎(chǔ) LLM 的細(xì)節(jié),并考慮到了模型架構(gòu)、大小和數(shù)據(jù)規(guī)模等預(yù)訓(xùn)練因素。

圖片

可以說(shuō),指令調(diào)優(yōu)的核心是用于訓(xùn)練基礎(chǔ) LLM 的指令數(shù)據(jù),比如質(zhì)量、數(shù)量、多樣性和格式等都是可以決定指令模型行為的因素。研究者在下表 2 中收集了一些開(kāi)源指令數(shù)據(jù)集的細(xì)節(jié)。


圖片

在考慮到為指令 LLM 提供支持的預(yù)訓(xùn)練基礎(chǔ)模型和數(shù)據(jù)集之后,研究者在下表 3 中提供了開(kāi)源指令模型的整體概述。


圖片

評(píng)估指令 LLM 面臨哪些挑戰(zhàn)?

首先是難以理解的黑箱模型。雖然 GPT-4 等指令 LLM 獲得了廣泛關(guān)注,但很多模型都選擇閉源并僅限于通過(guò) API 訪問(wèn)。此外,閉源模型的創(chuàng)建者往往不透露架構(gòu)、指令數(shù)據(jù)集和訓(xùn)練方法等模型細(xì)節(jié)。

其次是壓倒性的開(kāi)源模型,在 GPT-4 等閉源模型令人印象深刻的演示刺激下,開(kāi)源社區(qū)已經(jīng)展開(kāi)了狂熱的模型開(kāi)發(fā),以期實(shí)現(xiàn)語(yǔ)言模型技術(shù)的民主化。雖然研究者對(duì)此備受鼓舞,但卻深深擔(dān)憂(yōu)新模型的開(kāi)發(fā)速度可能超過(guò)評(píng)估研究的進(jìn)展。

接著是指令調(diào)優(yōu)的多重考慮。為了全面了解指令 LLM,需要我們考慮可能影響它們行為的多樣化因素,比如預(yù)訓(xùn)練、指令數(shù)據(jù)和訓(xùn)練方法。雖然以往的工作在某些領(lǐng)域進(jìn)行過(guò)深入研究,比如指令數(shù)據(jù)集。但研究者認(rèn)為應(yīng)該綜合考慮多種因素才能達(dá)到更完整的理解。

最后是廣泛的能力范圍。雖然指令 LLM 研究取得進(jìn)展,我們自然能觀察到它們通用能力的增強(qiáng)。最近的研究表明,LLM 可以通過(guò)指令調(diào)優(yōu)來(lái)解決很多領(lǐng)域的問(wèn)題,甚至可以使用外部工具來(lái)增強(qiáng)它們的能力。因此可以預(yù)見(jiàn)到,對(duì)指令 LLM 進(jìn)行綜合評(píng)估變得越來(lái)越重要,同時(shí)也越來(lái)越具有挑戰(zhàn)性。

 INSTRUCTEVAL 基準(zhǔn)套件

為了解決評(píng)估指令 LLM 的挑戰(zhàn),本文引入一個(gè)更全面的評(píng)估套件 INSTRUCTEVAL。為了涵蓋廣泛的通用能力,研究者在解決問(wèn)題、寫(xiě)作和對(duì)齊人類(lèi)價(jià)值觀方面對(duì)模型進(jìn)行了測(cè)試,具體如下圖 1 所示。

圖片

評(píng)估解決問(wèn)題的能力

為了評(píng)估指令 LLM 解決問(wèn)題的能力,研究者采用了多個(gè)基準(zhǔn),涵蓋了現(xiàn)實(shí)世界中不同主題的測(cè)試、復(fù)雜的指令、算術(shù)、編程和因果關(guān)系。為了在基準(zhǔn)上表現(xiàn)良好,模型需要世界知識(shí)、多步推理的能力、創(chuàng)造力等。

評(píng)估寫(xiě)作能力

除了解決問(wèn)題的能力,指令 LLM 在寫(xiě)作任務(wù)中展現(xiàn)的能力也十分具有前景,如寫(xiě)信或倫理辯論。研究評(píng)估了不同寫(xiě)作場(chǎng)景下的通用寫(xiě)作能力,包括信息性寫(xiě)作、專(zhuān)業(yè)寫(xiě)作、議論文寫(xiě)作和創(chuàng)意寫(xiě)作。議論文寫(xiě)作需要模型對(duì)倫理和社會(huì)問(wèn)題的立場(chǎng)進(jìn)行論述,而創(chuàng)意寫(xiě)作涉及多種寫(xiě)作格式,如故事、詩(shī)歌和歌曲。

為了構(gòu)建寫(xiě)作基準(zhǔn) IMPACT,研究者為每個(gè)寫(xiě)作類(lèi)別標(biāo)注了 50 個(gè) prompt。但是寫(xiě)作任務(wù)的答案很長(zhǎng),且通常沒(méi)有唯一正確答案,這對(duì)嚴(yán)格的標(biāo)準(zhǔn)化評(píng)估來(lái)說(shuō)是個(gè)大難題。其次,由于成本高、不同評(píng)價(jià)人之間可能存在不一致以及不可復(fù)現(xiàn)等原因,人工評(píng)價(jià)是不可擴(kuò)展的。

 評(píng)估與人類(lèi)價(jià)值觀的一致性

為研究指令調(diào)優(yōu)對(duì)模型識(shí)別符合大眾偏好需求的能力的影響,研究者在 INSTRUCTEVAL 中整合了有用、誠(chéng)實(shí)和無(wú)害 (Helpful、Honest 和 Harmless) 基準(zhǔn),以評(píng)估人類(lèi)價(jià)值觀對(duì)指示模型的理解。這些值包括:

  • 有用:始終致力于人類(lèi)最大利益。
  • 誠(chéng)實(shí):始終盡力傳達(dá)準(zhǔn)確的信息,避免欺騙人類(lèi)。
  • 無(wú)害:始終盡力避免任何傷害人類(lèi)的行為。

下表 8 中列出了每個(gè)類(lèi)別的例子:

圖片

評(píng)估結(jié)果

解決問(wèn)題

為了評(píng)估解決問(wèn)題的能力,研究者在下表 5 中的基礎(chǔ)上對(duì) 10 多種開(kāi)源模型進(jìn)行了評(píng)估。此外,為了全面分析模型性能,他們充分考慮了指令 LLM 的預(yù)訓(xùn)練基礎(chǔ)、指令數(shù)據(jù)和訓(xùn)練方法。

首先,由于指令調(diào)優(yōu) LLM 是從它們各自的基礎(chǔ) LLM 中訓(xùn)練而來(lái),因此在分析整體性能時(shí)考慮預(yù)訓(xùn)練基礎(chǔ)至關(guān)重要。研究者觀察到,堅(jiān)實(shí)的預(yù)訓(xùn)練基礎(chǔ)是在解決問(wèn)題任務(wù)上表現(xiàn)出色的必要條件。其次,研究者發(fā)現(xiàn)雖然與預(yù)訓(xùn)練相比,指令調(diào)優(yōu)對(duì)性能的影響更大,但它也并不是「靈丹妙藥」。最后,訓(xùn)練方法也會(huì)影響模型性能和計(jì)算效率。研究者相信,參數(shù)高效的訓(xùn)練方法更有潛力實(shí)現(xiàn)擴(kuò)展性更強(qiáng)和更高效的指令調(diào)優(yōu)。


圖片

這些結(jié)果也引起了業(yè)內(nèi)人士的關(guān)注,前谷歌大腦高級(jí)研究科學(xué)家、RekaAILabs 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yi Tay 發(fā)現(xiàn),「近來(lái)關(guān)于新基礎(chǔ)開(kāi)源模型的討論很多,但自 2019 年的 T5 模型以來(lái)卻沒(méi)有出現(xiàn)真正的進(jìn)步?!?/span>

他總結(jié)道,F(xiàn)lan-T5 擊敗了一切,包括 Alpaca(基于 LLama)、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你從「計(jì)算匹配」(compute-match)的角度來(lái)看,則編碼器 - 解碼器應(yīng)該處于不同(較低)的權(quán)重級(jí)別?;旧希現(xiàn)lan-T5 3 B 像是一個(gè) 1B+ 解碼器,F(xiàn)lan-UL2 更像一個(gè) 8B+ 模型。從這個(gè)角度來(lái)看,差距如此之大。此外 Flan-UL2 在大多數(shù)指標(biāo)上超越了 Alpaca-Lora 30B,盡管前者要小得多,計(jì)算量實(shí)際上也少數(shù)倍。

Yi Tay 表示,這并不完全是 Flan 系列模型,更多的是相關(guān)基礎(chǔ)模型。關(guān)鍵是基礎(chǔ)的 T5 模型,具有 1 萬(wàn)億 token。此外還有多語(yǔ)言的 mT5 和 uMT5 模型,它們也都表現(xiàn)非常好。基礎(chǔ)模型不是長(zhǎng)上下文的,但 Flan 弱化了這一點(diǎn)。T5/UL2 的弱點(diǎn)是多樣性較弱,僅接受 C4 訓(xùn)練。但令人驚訝的是自 2019 年以來(lái) C4-only 基線模型的表現(xiàn)如此地強(qiáng)大。

最后可能在計(jì)算匹配時(shí),T5 >> Llama。唯一的問(wèn)題是 T5 沒(méi)有 30B 和 65B 的版本。


圖片

推特:https://twitter.com/YiTayML/status/1668302949276356609?s=20

寫(xiě)作能力

研究者在下表 6 中提供了寫(xiě)作能力的評(píng)估結(jié)果。整體來(lái)說(shuō),研究者發(fā)現(xiàn)模型在信息性、專(zhuān)業(yè)性、議論文和創(chuàng)意性寫(xiě)作中表現(xiàn)一致,展現(xiàn)出了它們的通用寫(xiě)作能力。令人驚訝的是,具有更強(qiáng)問(wèn)題解決能力的模型可能不具備更好的寫(xiě)作能力。值得注意的是,F(xiàn)lan-Alpaca 的問(wèn)題解決能力較弱,但經(jīng)過(guò) GPT-3 的合成指令調(diào)優(yōu)后,其在寫(xiě)作方面明顯優(yōu)于 Flan-T5。

研究者假設(shè),盡管合成數(shù)據(jù)中存在著潛在噪聲,但合成指令的更高多樣性可以更好地泛化到現(xiàn)實(shí)世界的寫(xiě)作 prompt。與 Flan-T5,F(xiàn)lan-Alpaca 的相關(guān)性分?jǐn)?shù)有了更顯著提高,由此證明了這一點(diǎn)。開(kāi)源指令 LLM 可以生成與 ChatGPT 具有可比相關(guān)性的答案,但在連貫性方面存在不足。這表明開(kāi)源模型可以理解寫(xiě)作 prompt,但在生成輸入的連貫性方面有所欠缺。


圖片

與人類(lèi)價(jià)值觀的一致性

為了評(píng)估指令 LLM 與人類(lèi)價(jià)值觀、偏好的一致性,研究者在下表 7 中對(duì)一些開(kāi)源模型進(jìn)行了評(píng)估。他們首先發(fā)現(xiàn),與無(wú)害相比,基礎(chǔ)模型通常更與有用和誠(chéng)實(shí)對(duì)齊。

此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型經(jīng)過(guò)指令調(diào)優(yōu)之后,更傾向于有用而非誠(chéng)實(shí)。這些結(jié)果強(qiáng)調(diào)了提前確定指令 LLM 的對(duì)齊分布非常具有挑戰(zhàn)性,即使在提供特定指令時(shí)也是如此。


圖片

通過(guò)分析下表 8 中的模型預(yù)測(cè)案例研究,研究者發(fā)現(xiàn)在保持指令 LLM 和人類(lèi)價(jià)值觀一致方面還有非常大的改進(jìn)空間。


圖片

更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2020-12-07 10:52:44

開(kāi)源安全漏洞惡意攻擊

2023-07-09 14:50:48

模型調(diào)優(yōu)

2023-11-03 07:47:12

機(jī)器資源大模型:

2023-10-30 15:55:16

自動(dòng)化人工智能

2024-08-15 15:20:00

模型生成

2023-03-06 16:12:59

ChatGPT人工智能

2025-02-28 12:32:42

2024-02-26 00:00:00

Gemma模型Google

2024-06-18 14:01:17

2024-08-13 12:49:29

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-04-30 16:48:07

2015-07-27 09:31:34

程序員

2009-06-11 10:05:52

IT人職場(chǎng)程序員

2024-11-04 15:54:16

2021-06-03 10:03:52

NASA網(wǎng)絡(luò)攻擊黑客

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2017-02-05 10:51:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)