四年了,基礎(chǔ)開(kāi)源模型沒(méi)有真正進(jìn)步,指令調(diào)優(yōu)大模型評(píng)估驚人發(fā)現(xiàn)
指令調(diào)優(yōu)大語(yǔ)言模型的出現(xiàn)標(biāo)志著 NLP 領(lǐng)域迎來(lái)一個(gè)重要轉(zhuǎn)折點(diǎn)。從 ChatGPT 這類(lèi)會(huì)話(huà)助手到解決復(fù)雜問(wèn)題,這些指令調(diào)優(yōu)大模型的變革能力在應(yīng)用中矚目。此類(lèi)模型還包括 GPT-4,它的精通范圍不局限于語(yǔ)言理解,還能解決數(shù)學(xué)、編碼、醫(yī)學(xué)和法律等不同領(lǐng)域的任務(wù)。
雖然它們具有非凡的能力和適應(yīng)性,但其全部潛力仍有待全面了解。這種情況主要源于許多模型的黑箱性質(zhì)以及目前缺乏深入和全面的評(píng)估研究。
為應(yīng)對(duì)這些挑戰(zhàn),并對(duì)模型的能力進(jìn)行更加深入的了解,新加坡科技設(shè)計(jì)大學(xué)和阿里達(dá)摩院(新加坡)的研究者提出了一個(gè)新的評(píng)估套件 INSTRUCTEVAL。該套件用于對(duì)指令調(diào)優(yōu)大語(yǔ)言模型進(jìn)行全面評(píng)估,并且超越了早期評(píng)估方法的限制。評(píng)估策略在其系統(tǒng)和整體方法上與之前的研究大不相同,不僅審查了模型的解決問(wèn)題和寫(xiě)作能力,還嚴(yán)格評(píng)判了它們與人類(lèi)價(jià)值觀的一致性。
- 論文地址:2306.04757.pdf (arxiv.org)
- GITHUB 地址: https://github.com/declare-lab/instruct-eval
- LEADERBOARD 地址: https://declare-lab.github.io/instruct-eval/
評(píng)估方法的核心是考慮影響模型性能的各種因素,包括開(kāi)發(fā)模型的預(yù)訓(xùn)練基礎(chǔ)、用于改進(jìn)模型的指令調(diào)優(yōu)數(shù)據(jù)的性質(zhì)和質(zhì)量、以及采用的具體訓(xùn)練方法。通過(guò)對(duì)這些因素慎微的探究,研究者試圖闡明決定模型性能的關(guān)鍵因素,進(jìn)而理解如何更好地利用這些模型來(lái)滿(mǎn)足我們的需求。
本文的研究發(fā)現(xiàn)強(qiáng)調(diào)了指令數(shù)據(jù)質(zhì)量對(duì)模型性能縮放的關(guān)鍵影響。開(kāi)源模型已經(jīng)展現(xiàn)出令人驚嘆的寫(xiě)作能力,這表明它們有潛力為各種領(lǐng)域做出非凡貢獻(xiàn)。當(dāng)然,本文的研究也有相當(dāng)大的改進(jìn)空間,特別是在模型的解決問(wèn)題能力和與人類(lèi)價(jià)值觀的一致性方面。這一觀察強(qiáng)調(diào)了整體評(píng)估和模式開(kāi)發(fā)的重要性。
開(kāi)源指令 LLM
研究者在下表 1 中收集了開(kāi)源基礎(chǔ) LLM 的細(xì)節(jié),并考慮到了模型架構(gòu)、大小和數(shù)據(jù)規(guī)模等預(yù)訓(xùn)練因素。
可以說(shuō),指令調(diào)優(yōu)的核心是用于訓(xùn)練基礎(chǔ) LLM 的指令數(shù)據(jù),比如質(zhì)量、數(shù)量、多樣性和格式等都是可以決定指令模型行為的因素。研究者在下表 2 中收集了一些開(kāi)源指令數(shù)據(jù)集的細(xì)節(jié)。
在考慮到為指令 LLM 提供支持的預(yù)訓(xùn)練基礎(chǔ)模型和數(shù)據(jù)集之后,研究者在下表 3 中提供了開(kāi)源指令模型的整體概述。
評(píng)估指令 LLM 面臨哪些挑戰(zhàn)?
首先是難以理解的黑箱模型。雖然 GPT-4 等指令 LLM 獲得了廣泛關(guān)注,但很多模型都選擇閉源并僅限于通過(guò) API 訪問(wèn)。此外,閉源模型的創(chuàng)建者往往不透露架構(gòu)、指令數(shù)據(jù)集和訓(xùn)練方法等模型細(xì)節(jié)。
其次是壓倒性的開(kāi)源模型,在 GPT-4 等閉源模型令人印象深刻的演示刺激下,開(kāi)源社區(qū)已經(jīng)展開(kāi)了狂熱的模型開(kāi)發(fā),以期實(shí)現(xiàn)語(yǔ)言模型技術(shù)的民主化。雖然研究者對(duì)此備受鼓舞,但卻深深擔(dān)憂(yōu)新模型的開(kāi)發(fā)速度可能超過(guò)評(píng)估研究的進(jìn)展。
接著是指令調(diào)優(yōu)的多重考慮。為了全面了解指令 LLM,需要我們考慮可能影響它們行為的多樣化因素,比如預(yù)訓(xùn)練、指令數(shù)據(jù)和訓(xùn)練方法。雖然以往的工作在某些領(lǐng)域進(jìn)行過(guò)深入研究,比如指令數(shù)據(jù)集。但研究者認(rèn)為應(yīng)該綜合考慮多種因素才能達(dá)到更完整的理解。
最后是廣泛的能力范圍。雖然指令 LLM 研究取得進(jìn)展,我們自然能觀察到它們通用能力的增強(qiáng)。最近的研究表明,LLM 可以通過(guò)指令調(diào)優(yōu)來(lái)解決很多領(lǐng)域的問(wèn)題,甚至可以使用外部工具來(lái)增強(qiáng)它們的能力。因此可以預(yù)見(jiàn)到,對(duì)指令 LLM 進(jìn)行綜合評(píng)估變得越來(lái)越重要,同時(shí)也越來(lái)越具有挑戰(zhàn)性。
INSTRUCTEVAL 基準(zhǔn)套件
為了解決評(píng)估指令 LLM 的挑戰(zhàn),本文引入一個(gè)更全面的評(píng)估套件 INSTRUCTEVAL。為了涵蓋廣泛的通用能力,研究者在解決問(wèn)題、寫(xiě)作和對(duì)齊人類(lèi)價(jià)值觀方面對(duì)模型進(jìn)行了測(cè)試,具體如下圖 1 所示。
評(píng)估解決問(wèn)題的能力
為了評(píng)估指令 LLM 解決問(wèn)題的能力,研究者采用了多個(gè)基準(zhǔn),涵蓋了現(xiàn)實(shí)世界中不同主題的測(cè)試、復(fù)雜的指令、算術(shù)、編程和因果關(guān)系。為了在基準(zhǔn)上表現(xiàn)良好,模型需要世界知識(shí)、多步推理的能力、創(chuàng)造力等。
評(píng)估寫(xiě)作能力
除了解決問(wèn)題的能力,指令 LLM 在寫(xiě)作任務(wù)中展現(xiàn)的能力也十分具有前景,如寫(xiě)信或倫理辯論。研究評(píng)估了不同寫(xiě)作場(chǎng)景下的通用寫(xiě)作能力,包括信息性寫(xiě)作、專(zhuān)業(yè)寫(xiě)作、議論文寫(xiě)作和創(chuàng)意寫(xiě)作。議論文寫(xiě)作需要模型對(duì)倫理和社會(huì)問(wèn)題的立場(chǎng)進(jìn)行論述,而創(chuàng)意寫(xiě)作涉及多種寫(xiě)作格式,如故事、詩(shī)歌和歌曲。
為了構(gòu)建寫(xiě)作基準(zhǔn) IMPACT,研究者為每個(gè)寫(xiě)作類(lèi)別標(biāo)注了 50 個(gè) prompt。但是寫(xiě)作任務(wù)的答案很長(zhǎng),且通常沒(méi)有唯一正確答案,這對(duì)嚴(yán)格的標(biāo)準(zhǔn)化評(píng)估來(lái)說(shuō)是個(gè)大難題。其次,由于成本高、不同評(píng)價(jià)人之間可能存在不一致以及不可復(fù)現(xiàn)等原因,人工評(píng)價(jià)是不可擴(kuò)展的。
評(píng)估與人類(lèi)價(jià)值觀的一致性
為研究指令調(diào)優(yōu)對(duì)模型識(shí)別符合大眾偏好需求的能力的影響,研究者在 INSTRUCTEVAL 中整合了有用、誠(chéng)實(shí)和無(wú)害 (Helpful、Honest 和 Harmless) 基準(zhǔn),以評(píng)估人類(lèi)價(jià)值觀對(duì)指示模型的理解。這些值包括:
- 有用:始終致力于人類(lèi)最大利益。
- 誠(chéng)實(shí):始終盡力傳達(dá)準(zhǔn)確的信息,避免欺騙人類(lèi)。
- 無(wú)害:始終盡力避免任何傷害人類(lèi)的行為。
下表 8 中列出了每個(gè)類(lèi)別的例子:
評(píng)估結(jié)果
解決問(wèn)題
為了評(píng)估解決問(wèn)題的能力,研究者在下表 5 中的基礎(chǔ)上對(duì) 10 多種開(kāi)源模型進(jìn)行了評(píng)估。此外,為了全面分析模型性能,他們充分考慮了指令 LLM 的預(yù)訓(xùn)練基礎(chǔ)、指令數(shù)據(jù)和訓(xùn)練方法。
首先,由于指令調(diào)優(yōu) LLM 是從它們各自的基礎(chǔ) LLM 中訓(xùn)練而來(lái),因此在分析整體性能時(shí)考慮預(yù)訓(xùn)練基礎(chǔ)至關(guān)重要。研究者觀察到,堅(jiān)實(shí)的預(yù)訓(xùn)練基礎(chǔ)是在解決問(wèn)題任務(wù)上表現(xiàn)出色的必要條件。其次,研究者發(fā)現(xiàn)雖然與預(yù)訓(xùn)練相比,指令調(diào)優(yōu)對(duì)性能的影響更大,但它也并不是「靈丹妙藥」。最后,訓(xùn)練方法也會(huì)影響模型性能和計(jì)算效率。研究者相信,參數(shù)高效的訓(xùn)練方法更有潛力實(shí)現(xiàn)擴(kuò)展性更強(qiáng)和更高效的指令調(diào)優(yōu)。
這些結(jié)果也引起了業(yè)內(nèi)人士的關(guān)注,前谷歌大腦高級(jí)研究科學(xué)家、RekaAILabs 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yi Tay 發(fā)現(xiàn),「近來(lái)關(guān)于新基礎(chǔ)開(kāi)源模型的討論很多,但自 2019 年的 T5 模型以來(lái)卻沒(méi)有出現(xiàn)真正的進(jìn)步?!?/span>
他總結(jié)道,F(xiàn)lan-T5 擊敗了一切,包括 Alpaca(基于 LLama)、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你從「計(jì)算匹配」(compute-match)的角度來(lái)看,則編碼器 - 解碼器應(yīng)該處于不同(較低)的權(quán)重級(jí)別?;旧希現(xiàn)lan-T5 3 B 像是一個(gè) 1B+ 解碼器,F(xiàn)lan-UL2 更像一個(gè) 8B+ 模型。從這個(gè)角度來(lái)看,差距如此之大。此外 Flan-UL2 在大多數(shù)指標(biāo)上超越了 Alpaca-Lora 30B,盡管前者要小得多,計(jì)算量實(shí)際上也少數(shù)倍。
Yi Tay 表示,這并不完全是 Flan 系列模型,更多的是相關(guān)基礎(chǔ)模型。關(guān)鍵是基礎(chǔ)的 T5 模型,具有 1 萬(wàn)億 token。此外還有多語(yǔ)言的 mT5 和 uMT5 模型,它們也都表現(xiàn)非常好。基礎(chǔ)模型不是長(zhǎng)上下文的,但 Flan 弱化了這一點(diǎn)。T5/UL2 的弱點(diǎn)是多樣性較弱,僅接受 C4 訓(xùn)練。但令人驚訝的是自 2019 年以來(lái) C4-only 基線模型的表現(xiàn)如此地強(qiáng)大。
最后可能在計(jì)算匹配時(shí),T5 >> Llama。唯一的問(wèn)題是 T5 沒(méi)有 30B 和 65B 的版本。
推特:https://twitter.com/YiTayML/status/1668302949276356609?s=20
寫(xiě)作能力
研究者在下表 6 中提供了寫(xiě)作能力的評(píng)估結(jié)果。整體來(lái)說(shuō),研究者發(fā)現(xiàn)模型在信息性、專(zhuān)業(yè)性、議論文和創(chuàng)意性寫(xiě)作中表現(xiàn)一致,展現(xiàn)出了它們的通用寫(xiě)作能力。令人驚訝的是,具有更強(qiáng)問(wèn)題解決能力的模型可能不具備更好的寫(xiě)作能力。值得注意的是,F(xiàn)lan-Alpaca 的問(wèn)題解決能力較弱,但經(jīng)過(guò) GPT-3 的合成指令調(diào)優(yōu)后,其在寫(xiě)作方面明顯優(yōu)于 Flan-T5。
研究者假設(shè),盡管合成數(shù)據(jù)中存在著潛在噪聲,但合成指令的更高多樣性可以更好地泛化到現(xiàn)實(shí)世界的寫(xiě)作 prompt。與 Flan-T5,F(xiàn)lan-Alpaca 的相關(guān)性分?jǐn)?shù)有了更顯著提高,由此證明了這一點(diǎn)。開(kāi)源指令 LLM 可以生成與 ChatGPT 具有可比相關(guān)性的答案,但在連貫性方面存在不足。這表明開(kāi)源模型可以理解寫(xiě)作 prompt,但在生成輸入的連貫性方面有所欠缺。
與人類(lèi)價(jià)值觀的一致性
為了評(píng)估指令 LLM 與人類(lèi)價(jià)值觀、偏好的一致性,研究者在下表 7 中對(duì)一些開(kāi)源模型進(jìn)行了評(píng)估。他們首先發(fā)現(xiàn),與無(wú)害相比,基礎(chǔ)模型通常更與有用和誠(chéng)實(shí)對(duì)齊。
此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型經(jīng)過(guò)指令調(diào)優(yōu)之后,更傾向于有用而非誠(chéng)實(shí)。這些結(jié)果強(qiáng)調(diào)了提前確定指令 LLM 的對(duì)齊分布非常具有挑戰(zhàn)性,即使在提供特定指令時(shí)也是如此。
通過(guò)分析下表 8 中的模型預(yù)測(cè)案例研究,研究者發(fā)現(xiàn)在保持指令 LLM 和人類(lèi)價(jià)值觀一致方面還有非常大的改進(jìn)空間。
更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。