偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大語(yǔ)言模型的進(jìn)化樹(shù),這是一份超詳細(xì)ChatGPT「食用」指南

人工智能 新聞
ChatGPT 引發(fā)的輿論熱潮至今仍未消退,以其為代表的大型語(yǔ)言模型(LLM)正是目前自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),同時(shí)其在機(jī)器翻譯、文本生成和聊天機(jī)器人等方面的應(yīng)用也讓實(shí)踐者們躍躍欲試,期望找到新的應(yīng)用和商業(yè)機(jī)會(huì)。

而在實(shí)際探索的過(guò)程中,實(shí)踐者可能會(huì)苦于尋找適合自己應(yīng)用的 AI 模型:是選擇 LLM 還是微調(diào)模型?如果用 LLM,又該選擇哪一種?

近日,來(lái)自亞馬遜、德州農(nóng)工大學(xué)、萊斯大學(xué)等機(jī)構(gòu)的學(xué)者對(duì) ChatGPT 等語(yǔ)言模型的發(fā)展歷程進(jìn)行了一番討論,其文章也得到了 Yann LeCun 的轉(zhuǎn)推。

圖片

論文:https://arxiv.org/abs/2304.13712

相關(guān)資源:https://github.com/Mooler0410/LLMsPracticalGuide

圖片

本文將從實(shí)際應(yīng)用角度出發(fā),探討適用 LLM 的任務(wù)以及在選擇模型時(shí)需要考慮的模型、數(shù)據(jù)和任務(wù)等方面實(shí)際問(wèn)題。

1 引言

近年來(lái),發(fā)展迅猛的大型語(yǔ)言模型(LLM)已然引發(fā)了自然語(yǔ)言處理(NLP)領(lǐng)域的革命。這些模型非常強(qiáng)大,有望解決許多不同種類(lèi)的 NLP 任務(wù) —— 從自然語(yǔ)言理解(NLU)到生成任務(wù),甚至鋪就了通往通用人工智能(AGI)之路。但是,為了有效且高效地利用這些模型,我們需要立足實(shí)際地理解它們的能力和局限,還要理解 NLP 所涉及的數(shù)據(jù)和任務(wù)。 

這篇論文重點(diǎn)著眼于在下游 NLP 任務(wù)中實(shí)際應(yīng)用 LLM 的各個(gè)方面,以給實(shí)踐者和最終用戶(hù)提供指引。本指南的目標(biāo)是為讀者提供實(shí)際有用的建議,以助其了解是否應(yīng)該為給定任務(wù)選用 LLM 以及如何選擇最適用的 LLM—— 這其中需要考慮諸多因素,比如模型大小、計(jì)算需求、具體領(lǐng)域是否已有預(yù)訓(xùn)練模型等。本文還會(huì)從實(shí)際應(yīng)用角度介紹和解釋 LLM,這些實(shí)用知識(shí)能助力實(shí)踐者和最終用戶(hù)成功利用 LLM 的力量來(lái)解決他們自己的 NLP 任務(wù)。

本文的結(jié)構(gòu)為:本文首先會(huì)簡(jiǎn)要介紹 LLM,其中主要會(huì)討論最重要的 GPT 式和 BERT 式架構(gòu)。然后會(huì)深入介紹數(shù)據(jù)方面影響模型性能表現(xiàn)的關(guān)鍵因素,包括預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù) / 調(diào)優(yōu)數(shù)據(jù)、測(cè)試數(shù)據(jù)。在最后也是最重要的部分,本文會(huì)深入各種具體的 NLP 任務(wù),介紹 LLM 是否適用于知識(shí)密集型任務(wù)、傳統(tǒng) NLU 任務(wù)和生成任務(wù),此外還會(huì)描述這些模型不斷獲得的新能力以及具有挑戰(zhàn)性的現(xiàn)實(shí)世界應(yīng)用場(chǎng)景。我們會(huì)提供詳細(xì)的案例,以彰顯 LLM 在實(shí)踐中有用和有局限的地方。 

為了分析大型語(yǔ)言模型的能力,本文會(huì)將它們與微調(diào)模型(fine-tuned model)進(jìn)行比較。對(duì)于 LLM 和微調(diào)模型的定義,目前而言我們還沒(méi)有一個(gè)得到廣泛認(rèn)可的標(biāo)準(zhǔn)。為了實(shí)際有效地區(qū)分,本文給出的定義如下:LLM 是指在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練得到的大型語(yǔ)言模型并且沒(méi)有針對(duì)具體任務(wù)調(diào)整數(shù)據(jù);微調(diào)模型則通常更小一些,它們?cè)诮?jīng)過(guò)預(yù)訓(xùn)練后還會(huì)在更小的具體任務(wù)數(shù)據(jù)集上做進(jìn)一步微調(diào),以?xún)?yōu)化它們?cè)谠撊蝿?wù)上的表現(xiàn)。 

本文總結(jié)了在以下方面使用 LLM 的實(shí)用指南:

  • 自然語(yǔ)言理解。當(dāng)實(shí)際數(shù)據(jù)不在訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)或訓(xùn)練數(shù)據(jù)非常少時(shí),可利用 LLM 那出色的泛化能力。 
  • 自然語(yǔ)言生成。使用 LLM 的能力為各種應(yīng)用創(chuàng)造連貫的、上下文相關(guān)的和高質(zhì)量的文本。 
  • 知識(shí)密集型任務(wù)。利用 LLM 中存儲(chǔ)的廣博知識(shí)來(lái)處理需要特定專(zhuān)業(yè)知識(shí)或一般性世界知識(shí)的任務(wù)。 
  • 推理能力。理解和利用 LLM 的推理能力來(lái)提升各種情形中制定決策和解決問(wèn)題的能力。

2 模型方面的實(shí)用指南

圖片

圖 1:這幅現(xiàn)代 LLM 的進(jìn)化樹(shù)追溯了近些年語(yǔ)言模型的發(fā)展歷程,其中重點(diǎn)凸顯了某些最知名的模型。同一分支上的模型關(guān)系更近。基于 Transformer 的模型都不用灰色表示:僅解碼器模型是藍(lán)色分支,僅編碼器模型是粉色分支,編碼器 - 解碼器模型是綠色分支。模型在時(shí)間軸的豎直位置表示其發(fā)布時(shí)間。實(shí)心方塊表示開(kāi)源模型,空心方塊則是閉源模型。右下角的堆積條形圖是指各家公司和機(jī)構(gòu)的模型數(shù)量。

這一節(jié)會(huì)簡(jiǎn)要介紹當(dāng)前表現(xiàn)最佳的 LLM。這些模型有著各不相同的訓(xùn)練策略、模型架構(gòu)和用例。為了更清晰地理解 LLM 的整體圖景,我們可將其分為兩大類(lèi):編碼器 - 解碼器或僅編碼器(encoder-only)語(yǔ)言模型和僅解碼器(decoder-only)語(yǔ)言模型。圖 1 詳細(xì)展示了語(yǔ)言模型的演化過(guò)程?;谶@幅進(jìn)化樹(shù),我們可以觀察到一些有趣的結(jié)論:

a)僅解碼器模型正逐漸成為 LLM 發(fā)展的主導(dǎo)模型。在 LLM 的早期發(fā)展階段,僅解碼器模型的流行程度趕不上僅編碼器和編碼器 - 解碼器模型。但在 2021 年之后,GPT-3 的出現(xiàn)改變了行業(yè)圖景,僅解碼器模型經(jīng)歷了爆發(fā)式的發(fā)展。與此同時(shí),BERT 也為僅編碼器模型帶來(lái)了初始的爆發(fā)式增長(zhǎng),但在那之后,僅編碼器模型卻漸漸淡出了視野。

b)OpenAI 持續(xù)保持著其在 LLM 方向上的領(lǐng)先地位,現(xiàn)在如此,未來(lái)很可能也是如此。為了開(kāi)發(fā)可與 GPT-3 和 GPT-4 媲美的模型,其它公司和機(jī)構(gòu)正在奮力追趕。OpenAI 的領(lǐng)先地位可能需要?dú)w功于其在技術(shù)上持續(xù)不懈的投入,即便該技術(shù)在早期時(shí)并未得到廣泛認(rèn)可。

c)Meta 在開(kāi)源 LLM 和推動(dòng) LLM 研究方面貢獻(xiàn)卓越。在對(duì)開(kāi)源社區(qū)(尤其是與 LLM 相關(guān)的)的貢獻(xiàn)方面,Meta 尤為突出,是最慷慨的商業(yè)公司之一,因?yàn)?Meta 開(kāi)源了其開(kāi)發(fā)的所有 LLM。

d)LLM 開(kāi)發(fā)有閉源的趨勢(shì)。在 LLM 發(fā)展的早期階段(2020 年之前),絕大部分模型都是開(kāi)源的。但是,隨著 GPT-3 的推出,公司越來(lái)越傾向于選擇閉源他們的模型,比如 PaLM、LaMDA 和 GPT-4。也因此,學(xué)術(shù)研究者越來(lái)越難以進(jìn)行 LLM 訓(xùn)練實(shí)驗(yàn)。這就導(dǎo)致了一個(gè)結(jié)果:基于 API 的研究可能會(huì)成為學(xué)術(shù)界的主導(dǎo)方法。

e)編碼器 - 解碼器模型依然有發(fā)展前景,因?yàn)楣竞蜋C(jī)構(gòu)依然在積極探索這類(lèi)架構(gòu),并且大部分模型都是開(kāi)源的。谷歌在開(kāi)源編碼器 - 解碼器方面有重大貢獻(xiàn)。但是,由于僅解碼器模型的靈活性和通用性,谷歌在這個(gè)方向上堅(jiān)持成功的希望似乎更小一些。

表 1 簡(jiǎn)要總結(jié)了各種代表性 LLM 的特點(diǎn)。

圖片

表 1:大型語(yǔ)言模型的特點(diǎn)

2.1 BERT 式語(yǔ)言模型:編碼器 - 解碼器或僅編碼器

由于自然語(yǔ)言數(shù)據(jù)很容易獲得,并且還能使用無(wú)監(jiān)督訓(xùn)練范式來(lái)更好地利用超大規(guī)模數(shù)據(jù)集,因此最近一段時(shí)間,自然語(yǔ)言無(wú)監(jiān)督學(xué)習(xí)的發(fā)展獲得了長(zhǎng)足的進(jìn)步。一種常用方法是基于上下文來(lái)預(yù)測(cè)句子中被遮掩的詞。這種訓(xùn)練范式被稱(chēng)為掩碼語(yǔ)言模型(Masked Language Model)。這種訓(xùn)練方式讓模型能更深刻地理解詞與其上下文之間的關(guān)系。這些模型是在大型文本語(yǔ)料上訓(xùn)練的,使用了 Transformer 架構(gòu)等技術(shù),并且在許多 NLP 任務(wù)上達(dá)到過(guò)最佳表現(xiàn),比如情感分析和命名實(shí)體識(shí)別。著名的掩碼語(yǔ)言模型有 BERT、RoBERTa 和 T5。由于其在多種任務(wù)上的成功表現(xiàn),掩碼語(yǔ)言模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一種重要工具。

2.2 GPT 式語(yǔ)言模型:僅解碼器

盡管語(yǔ)言模型的架構(gòu)通常與具體任務(wù)無(wú)關(guān),但這些方法需要基于具體下游任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。研究者發(fā)現(xiàn)擴(kuò)增語(yǔ)言模型的規(guī)模就能顯著提升其在少樣本或零樣本時(shí)的表現(xiàn)。在提升少樣本和零樣本時(shí)的表現(xiàn)方面,最成功的模型是自回歸語(yǔ)言模型,它的訓(xùn)練方式是根據(jù)給定序列中前面的詞來(lái)生成下一個(gè)詞。這些模型已被廣泛用于文本生成和問(wèn)答等下游任務(wù)。自回歸語(yǔ)言模型包括 GPT-3、OPT、PaLM 和 BLOOM。變革性的 GPT-3 首次表明通過(guò)提示和上下文學(xué)習(xí)能在少 / 零樣本時(shí)給出合理結(jié)果,并由此展現(xiàn)了自回歸語(yǔ)言模型的優(yōu)越性。

另外還有針對(duì)具體任務(wù)優(yōu)化的模型,比如用于代碼生成的 CodeX 以及用于金融領(lǐng)域的 BloombergGPT。近期的重大突破是 ChatGPT,該模型是針對(duì)對(duì)話任務(wù)優(yōu)化的 GPT-3,其能為多種現(xiàn)實(shí)世界應(yīng)用生成更具交互性、更連貫且更貼合上下文的對(duì)話。

3 數(shù)據(jù)方面的實(shí)用指南

本節(jié)將介紹在為下游任務(wù)選擇合適模型時(shí)數(shù)據(jù)的關(guān)鍵性作用。數(shù)據(jù)對(duì)模型有效性的影響從預(yù)訓(xùn)練階段就開(kāi)始了,并會(huì)一直持續(xù)到訓(xùn)練和推理階段。

重點(diǎn) 1

(1)當(dāng)下游任務(wù)會(huì)用到分布之外的數(shù)據(jù)時(shí),比如使用對(duì)抗樣本或數(shù)據(jù)域變化時(shí),LLM 的泛化能力優(yōu)于微調(diào)模型。

(2)當(dāng)已標(biāo)注數(shù)據(jù)有限時(shí),LLM 優(yōu)于微調(diào)模型;當(dāng)有豐富的已標(biāo)注數(shù)據(jù)時(shí),兩者都是合理選擇,這取決于具體的任務(wù)需求。

(3)建議選擇預(yù)訓(xùn)練使用的數(shù)據(jù)域與下游任務(wù)數(shù)據(jù)域相似的模型。

4 NLP 任務(wù)方面的實(shí)用指南

本節(jié)將詳細(xì)討論 LLM 在多種下游 NLP 任務(wù)上是否有用以及對(duì)應(yīng)的模型能力。圖 2 是將所有討論總結(jié)成的一張決策流程圖。當(dāng)面對(duì)某個(gè)任務(wù)時(shí),可基于該流程進(jìn)行快速?zèng)Q策。

圖片

圖 2:用戶(hù)為 NLP 應(yīng)用選擇 LLM 或微調(diào)模型時(shí)的決策流程。這張決策流程圖可幫助用戶(hù)評(píng)估他們手頭的下游 NLP 任務(wù)是否滿(mǎn)足特定條件,并且還能基于評(píng)估結(jié)果確定他們的應(yīng)用最適合選擇 LLM 還是微調(diào)模型。在圖中的決策流程中,Y 表示符合條件,N 表示不符合條件。最后一個(gè)條件的 Y 旁的黃色圓圈表示目前還沒(méi)有很適合這類(lèi)應(yīng)用的模型。

4.1 傳統(tǒng)的 NLU 任務(wù)

傳統(tǒng) NLU 任務(wù)是 NLP 領(lǐng)域中一些基本任務(wù),包括文本分類(lèi)、命名實(shí)體識(shí)別(NER)、蘊(yùn)含預(yù)測(cè)(entailment prediction)等。這些任務(wù)中的許多都可用作更大型 AI 系統(tǒng)的中間步驟,比如將 NER 用于知識(shí)圖譜構(gòu)建。

不適用 LLM:對(duì)于大多數(shù)自然語(yǔ)言理解任務(wù),比如 GLUE 和 SuperGLUE 中的任務(wù),如果該任務(wù)已有豐富的標(biāo)注良好的數(shù)據(jù)并且測(cè)試集中僅有非常少的數(shù)據(jù)在分布之外,那么微調(diào)模型的表現(xiàn)依然更好。當(dāng)任務(wù)與數(shù)據(jù)集各不相同時(shí),小型微調(diào)模型和 LLM 之間的差距也會(huì)不同。

適用 LLM:但是,也有些 NLU 任務(wù)更適合用 LLM 處理。其中兩項(xiàng)代表性任務(wù)是繁雜文本的分類(lèi)問(wèn)題和對(duì)抗式自然語(yǔ)言推理。

重點(diǎn) 2

對(duì)傳統(tǒng)自然語(yǔ)言理解任務(wù)而言,微調(diào)模型通常是比 LLM 更好的選擇,但如果該任務(wù)需要強(qiáng)大的泛化能力,那么 LLM 可提供幫助。

4.2 生成任務(wù)

自然語(yǔ)言生成的目標(biāo)是創(chuàng)建連貫的、有意義的且符合上下文的符號(hào)序列,其大致上包含兩大類(lèi)任務(wù)。第一類(lèi)任務(wù)關(guān)注的重心是將輸入文本轉(zhuǎn)換成新的符號(hào)序列,例子包括段落摘要和機(jī)器翻譯。第二類(lèi)任務(wù)則是「開(kāi)放式生成」,目標(biāo)是從頭開(kāi)始生成文本或符號(hào),使之準(zhǔn)確匹配輸入的描述,比如編寫(xiě)電子郵件、撰寫(xiě)新文章、創(chuàng)造虛構(gòu)故事以及寫(xiě)代碼。

適用 LLM:生成任務(wù)需要模型全面理解輸入的內(nèi)容或需求并且還需要一定程度的創(chuàng)造力。這正是 LLM 擅長(zhǎng)的。

不適用 LLM:在大多數(shù)有豐富資源的翻譯任務(wù)和資源很少的翻譯任務(wù)上,微調(diào)模型的表現(xiàn)更佳,比如 DeltaLM+Zcode。對(duì)于有豐富資源的機(jī)器翻譯,微調(diào)模型稍微優(yōu)于 LLM。對(duì)于資源極少的機(jī)器翻譯,比如英語(yǔ) - 哈薩克語(yǔ)翻譯,微調(diào)模型顯著優(yōu)于 LLM。

重點(diǎn) 3

得益于強(qiáng)大的生成能力和創(chuàng)造力,LLM 在大多數(shù)生成任務(wù)上都有優(yōu)勢(shì)。

4.3 知識(shí)密集型任務(wù)

知識(shí)密集型 NLP 任務(wù)是指非常依賴(lài)背景知識(shí)、特定領(lǐng)域?qū)I(yè)知識(shí)或一般性真實(shí)世界知識(shí)的任務(wù)類(lèi)別。這些任務(wù)需要的不僅僅是模式識(shí)別或句法分析。它們高度依賴(lài)記憶和適當(dāng)利用知識(shí),這些知識(shí)關(guān)聯(lián)著我們的真實(shí)世界的特定實(shí)體、事件和常識(shí)。

適用 LLM:一般來(lái)說(shuō),如果有數(shù)以十億計(jì)的訓(xùn)練 token 和參數(shù),LLM 所包含的真實(shí)世界知識(shí)量可遠(yuǎn)遠(yuǎn)超越微調(diào)模型。

不適用 LLM:某些其它任務(wù)需要的知識(shí)不同于 LLM 學(xué)習(xí)到的知識(shí)。所需的知識(shí)不是 LLM 學(xué)習(xí)到的關(guān)于真實(shí)世界的知識(shí)。在這樣的任務(wù)中,LLM 沒(méi)有明顯優(yōu)勢(shì)。

重點(diǎn) 4

(1)得益于龐大的真實(shí)世界知識(shí),LLM 擅長(zhǎng)處理知識(shí)密集型任務(wù)。(2)當(dāng)知識(shí)需求與所學(xué)知識(shí)不匹配時(shí),LLM 會(huì)遇到困難;或者當(dāng)任務(wù)只需要上下文的知識(shí)時(shí),微調(diào)模型可以達(dá)到與 LLM 同等的表現(xiàn)。

4.4 在擴(kuò)展規(guī)模方面的能力

擴(kuò)展 LLM 的規(guī)模(比如參數(shù)、訓(xùn)練計(jì)算等)可以極大助力預(yù)訓(xùn)練語(yǔ)言模型。通過(guò)擴(kuò)大模型規(guī)模,模型處理多種任務(wù)的能力通常能得到提升。反映到某些指標(biāo)上,模型的性能表現(xiàn)與模型規(guī)模呈現(xiàn)冪律關(guān)系。舉個(gè)例子,用于度量語(yǔ)言建模性能的交叉熵?fù)p失會(huì)隨模型規(guī)模的指數(shù)級(jí)增長(zhǎng)而線性下降,這也被稱(chēng)為「標(biāo)度律(scaling-law)」。對(duì)于推理等某些關(guān)鍵能力,擴(kuò)大模型規(guī)模就能逐漸將這些能力從非常低的水平提升到一個(gè)可使用的水平,甚至可接近人類(lèi)水平。本小節(jié)將從規(guī)模對(duì) LLM 的能力和行為的影響方面介紹 LLM 的使用。

推理方面的 LLM 用例:推理涉及到理解信息、進(jìn)行推論和做出決定,是人類(lèi)智力的一大核心能力。對(duì) NLP 而言,推理卻極具挑戰(zhàn)性。現(xiàn)有的許多推理任務(wù)可以分為常識(shí)推理和算術(shù)推理兩類(lèi)。模型增大能極大提升 LLM 的算術(shù)推理能力。常識(shí)推理不僅需要 LLM 記住事實(shí)性知識(shí),還需要 LLM 執(zhí)行一些有關(guān)事實(shí)的推理步驟。常識(shí)推理能力會(huì)隨模型大小的增長(zhǎng)而逐漸提升。相比于微調(diào)模型,LLM 在大多數(shù)數(shù)據(jù)集上都表現(xiàn)更優(yōu)。

涌現(xiàn)能力方面的 LLM 用例:擴(kuò)增模型規(guī)模還能賦予模型一些超越冪律規(guī)則的前所未有的奇妙能力。這些能力被稱(chēng)為「涌現(xiàn)能力(emergent ability)」。正如論文《Emergent Abilities of Large Language Models》中定義的那樣:LLM 的涌現(xiàn)能力是指小規(guī)模模型不具備但出現(xiàn)在大規(guī)模模型中的能力。(有關(guān)該論文的更多解讀可參閱《Jeff Dean 等人新作:換個(gè)角度審視語(yǔ)言模型,規(guī)模不夠發(fā)現(xiàn)不了》)這意味著我們無(wú)法基于小規(guī)模模型的性能提升而推斷預(yù)測(cè)出這種能力;而在某些任務(wù)上,模型的規(guī)模一旦超過(guò)一定程度,就可能突然獲得優(yōu)異表現(xiàn)。涌現(xiàn)能力通常不可預(yù)測(cè)并且出人意料,這可能導(dǎo)致模型有能力處理隨機(jī)出現(xiàn)或意料之外的任務(wù)。

不適用 LLM 以及理解涌現(xiàn):盡管大多數(shù)情況下,模型更大,表現(xiàn)也更優(yōu),但也依然存在例外情況。

在某些任務(wù)上,隨著 LLM 規(guī)模的提升,模型表現(xiàn)會(huì)開(kāi)始下降。這也被稱(chēng)為反標(biāo)度現(xiàn)象(Inverse Scaling Phenomenon)。此外研究者還觀察到另一個(gè)有關(guān)規(guī)模的有趣現(xiàn)象,即 U 形現(xiàn)象(U-shaped Phenomenon)。顧名思義,該現(xiàn)象是指隨著 LLM 模型增大,其在特定任務(wù)上的表現(xiàn)一開(kāi)始會(huì)提升,然后會(huì)開(kāi)始下降,之后又會(huì)再次提升。

為了推進(jìn)該領(lǐng)域的研究,我們必需更深入地理解涌現(xiàn)能力、反標(biāo)度現(xiàn)象和 U 形現(xiàn)象。

重點(diǎn) 5

(1)隨著模型規(guī)模的指數(shù)級(jí)增長(zhǎng),LLM 的算術(shù)推理和常識(shí)推理能力也會(huì)上升。(2)隨著 LLM 規(guī)模的擴(kuò)增,涌現(xiàn)能力能機(jī)緣巧合地發(fā)現(xiàn)新用途,比如詞處理能力和邏輯能力。(3)模型的能力并不總是會(huì)隨規(guī)模提升,而且我們對(duì)大型語(yǔ)言模型的能力與規(guī)模的關(guān)系的理解還很有限。

4.5 雜項(xiàng)任務(wù)

為了更好地理解 LLM 的優(yōu)勢(shì)和短板,下面會(huì)談?wù)勆厦鏇](méi)有涉及到的其它任務(wù)。

不適用 LLM:如果模型目標(biāo)與訓(xùn)練數(shù)據(jù)有差異,那么 LLM 在這些任務(wù)上通常會(huì)遇到困難。

適用 LLM:LLM 尤其適用于某些特定任務(wù)。舉些例子,LLM 非常擅于模仿人類(lèi)、LLM 還可用于評(píng)估摘要和翻譯等某些 NLG 任務(wù)的質(zhì)量、LLM 的某些能力還能帶來(lái)性能提升之外的其它好處,如可解釋性。

重點(diǎn) 6

(1)對(duì)于遠(yuǎn)離 LLM 的預(yù)訓(xùn)練目標(biāo)和數(shù)據(jù)的任務(wù)而言,微調(diào)模型和特定領(lǐng)域模型仍有一席之地。(2)LLM 擅于模仿人類(lèi)、數(shù)據(jù)標(biāo)注和生成。它們也可用于 NLP 任務(wù)的質(zhì)量評(píng)估,并且有可解釋性等好處。

4.6 真實(shí)世界「任務(wù)」

本小節(jié)最后討論一下 LLM 和微調(diào)模型在真實(shí)世界「任務(wù)」上的應(yīng)用。這里所用的「任務(wù)」一詞并不嚴(yán)謹(jǐn),因?yàn)椴煌趯W(xué)術(shù)場(chǎng)景,真實(shí)世界場(chǎng)景通常缺乏形式優(yōu)良的定義。對(duì)模型的很多需求甚至不能被視為 NLP 任務(wù)。模型面臨的真實(shí)世界挑戰(zhàn)來(lái)自以下三方面:

  • 有噪聲的 / 非結(jié)構(gòu)化的輸入。真實(shí)世界的輸入來(lái)自真實(shí)世界的人,他們大都不是專(zhuān)家。他們并不了解如何與模型適當(dāng)交互,甚至都可能無(wú)法流暢地使用文本。因此,真實(shí)世界的輸入數(shù)據(jù)可能很混亂、帶有拼寫(xiě)錯(cuò)誤、口語(yǔ)化文本和多語(yǔ)言混雜,這不同于預(yù)訓(xùn)練或微調(diào)使用的定義格式良好的數(shù)據(jù)。
  • 未被學(xué)術(shù)界形式化的任務(wù)。真實(shí)世界場(chǎng)景中的任務(wù)通常沒(méi)有得到學(xué)術(shù)界的良好定義,并且多樣性也遠(yuǎn)遠(yuǎn)超出學(xué)術(shù)研究場(chǎng)景的定義。用戶(hù)通常提出的查詢(xún)或請(qǐng)求并不能很好地歸入預(yù)定義的類(lèi)別,并且有時(shí)單個(gè)查詢(xún)會(huì)包含多項(xiàng)任務(wù)。
  • 遵從用戶(hù)的指令。用戶(hù)的請(qǐng)求可能會(huì)包含多個(gè)隱含意圖(比如對(duì)輸出格式有具體要求),或者如果沒(méi)有后續(xù)問(wèn)題,不清楚用戶(hù)期望的預(yù)測(cè)結(jié)果。模型需要理解用戶(hù)的意圖并提供與這些意圖一致的輸出。

本質(zhì)上講,來(lái)自用戶(hù)請(qǐng)求的這些真實(shí)世界難題是因?yàn)槠x了針對(duì)特定任務(wù)設(shè)計(jì)的任何 NLP 數(shù)據(jù)集的分布。公共 NLP 數(shù)據(jù)集并不能反映這些模型的使用方式。

重點(diǎn) 7

相比于微調(diào)模型,LLM 更適合用于處理真實(shí)世界場(chǎng)景。但是,評(píng)估模型在真實(shí)世界中的有效性依然是一個(gè)懸而未決的問(wèn)題。

5 其它方面

盡管 LLM 適用于多種下游任務(wù),但也有其它一些因素需要考慮,比如效率和可信度。效率方面涉及到的問(wèn)題包括 LLM 的訓(xùn)練成本、推理延遲度以及高效利用參數(shù)的調(diào)優(yōu)策略。在可信度方面則需要考慮 LLM 的穩(wěn)健性和校準(zhǔn)能力、公平和偏見(jiàn)、潛在的錯(cuò)誤相關(guān)性以及安全性難題。重點(diǎn) 8(1)如果任務(wù)對(duì)成本敏感或有嚴(yán)格延遲要求,那么應(yīng)該優(yōu)先考慮輕量的本地微調(diào)模型。在部署和交付模型時(shí),可考慮進(jìn)行調(diào)優(yōu)以高效利用參數(shù)。(2)LLM 的零樣本方法能防止其從具體任務(wù)的數(shù)據(jù)集中學(xué)習(xí)捷徑,而這種情況對(duì)微調(diào)模型來(lái)說(shuō)卻很常見(jiàn)。盡管如此,LLM 仍會(huì)表現(xiàn)出一定的捷徑學(xué)習(xí)問(wèn)題。(3)由于 LLM 潛在的有害或有偏見(jiàn)輸出以及幻覺(jué)(hallucination)問(wèn)題可能導(dǎo)致嚴(yán)重后果,因此與 LLM 相關(guān)的安全問(wèn)題應(yīng)得到最大重視。人類(lèi)反饋等方法有望緩解這些問(wèn)題。

6 總結(jié)和未來(lái)挑戰(zhàn) 

這份實(shí)用指南提供了有關(guān) LLM 的洞見(jiàn)以及在各種 NLP 任務(wù)上使用 LLM 的最佳實(shí)踐方法。希望這能幫助研究者和實(shí)踐者利用 LLM 的潛力并推動(dòng)語(yǔ)言技術(shù)的創(chuàng)新。 

當(dāng)然,LLM 也還有一些有待解決的挑戰(zhàn): 

  • 在真實(shí)世界數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估。盡管現(xiàn)有的深度學(xué)習(xí)模型主要是在 ImageNet 等標(biāo)準(zhǔn)學(xué)術(shù)數(shù)據(jù)集上進(jìn)行評(píng)估,但標(biāo)準(zhǔn)學(xué)術(shù)數(shù)據(jù)集是有局限的,并不能確切反映模型在真實(shí)世界中的表現(xiàn)。隨著模型的進(jìn)步,有必要在反映真實(shí)需求的更多樣化、復(fù)雜和真實(shí)的數(shù)據(jù)上評(píng)估它們。在學(xué)術(shù)數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上評(píng)估模型,能模型得到更嚴(yán)格的測(cè)試,還能讓我們更好地理解它們?cè)谡鎸?shí)世界應(yīng)用中的有效性。這能確保模型有能力解決真實(shí)世界難題并交付實(shí)際可用的解決方案。 
  • 模型合準(zhǔn)(Model Alignment)。確保日益強(qiáng)大和自動(dòng)化的模型與人類(lèi)價(jià)值觀和優(yōu)先項(xiàng)保持一致是非常重要的。我們必須想出辦法,確保模型的行為符合預(yù)期,并且不要為我們不想要的結(jié)果而優(yōu)化模型。要從模型開(kāi)發(fā)過(guò)程一開(kāi)始就整合合準(zhǔn)技術(shù),這是很重要的。在評(píng)估和確保合準(zhǔn)方面,模型透明性和可解釋性也很重要。此外,著眼未來(lái),還有更加艱巨挑戰(zhàn)正在顯現(xiàn):對(duì)超人類(lèi)的系統(tǒng)執(zhí)行合準(zhǔn)。盡管目前這一任務(wù)超出了我們的需求,但重點(diǎn)是要考慮到合準(zhǔn)這樣先進(jìn)的系統(tǒng)并為此做準(zhǔn)備,因?yàn)樗鼈兛赡軙?huì)帶來(lái)獨(dú)特的復(fù)雜性和道德倫理問(wèn)題。 
  • 安全性合準(zhǔn)(Safety Alignment)。盡管討論 AI 帶來(lái)的存在主義風(fēng)險(xiǎn)很重要,但我們還是需要切實(shí)的研究來(lái)確保能安全地開(kāi)發(fā)先進(jìn) AI。這包括用于可解釋性、可擴(kuò)展監(jiān)督與治理以及模型屬性的形式驗(yàn)證的技術(shù)。在模型的構(gòu)建過(guò)程中,安全不應(yīng)被視為一個(gè)附加組件,而應(yīng)是整體的組成部分。 
  • 在模型規(guī)模變化時(shí)預(yù)測(cè)其表現(xiàn)。當(dāng)模型大小和復(fù)雜性顯著提升時(shí),我們很難預(yù)測(cè)模型會(huì)有何表現(xiàn)。應(yīng)當(dāng)開(kāi)發(fā)技術(shù)來(lái)更好預(yù)測(cè)模型規(guī)模提升或使用新架構(gòu)時(shí)模型的表現(xiàn)情況,這能讓我們更高效地使用資源以及加快開(kāi)發(fā)進(jìn)程。有這樣一些可能性:訓(xùn)練一個(gè)更小的「種子」模型并通過(guò)外推方式預(yù)測(cè)其增長(zhǎng)情況,模擬擴(kuò)大規(guī)模或調(diào)整模型的效果,以及對(duì)不同規(guī)模的模型的測(cè)試基準(zhǔn)進(jìn)行迭代以構(gòu)建標(biāo)度律。這能讓我們?cè)跇?gòu)建模型之前就對(duì)模型的性能表現(xiàn)有所了解。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-07-04 12:55:39

模型指南IFT

2018-06-14 15:34:59

深度學(xué)習(xí)GitHub機(jī)器學(xué)習(xí)

2023-03-21 09:44:34

模型AI

2018-10-10 09:30:29

Spring Boot知識(shí)框架

2020-06-01 15:04:44

甲骨文自治數(shù)據(jù)庫(kù)

2019-01-15 09:34:30

MySQL高性能優(yōu)化

2023-09-01 14:02:25

用戶(hù)分析攻略

2023-09-03 23:04:36

網(wǎng)絡(luò)互聯(lián)網(wǎng)

2019-03-18 08:08:24

知識(shí)圖譜技術(shù)

2020-01-02 14:13:01

機(jī)器學(xué)習(xí)模型部署預(yù)測(cè)

2018-05-15 09:15:03

CNN卷積神經(jīng)網(wǎng)絡(luò)函數(shù)

2023-07-08 23:20:41

2024-02-19 00:06:50

AI模型

2018-09-20 05:01:06

2018-07-31 14:58:08

2020-02-05 17:10:54

人工智能機(jī)器學(xué)習(xí)技術(shù)

2019-07-16 07:52:49

NumPyPython機(jī)器學(xué)習(xí)

2024-10-09 09:38:11

2019-11-14 21:21:50

數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析

2022-03-28 13:04:10

機(jī)器學(xué)習(xí)模型計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)