偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為NLP選擇正確的語言模型

譯文 精選
人工智能 深度學(xué)習(xí)
本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個直觀的理解,以及一種與開發(fā)者和人工智能專家高效互動的語言。

譯者 | 崔皓

審校 | 孫淑娟

一、開篇

圖片

大型語言模型(LLMs)是為產(chǎn)生文本而訓(xùn)練的深度學(xué)習(xí)模型。憑借令人印象深刻的能力,LLMs已經(jīng)成為現(xiàn)代自然語言處理(NLP)的佼佼者。傳統(tǒng)意義上,它們是由學(xué)術(shù)機構(gòu)和大型科技公司(如OpenAI、微軟和英偉達(dá))預(yù)先訓(xùn)練而成的。它們中的大多數(shù)隨后被提供給公眾使用。這種即插即用的方法是向大規(guī)模的人工智能應(yīng)用邁出的重要一步--企業(yè)現(xiàn)在可以專注于為特定的使用案例微調(diào)現(xiàn)有的LLM模型,而不是花費大量資源來訓(xùn)練具有一般語言知識的模型。

然而,為應(yīng)用挑選合適的模型仍舊是很棘手的。用戶和其他利益相關(guān)者必須在一個充滿活力的語言模型和相關(guān)的創(chuàng)新場景中做出選擇。這些改進(jìn)涉及語言模型的不同組成部分,包括其訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練目標(biāo)、架構(gòu)和微調(diào)方法--每一個方面都可以寫一本書。在所有這些研究的基礎(chǔ)上,圍繞著語言模型的營銷和人工智能的光環(huán)使事情變得更加模糊不清。

本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個直觀的理解,以及一種與開發(fā)者和人工智能專家高效互動的語言。為了擴大覆蓋面,文章包括了植根于大量NLP相關(guān)出版物的分析。雖然我們不會深入研究語言模型的數(shù)學(xué)細(xì)節(jié),但這些可以很容易從參考文獻(xiàn)中檢索到。

文章的結(jié)構(gòu)如下:首先,將語言模型置于不斷發(fā)展的NLP環(huán)境中。第二部分解釋了LLMs是如何建立和預(yù)訓(xùn)練的。最后,會描述微調(diào)過程并提供了一些關(guān)于模型選擇的指導(dǎo)。

二、語言模型的世界

1.彌合人機差距

語言是人類思維的迷人技能--它是知識交流的通用協(xié)議,并表達(dá)主觀想法,如意圖、意見和情感。在人工智能的歷史上,已經(jīng)有多波研究用數(shù)學(xué)手段來接近("建模")人類語言。在深度學(xué)習(xí)時代之前,表征是基于簡單的代數(shù)和概率概念,如單詞的單熱表征、序列概率模型和遞歸結(jié)構(gòu)。隨著過去幾年深度學(xué)習(xí)的發(fā)展,語言表征的精度、復(fù)雜性和表現(xiàn)力都有所提高。

2018年,BERT作為第一個基于新Transformer架構(gòu)的LLM被推出。從那時起,基于Transformer的LLM獲得了強勁的發(fā)展勢頭。語言建模由于其通用性特別具有吸引力。雖然許多現(xiàn)實世界的NLP任務(wù),如情感分析、信息檢索和信息提取不需要產(chǎn)生語言,但假設(shè)一個產(chǎn)生語言的模型也有技能來解決各種更專業(yè)的語言挑戰(zhàn)。

2.尺寸問題

學(xué)習(xí)發(fā)生在參數(shù)的基礎(chǔ)上--在訓(xùn)練過程中優(yōu)化的變量,以達(dá)到最佳預(yù)測質(zhì)量。隨著參數(shù)數(shù)量的增加,模型能夠獲得更細(xì)化的知識并改善其預(yù)測。自2017-2018年引入第一批LLM以來,我們看到了參數(shù)大小的指數(shù)級爆炸--雖然突破性的BERT是用340M的參數(shù)訓(xùn)練的,但2022年發(fā)布的模型Megatron-Turing NLG是用530B的參數(shù)訓(xùn)練的--增加了超過一千倍。

圖片

圖1:語言模型的參數(shù)大小隨時間呈指數(shù)增長

因此,主流通過使用不斷增大的參數(shù)數(shù)量來嘩眾取寵。然而,有批評的聲音指出,模型性能的增長速度與模型規(guī)模的增長速度不一致。另一方面,模型預(yù)訓(xùn)練會留下相當(dāng)大的碳足跡??s減規(guī)模顯得刻不容緩,它使語言建模的進(jìn)展更具有可持續(xù)性。

3.語言模型的生命周期

LLM的遠(yuǎn)景是富有競爭性的,創(chuàng)新是短暫的。下圖顯示了2018-2022年時間段內(nèi)最受歡迎的前15名LLM 模型,以及他們在一段時間內(nèi)的占有率。

圖片

圖2:前15個最受歡迎語言模型的提及率和占有率

我們可以看到,大多數(shù)模型在相對較短的時間內(nèi)就不那么流行了。為了保持領(lǐng)先,用戶應(yīng)該監(jiān)測當(dāng)前的創(chuàng)新,并評估升級是否值得。

大多數(shù)LLM都遵循一個類似的生命周期:首先,在 "上游",模型被預(yù)先訓(xùn)練。由于對數(shù)據(jù)量和計算量的要求很高,它大多是大型科技公司和大學(xué)的特權(quán)。最近,也有一些合作出現(xiàn)(例如BigScience研討會),以共同推進(jìn)LLM領(lǐng)域的發(fā)展。少數(shù)資金充足的初創(chuàng)公司,如Cohere和AI21實驗室,也提供預(yù)先訓(xùn)練好的LLM。

在發(fā)布之后,模型被專注于應(yīng)用的開發(fā)者和企業(yè)在 "下游 "采用和部署。在這個階段,大多數(shù)模型需要一個額外的微調(diào)步驟以適應(yīng)特定的領(lǐng)域和任務(wù)。其他的,如GPT-3,則更方便,因為它們可以在預(yù)測期間直接學(xué)習(xí)各種語言任務(wù)(零次或幾次預(yù)測)。

最后,時間敲響了大門,一個更好的模型出現(xiàn)在拐角處--要么有更多的參數(shù),更有效地使用硬件,要么對人類語言的建模有更根本的改進(jìn)。帶來實質(zhì)性創(chuàng)新的模型可以催生出整個模型家族。例如,BERT在BERT-QA、DistilBERT和RoBERTa中繼續(xù)存在,這些都是基于原始架構(gòu)的。

在接下來的章節(jié)中,我們將探討這個生命周期的前兩個階段--預(yù)訓(xùn)練和為部署而進(jìn)行的微調(diào)。

三、預(yù)訓(xùn)練:LLM是如何誕生的

大多數(shù)團隊和NLP從業(yè)者不會參與LLM的預(yù)訓(xùn)練,而是參與其微調(diào)和部署。然而,要成功地挑選和使用一個模型,重要的是要了解 "引擎蓋 "下發(fā)生了什么。在這一節(jié)中,我們將看一下LLM的基本成分。

  • 訓(xùn)練數(shù)據(jù)
  • 輸入表示
  • 訓(xùn)練前的目標(biāo)
  • 模型結(jié)構(gòu)(編碼器-解碼器)

每一項都不僅會影響到選擇,也會影響到LLM的微調(diào)和部署。

1.訓(xùn)練數(shù)據(jù)

用于LLM訓(xùn)練的數(shù)據(jù)大多是涵蓋不同風(fēng)格的文本數(shù)據(jù),如文學(xué)、用戶生成的內(nèi)容和新聞數(shù)據(jù)。在看到各種不同的文本類型后,產(chǎn)生的模型會意識到語言的細(xì)節(jié)。除文本數(shù)據(jù)外,代碼也經(jīng)常被用作輸入,教導(dǎo)模型生成有效的程序和代碼片段。

不出所料,訓(xùn)練數(shù)據(jù)的質(zhì)量對模型的性能有直接影響--也對模型所需的大小有影響。如果用更加聰明的方式準(zhǔn)備訓(xùn)練數(shù)據(jù),就可以提高模型的質(zhì)量,同時減少其數(shù)據(jù)的容量。一個例子是T0模型,它比GPT-3小16倍,但在一系列基準(zhǔn)任務(wù)上勝過它。訣竅就在這里:它不只是使用任何文本作為訓(xùn)練數(shù)據(jù),而是直接使用任務(wù)公式,從而使其學(xué)習(xí)信號更加集中。圖3說明了一些訓(xùn)練實例。

圖片

圖3:T0在廣泛明確的語言任務(wù)上進(jìn)行訓(xùn)練

關(guān)于訓(xùn)練數(shù)據(jù)的最后說明:我們經(jīng)常聽說語言模型是以無監(jiān)督的方式訓(xùn)練的。雖然這種方式極具吸引力,但在技術(shù)上是錯誤的。相反,格式良好的文本已經(jīng)提供了必要的學(xué)習(xí)信號,使我們省去了繁瑣的手工數(shù)據(jù)注釋過程。要預(yù)測的標(biāo)簽對應(yīng)于一個句子中的過去和/或未來的詞。因此,注釋是自動發(fā)生的,而且是大規(guī)模的,使得該領(lǐng)域的相對快速進(jìn)展成為可能。

2.輸入表示

一旦訓(xùn)練數(shù)據(jù)被集合起來,我們需要將其打包成模型可以應(yīng)用的形式。神經(jīng)網(wǎng)絡(luò)是用代數(shù)結(jié)構(gòu)(向量和矩陣)來輸入的,而語言的最佳代數(shù)表示是一個持續(xù)的探索--從簡單的詞組到包含高度差異化的語境信息。每一個新的步驟都會增加自然語言的復(fù)雜度,暴露出當(dāng)前表示法的局限性。

語言的基本單位是單詞。在NLP的初期,這就產(chǎn)生了詞包表示法,即把文本中的所有詞都扔在一起,而不考慮它們的排序。請看這兩個例子。

在詞包世界里,這些句子會得到完全相同的表述,因為它們由相同的詞組成。顯然,這只包含了它們意義的一小部分。

序列表征容納了關(guān)于詞序的信息。在深度學(xué)習(xí)中,序列的處理最初是在順序感知的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中實現(xiàn)的。然而,再往前走一步,語言的基本結(jié)構(gòu)不是純粹的順序,而是分層的。換句話說,我們談?wù)摰牟皇橇斜?,而是樹。相距較遠(yuǎn)的詞實際上可以比相鄰的詞有更強的句法和語義聯(lián)系。請看下面的例子。

這里,她指的是那個女孩。當(dāng)一個RNN到達(dá)句子的結(jié)尾并最終看到她時,它對句子開頭的記憶可能已經(jīng)在消退,因此不允許它恢復(fù)這種關(guān)系。

為了解決這些長距離的依賴性,人們提出了更復(fù)雜的神經(jīng)結(jié)構(gòu),以建立一個更有區(qū)別的語境記憶。其想法是將與未來預(yù)測有關(guān)的詞保留在記憶中,而忘記其他的詞。這是長短時記憶(LSTM)單元和門控循環(huán)單元(GRU)的貢獻(xiàn)。然而,這些模型并不針對要預(yù)測的具體位置進(jìn)行優(yōu)化,而是針對通用的未來背景。此外,由于其復(fù)雜的結(jié)構(gòu),它們的訓(xùn)練速度甚至比傳統(tǒng)的RNN更慢。

最后,人們摒棄了遞歸,提出了注意力機制,并將其納入Transformer架構(gòu)中。注意力允許模型在預(yù)測過程中在不同的詞之間來回關(guān)注。每個詞都根據(jù)其與要預(yù)測的特定位置的相關(guān)性進(jìn)行加權(quán)。對于上述句子,一旦模型到達(dá) "她 "的位置,girl的權(quán)重就會高于at,盡管它在線性順序中要遠(yuǎn)得多。

到目前為止,注意力機制最接近人類大腦在信息處理過程中的生物運作。研究表明,注意力可以學(xué)習(xí)層次化的句法結(jié)構(gòu),包括一系列復(fù)雜的句法現(xiàn)象。它還允許并行計算這一更快、更有效的訓(xùn)練。

3.培訓(xùn)前的目標(biāo)

有了適當(dāng)?shù)挠?xùn)練數(shù)據(jù)表示,我們的模型就可以開始學(xué)習(xí)。有三個用于預(yù)訓(xùn)練語言模型的通用目標(biāo):序列到序列的轉(zhuǎn)換、自動回歸和自動編碼。所有這些都要求模型掌握廣泛的語言學(xué)知識。

編碼器-解碼器架構(gòu)以及Transformer模型所解決的原始任務(wù)是序列到序列的轉(zhuǎn)換:一個序列被轉(zhuǎn)換為不同表示框架中的序列。經(jīng)典的序列到序列的任務(wù)是機器翻譯,但其他任務(wù),如總結(jié),也經(jīng)常以這種方式來表述。請注意,目標(biāo)序列不一定是文本--它也可以是其他非結(jié)構(gòu)化數(shù)據(jù),如圖像,以及結(jié)構(gòu)化數(shù)據(jù),如編程語言。序列到序列的LLMs的一個例子是BART系列。

第二個任務(wù)是自動回歸,這也是最初的語言建模目標(biāo)。在自動回歸中,模型學(xué)習(xí)根據(jù)以前的標(biāo)記來預(yù)測下一個輸出(token)。學(xué)習(xí)信號受到企業(yè)單向性的限制--模型只能使用來自預(yù)測令牌的右邊或左邊的信息。這是一個主要的限制,因為單詞既可以取決于過去,也可以取決于未來的位置。作為一個例子,考慮一下寫的動詞如何在兩個方向上影響下面的句子。

圖片

在這里,紙的位置被限制為可寫的東西,而學(xué)生的位置被限制為人類,或者,無論如何,另一個能夠?qū)懽鞯闹悄軐嶓w。

今天的頭條新聞中的許多LLM都是自回歸的,包括GPT系列、PaLM和BLOOM。

第三項任務(wù)--自動編碼--解決了單向性的問題。自動編碼與經(jīng)典詞嵌入的學(xué)習(xí)非常相似。首先,我們通過在輸入中隱藏一定比例的標(biāo)記(通常是10-20%)來破壞訓(xùn)練數(shù)據(jù)。然后,該模型學(xué)習(xí)根據(jù)周圍的環(huán)境重建正確的輸入,同時考慮到前面和后面的標(biāo)記。自動編碼器的典型例子是BERT系列,其中BERT代表來自變形器的雙向編碼器表示法。

4.模型結(jié)構(gòu)(編碼器-解碼器)

語言模型的基本構(gòu)成部分是編碼器和解碼器。編碼器將原始輸入轉(zhuǎn)化為高維代數(shù)表示,也稱為 "隱藏 "向量。等一下--隱藏的?嗯,實際上在這一點上沒有什么大的秘密。當(dāng)然,你可以看一下這個表示,但一個冗長的數(shù)字向量不會向人傳達(dá)任何有意義的東西。這需要我們的模型的數(shù)學(xué)智能來處理它。解碼器以一種可理解的形式再現(xiàn)隱藏的表示,如另一種語言、編程代碼、圖像等。

圖片

圖4:編碼器-解碼器結(jié)構(gòu)的基本模式

編碼器-解碼器架構(gòu)最初是為遞歸神經(jīng)網(wǎng)絡(luò)引入的。自從引入基于注意力的Transformer模型以來,傳統(tǒng)的遞歸已經(jīng)失去了它的流行,而編碼器-解碼器的想法卻一直存在。大多數(shù)自然語言理解(NLU)任務(wù)依賴于編碼器,而自然語言生成(NLG)任務(wù)需要解碼器,序列到序列的轉(zhuǎn)換需要這兩個組件。

我們不會在這里討論Transformer架構(gòu)和關(guān)注機制的細(xì)節(jié)。對于那些想掌握這些細(xì)節(jié)的人來說,要準(zhǔn)備好花大量的時間去琢磨它。

四、在現(xiàn)實世界中使用語言模型

1.微調(diào)

語言建模是一項強大的上游任務(wù)--如果你有一個成功的語言模型,恭喜你--這是一個智能模型。相反,NLP大多被用于更有針對性的下游任務(wù),如情感分析、問題回答和信息提取。這就是應(yīng)用遷移學(xué)習(xí)和重用現(xiàn)有語言知識以應(yīng)對更具體挑戰(zhàn)的時候。在微調(diào)過程中,模型的一部分被 "凍結(jié)",其余部分則用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進(jìn)一步訓(xùn)練。

明確的微調(diào)增加了LLM部署道路上的復(fù)雜性。它還會導(dǎo)致模型爆炸,即每個業(yè)務(wù)任務(wù)都需要自己的微調(diào)模型,從而升級到無法維護(hù)的各種模型。因此,人們已經(jīng)努力使用少量或零次學(xué)習(xí)來擺脫微調(diào)步驟(例如在GPT-3中)。這種學(xué)習(xí)是在預(yù)測過程中發(fā)生的:向模型提供 "提示"--任務(wù)描述和可能的幾個訓(xùn)練實例--以指導(dǎo)其對未來實例的預(yù)測。

雖然實施起來要快得多,但零次或少量學(xué)習(xí)的便利因素被其較低的預(yù)測質(zhì)量所抵消。此外,許多這樣的模型需要通過云端API訪問。在開發(fā)初期,這可能是一個受歡迎的機會--然而,在更高級的階段,它可能變成另一個不需要的外部依賴。

2.為下游任務(wù)挑選合適的模型

看著人工智能市場上不斷供應(yīng)的新語言模型,為特定的下游任務(wù)選擇合適的模型并與最先進(jìn)的技術(shù)保持同步是很棘手的。

研究論文通常以特定的下游任務(wù)和數(shù)據(jù)集作為每個模型的基準(zhǔn)。標(biāo)準(zhǔn)化的任務(wù)套件,如SuperGLUE和BIG-bench,可以針對眾多的NLP任務(wù)進(jìn)行統(tǒng)一的基準(zhǔn)測試,并提供一個比較的基礎(chǔ)。不過,我們應(yīng)該記住,這些測試是在一個高度受控的環(huán)境中準(zhǔn)備的。到今天為止,語言模型的泛化能力相當(dāng)有限--因此,轉(zhuǎn)移到現(xiàn)實生活中的數(shù)據(jù)集可能會大大影響模型的性能。評估和選擇一個合適的模型應(yīng)該包括在盡可能接近生產(chǎn)數(shù)據(jù)的數(shù)據(jù)上進(jìn)行實驗。

作為一條經(jīng)驗法則,預(yù)訓(xùn)練目標(biāo)提供了一個重要的提示:自回歸模型在文本生成任務(wù)中表現(xiàn)良好,如對話式人工智能、問題回答和文本總結(jié),而自動編碼器擅長 "理解 "和結(jié)構(gòu)化語言,例如用于情感分析和各種信息提取任務(wù)。理論上,只要收到適當(dāng)?shù)奶崾?,用于零點學(xué)習(xí)的模型可以執(zhí)行各種任務(wù)--然而,它們的準(zhǔn)確率通常低于經(jīng)過微調(diào)的模型。

為了使事情更加具體,下圖顯示了流行的NLP任務(wù)是如何與NLP文獻(xiàn)中突出的語言模型相關(guān)聯(lián)的。這些關(guān)聯(lián)是根據(jù)多種相似性和聚合度量計算的,包括嵌入相似性和距離加權(quán)共同發(fā)生。得分較高的模型-任務(wù)對,如BART/文本總結(jié)和LaMDA/對話式人工智能,表明基于歷史數(shù)據(jù)的良好匹配。

圖片

圖5:語言模型和下游任務(wù)之間的關(guān)聯(lián)強度

五、主要收獲

在這篇文章中,我們已經(jīng)涵蓋了LLM的基本概念和正在發(fā)生創(chuàng)新的主要層面。下表提供了最受歡迎的LLM的主要特征摘要。

圖片

表1:最受歡迎的大型語言模型的特征摘要

讓我們總結(jié)一下選擇和LLM的一般準(zhǔn)則。

1.在評估潛在模式時,要清楚在人工智能旅程中的位置。

  • 在開始的時候,用通過云API部署的LLM做實驗可能是一個好主意。
  • 一旦找到了產(chǎn)品與市場的契合點,考慮在你這邊托管和維護(hù)你的模型,以便有更多的控制權(quán),并進(jìn)一步提高模型的性能,以滿足你的應(yīng)用。

2.為了與你的下游任務(wù)保持一致,人工智能團隊?wèi)?yīng)該根據(jù)以下標(biāo)準(zhǔn)創(chuàng)建一個模型的短名單。

以下游任務(wù)為重點,對學(xué)術(shù)文獻(xiàn)中的成果進(jìn)行基準(zhǔn)測試

預(yù)培訓(xùn)目標(biāo)和下游任務(wù)之間的一致性:考慮為NLGU進(jìn)行自動編碼,為NLG進(jìn)行自動回歸。

以前報告的這種模型-任務(wù)組合的經(jīng)驗。

3.對入圍的模型進(jìn)行測試,以了解真實世界的任務(wù)和數(shù)據(jù)集,從而對性能有一個初步的感覺。

4.在大多數(shù)情況下,有可能通過專門的微調(diào)達(dá)到更好的質(zhì)量。然而,如果你沒有內(nèi)部技術(shù)能力或預(yù)算進(jìn)行微調(diào),或者你需要覆蓋大量的任務(wù),可以考慮少數(shù)/零次學(xué)習(xí)。

5.LLM的創(chuàng)新和趨勢是短暫的。在使用語言模型時,要注意它們的生命周期和LLM領(lǐng)域的整體活動,并注意加強你的游戲機會。

最后,要意識到LLMs的局限性。雖然它們有驚人的、類似于人類的產(chǎn)生語言的能力,但它們的整體認(rèn)知能力與我們?nèi)祟愊啾仁怯胁罹嗟?。這些模型的世界知識和推理能力嚴(yán)格限制在它們在語言表面發(fā)現(xiàn)的信息。它們也不能把事實放在時間上,可能會不眨眼地給你提供過時的信息。如果你正在構(gòu)建一個依賴于生成最新甚至是原始知識的應(yīng)用程序,請考慮將你的LLM與額外的多模態(tài)、結(jié)構(gòu)化或動態(tài)知識源相結(jié)合。

原文鏈接:https://www.topbots.com/choosing-the-right-language-model/

譯者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2014-08-18 10:58:20

編程語言編程書籍

2021-08-31 08:00:00

開發(fā)軟件框架

2023-09-11 09:58:46

2016-01-06 10:06:17

編程語言工作選擇

2011-11-17 08:39:56

數(shù)據(jù)中心網(wǎng)絡(luò)

2023-05-10 15:49:10

NLP語言模型

2024-03-13 13:19:11

物聯(lián)網(wǎng)通信模式

2019-06-04 08:19:40

物聯(lián)網(wǎng)項目模型物聯(lián)網(wǎng)

2023-04-04 08:00:00

LazyPredic機器學(xué)習(xí)ML模型

2024-09-13 12:33:57

2019-05-07 11:18:51

機器學(xué)習(xí)人工智能計算機

2023-08-23 19:11:01

Kubernetes系統(tǒng)云原生

2013-01-07 11:38:54

VMware認(rèn)證

2011-12-22 10:41:45

布線數(shù)據(jù)中心布線

2025-06-30 04:30:00

2011-02-16 09:21:41

諾基亞微軟

2020-07-23 11:23:51

存儲備份數(shù)據(jù)

2020-02-04 14:25:29

云遷移云計算云平臺

2011-02-16 09:09:10

諾基亞微軟

2018-04-23 14:58:27

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號