偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="mgzyp"></tfoot>

<del id="mgzyp"><mark id="mgzyp"><kbd id="mgzyp"></kbd></mark></del>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為NLP選擇正確的語言模型

作者：崔皓 2022-11-29 07:14:56

人工智能深度學(xué)習(xí)

本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個直觀的理解，以及一種與開發(fā)者和人工智能專家高效互動的語言。

譯者 | 崔皓

審校 | 孫淑娟

一、開篇

大型語言模型（LLMs）是為產(chǎn)生文本而訓(xùn)練的深度學(xué)習(xí)模型。憑借令人印象深刻的能力，LLMs已經(jīng)成為現(xiàn)代自然語言處理（NLP）的佼佼者。傳統(tǒng)意義上，它們是由學(xué)術(shù)機構(gòu)和大型科技公司（如OpenAI、微軟和英偉達(dá)）預(yù)先訓(xùn)練而成的。它們中的大多數(shù)隨后被提供給公眾使用。這種即插即用的方法是向大規(guī)模的人工智能應(yīng)用邁出的重要一步--企業(yè)現(xiàn)在可以專注于為特定的使用案例微調(diào)現(xiàn)有的LLM模型，而不是花費大量資源來訓(xùn)練具有一般語言知識的模型。

然而，為應(yīng)用挑選合適的模型仍舊是很棘手的。用戶和其他利益相關(guān)者必須在一個充滿活力的語言模型和相關(guān)的創(chuàng)新場景中做出選擇。這些改進(jìn)涉及語言模型的不同組成部分，包括其訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練目標(biāo)、架構(gòu)和微調(diào)方法--每一個方面都可以寫一本書。在所有這些研究的基礎(chǔ)上，圍繞著語言模型的營銷和人工智能的光環(huán)使事情變得更加模糊不清。

本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個直觀的理解，以及一種與開發(fā)者和人工智能專家高效互動的語言。為了擴大覆蓋面，文章包括了植根于大量NLP相關(guān)出版物的分析。雖然我們不會深入研究語言模型的數(shù)學(xué)細(xì)節(jié)，但這些可以很容易從參考文獻(xiàn)中檢索到。

文章的結(jié)構(gòu)如下：首先，將語言模型置于不斷發(fā)展的NLP環(huán)境中。第二部分解釋了LLMs是如何建立和預(yù)訓(xùn)練的。最后，會描述微調(diào)過程并提供了一些關(guān)于模型選擇的指導(dǎo)。

二、語言模型的世界

1.彌合人機差距

語言是人類思維的迷人技能--它是知識交流的通用協(xié)議，并表達(dá)主觀想法，如意圖、意見和情感。在人工智能的歷史上，已經(jīng)有多波研究用數(shù)學(xué)手段來接近（"建模"）人類語言。在深度學(xué)習(xí)時代之前，表征是基于簡單的代數(shù)和概率概念，如單詞的單熱表征、序列概率模型和遞歸結(jié)構(gòu)。隨著過去幾年深度學(xué)習(xí)的發(fā)展，語言表征的精度、復(fù)雜性和表現(xiàn)力都有所提高。

2018年，BERT作為第一個基于新Transformer架構(gòu)的LLM被推出。從那時起，基于Transformer的LLM獲得了強勁的發(fā)展勢頭。語言建模由于其通用性特別具有吸引力。雖然許多現(xiàn)實世界的NLP任務(wù)，如情感分析、信息檢索和信息提取不需要產(chǎn)生語言，但假設(shè)一個產(chǎn)生語言的模型也有技能來解決各種更專業(yè)的語言挑戰(zhàn)。

2.尺寸問題

學(xué)習(xí)發(fā)生在參數(shù)的基礎(chǔ)上--在訓(xùn)練過程中優(yōu)化的變量，以達(dá)到最佳預(yù)測質(zhì)量。隨著參數(shù)數(shù)量的增加，模型能夠獲得更細(xì)化的知識并改善其預(yù)測。自2017-2018年引入第一批LLM以來，我們看到了參數(shù)大小的指數(shù)級爆炸--雖然突破性的BERT是用340M的參數(shù)訓(xùn)練的，但2022年發(fā)布的模型Megatron-Turing NLG是用530B的參數(shù)訓(xùn)練的--增加了超過一千倍。

圖1：語言模型的參數(shù)大小隨時間呈指數(shù)增長

因此，主流通過使用不斷增大的參數(shù)數(shù)量來嘩眾取寵。然而，有批評的聲音指出，模型性能的增長速度與模型規(guī)模的增長速度不一致。另一方面，模型預(yù)訓(xùn)練會留下相當(dāng)大的碳足跡?？s減規(guī)模顯得刻不容緩，它使語言建模的進(jìn)展更具有可持續(xù)性。

3.語言模型的生命周期

LLM的遠(yuǎn)景是富有競爭性的，創(chuàng)新是短暫的。下圖顯示了2018-2022年時間段內(nèi)最受歡迎的前15名LLM 模型，以及他們在一段時間內(nèi)的占有率。

圖2：前15個最受歡迎語言模型的提及率和占有率

我們可以看到，大多數(shù)模型在相對較短的時間內(nèi)就不那么流行了。為了保持領(lǐng)先，用戶應(yīng)該監(jiān)測當(dāng)前的創(chuàng)新，并評估升級是否值得。

大多數(shù)LLM都遵循一個類似的生命周期：首先，在 "上游"，模型被預(yù)先訓(xùn)練。由于對數(shù)據(jù)量和計算量的要求很高，它大多是大型科技公司和大學(xué)的特權(quán)。最近，也有一些合作出現(xiàn)（例如BigScience研討會），以共同推進(jìn)LLM領(lǐng)域的發(fā)展。少數(shù)資金充足的初創(chuàng)公司，如Cohere和AI21實驗室，也提供預(yù)先訓(xùn)練好的LLM。

在發(fā)布之后，模型被專注于應(yīng)用的開發(fā)者和企業(yè)在 "下游 "采用和部署。在這個階段，大多數(shù)模型需要一個額外的微調(diào)步驟以適應(yīng)特定的領(lǐng)域和任務(wù)。其他的，如GPT-3，則更方便，因為它們可以在預(yù)測期間直接學(xué)習(xí)各種語言任務(wù)（零次或幾次預(yù)測）。

最后，時間敲響了大門，一個更好的模型出現(xiàn)在拐角處--要么有更多的參數(shù)，更有效地使用硬件，要么對人類語言的建模有更根本的改進(jìn)。帶來實質(zhì)性創(chuàng)新的模型可以催生出整個模型家族。例如，BERT在BERT-QA、DistilBERT和RoBERTa中繼續(xù)存在，這些都是基于原始架構(gòu)的。

在接下來的章節(jié)中，我們將探討這個生命周期的前兩個階段--預(yù)訓(xùn)練和為部署而進(jìn)行的微調(diào)。

三、預(yù)訓(xùn)練：LLM是如何誕生的

大多數(shù)團隊和NLP從業(yè)者不會參與LLM的預(yù)訓(xùn)練，而是參與其微調(diào)和部署。然而，要成功地挑選和使用一個模型，重要的是要了解 "引擎蓋 "下發(fā)生了什么。在這一節(jié)中，我們將看一下LLM的基本成分。

訓(xùn)練數(shù)據(jù)
輸入表示
訓(xùn)練前的目標(biāo)
模型結(jié)構(gòu)（編碼器-解碼器）

每一項都不僅會影響到選擇，也會影響到LLM的微調(diào)和部署。

1.訓(xùn)練數(shù)據(jù)

用于LLM訓(xùn)練的數(shù)據(jù)大多是涵蓋不同風(fēng)格的文本數(shù)據(jù)，如文學(xué)、用戶生成的內(nèi)容和新聞數(shù)據(jù)。在看到各種不同的文本類型后，產(chǎn)生的模型會意識到語言的細(xì)節(jié)。除文本數(shù)據(jù)外，代碼也經(jīng)常被用作輸入，教導(dǎo)模型生成有效的程序和代碼片段。

不出所料，訓(xùn)練數(shù)據(jù)的質(zhì)量對模型的性能有直接影響--也對模型所需的大小有影響。如果用更加聰明的方式準(zhǔn)備訓(xùn)練數(shù)據(jù)，就可以提高模型的質(zhì)量，同時減少其數(shù)據(jù)的容量。一個例子是T0模型，它比GPT-3小16倍，但在一系列基準(zhǔn)任務(wù)上勝過它。訣竅就在這里：它不只是使用任何文本作為訓(xùn)練數(shù)據(jù)，而是直接使用任務(wù)公式，從而使其學(xué)習(xí)信號更加集中。圖3說明了一些訓(xùn)練實例。

圖3：T0在廣泛明確的語言任務(wù)上進(jìn)行訓(xùn)練

關(guān)于訓(xùn)練數(shù)據(jù)的最后說明：我們經(jīng)常聽說語言模型是以無監(jiān)督的方式訓(xùn)練的。雖然這種方式極具吸引力，但在技術(shù)上是錯誤的。相反，格式良好的文本已經(jīng)提供了必要的學(xué)習(xí)信號，使我們省去了繁瑣的手工數(shù)據(jù)注釋過程。要預(yù)測的標(biāo)簽對應(yīng)于一個句子中的過去和/或未來的詞。因此，注釋是自動發(fā)生的，而且是大規(guī)模的，使得該領(lǐng)域的相對快速進(jìn)展成為可能。

2.輸入表示

一旦訓(xùn)練數(shù)據(jù)被集合起來，我們需要將其打包成模型可以應(yīng)用的形式。神經(jīng)網(wǎng)絡(luò)是用代數(shù)結(jié)構(gòu)（向量和矩陣）來輸入的，而語言的最佳代數(shù)表示是一個持續(xù)的探索--從簡單的詞組到包含高度差異化的語境信息。每一個新的步驟都會增加自然語言的復(fù)雜度，暴露出當(dāng)前表示法的局限性。

語言的基本單位是單詞。在NLP的初期，這就產(chǎn)生了詞包表示法，即把文本中的所有詞都扔在一起，而不考慮它們的排序。請看這兩個例子。

在詞包世界里，這些句子會得到完全相同的表述，因為它們由相同的詞組成。顯然，這只包含了它們意義的一小部分。

序列表征容納了關(guān)于詞序的信息。在深度學(xué)習(xí)中，序列的處理最初是在順序感知的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）中實現(xiàn)的。然而，再往前走一步，語言的基本結(jié)構(gòu)不是純粹的順序，而是分層的。換句話說，我們談?wù)摰牟皇橇斜?，而是樹。相距較遠(yuǎn)的詞實際上可以比相鄰的詞有更強的句法和語義聯(lián)系。請看下面的例子。

這里，她指的是那個女孩。當(dāng)一個RNN到達(dá)句子的結(jié)尾并最終看到她時，它對句子開頭的記憶可能已經(jīng)在消退，因此不允許它恢復(fù)這種關(guān)系。

為了解決這些長距離的依賴性，人們提出了更復(fù)雜的神經(jīng)結(jié)構(gòu)，以建立一個更有區(qū)別的語境記憶。其想法是將與未來預(yù)測有關(guān)的詞保留在記憶中，而忘記其他的詞。這是長短時記憶（LSTM）單元和門控循環(huán)單元（GRU）的貢獻(xiàn)。然而，這些模型并不針對要預(yù)測的具體位置進(jìn)行優(yōu)化，而是針對通用的未來背景。此外，由于其復(fù)雜的結(jié)構(gòu)，它們的訓(xùn)練速度甚至比傳統(tǒng)的RNN更慢。

最后，人們摒棄了遞歸，提出了注意力機制，并將其納入Transformer架構(gòu)中。注意力允許模型在預(yù)測過程中在不同的詞之間來回關(guān)注。每個詞都根據(jù)其與要預(yù)測的特定位置的相關(guān)性進(jìn)行加權(quán)。對于上述句子，一旦模型到達(dá) "她 "的位置，girl的權(quán)重就會高于at，盡管它在線性順序中要遠(yuǎn)得多。

到目前為止，注意力機制最接近人類大腦在信息處理過程中的生物運作。研究表明，注意力可以學(xué)習(xí)層次化的句法結(jié)構(gòu)，包括一系列復(fù)雜的句法現(xiàn)象。它還允許并行計算這一更快、更有效的訓(xùn)練。

3.培訓(xùn)前的目標(biāo)

有了適當(dāng)?shù)挠?xùn)練數(shù)據(jù)表示，我們的模型就可以開始學(xué)習(xí)。有三個用于預(yù)訓(xùn)練語言模型的通用目標(biāo)：序列到序列的轉(zhuǎn)換、自動回歸和自動編碼。所有這些都要求模型掌握廣泛的語言學(xué)知識。

編碼器-解碼器架構(gòu)以及Transformer模型所解決的原始任務(wù)是序列到序列的轉(zhuǎn)換：一個序列被轉(zhuǎn)換為不同表示框架中的序列。經(jīng)典的序列到序列的任務(wù)是機器翻譯，但其他任務(wù)，如總結(jié)，也經(jīng)常以這種方式來表述。請注意，目標(biāo)序列不一定是文本--它也可以是其他非結(jié)構(gòu)化數(shù)據(jù)，如圖像，以及結(jié)構(gòu)化數(shù)據(jù)，如編程語言。序列到序列的LLMs的一個例子是BART系列。

第二個任務(wù)是自動回歸，這也是最初的語言建模目標(biāo)。在自動回歸中，模型學(xué)習(xí)根據(jù)以前的標(biāo)記來預(yù)測下一個輸出（token）。學(xué)習(xí)信號受到企業(yè)單向性的限制--模型只能使用來自預(yù)測令牌的右邊或左邊的信息。這是一個主要的限制，因為單詞既可以取決于過去，也可以取決于未來的位置。作為一個例子，考慮一下寫的動詞如何在兩個方向上影響下面的句子。

在這里，紙的位置被限制為可寫的東西，而學(xué)生的位置被限制為人類，或者，無論如何，另一個能夠?qū)懽鞯闹悄軐嶓w。

今天的頭條新聞中的許多LLM都是自回歸的，包括GPT系列、PaLM和BLOOM。

第三項任務(wù)--自動編碼--解決了單向性的問題。自動編碼與經(jīng)典詞嵌入的學(xué)習(xí)非常相似。首先，我們通過在輸入中隱藏一定比例的標(biāo)記（通常是10-20%）來破壞訓(xùn)練數(shù)據(jù)。然后，該模型學(xué)習(xí)根據(jù)周圍的環(huán)境重建正確的輸入，同時考慮到前面和后面的標(biāo)記。自動編碼器的典型例子是BERT系列，其中BERT代表來自變形器的雙向編碼器表示法。

4.模型結(jié)構(gòu)（編碼器-解碼器）

語言模型的基本構(gòu)成部分是編碼器和解碼器。編碼器將原始輸入轉(zhuǎn)化為高維代數(shù)表示，也稱為 "隱藏 "向量。等一下--隱藏的？嗯，實際上在這一點上沒有什么大的秘密。當(dāng)然，你可以看一下這個表示，但一個冗長的數(shù)字向量不會向人傳達(dá)任何有意義的東西。這需要我們的模型的數(shù)學(xué)智能來處理它。解碼器以一種可理解的形式再現(xiàn)隱藏的表示，如另一種語言、編程代碼、圖像等。

圖4：編碼器-解碼器結(jié)構(gòu)的基本模式

編碼器-解碼器架構(gòu)最初是為遞歸神經(jīng)網(wǎng)絡(luò)引入的。自從引入基于注意力的Transformer模型以來，傳統(tǒng)的遞歸已經(jīng)失去了它的流行，而編碼器-解碼器的想法卻一直存在。大多數(shù)自然語言理解（NLU）任務(wù)依賴于編碼器，而自然語言生成（NLG）任務(wù)需要解碼器，序列到序列的轉(zhuǎn)換需要這兩個組件。

我們不會在這里討論Transformer架構(gòu)和關(guān)注機制的細(xì)節(jié)。對于那些想掌握這些細(xì)節(jié)的人來說，要準(zhǔn)備好花大量的時間去琢磨它。

四、在現(xiàn)實世界中使用語言模型

1.微調(diào)

語言建模是一項強大的上游任務(wù)--如果你有一個成功的語言模型，恭喜你--這是一個智能模型。相反，NLP大多被用于更有針對性的下游任務(wù)，如情感分析、問題回答和信息提取。這就是應(yīng)用遷移學(xué)習(xí)和重用現(xiàn)有語言知識以應(yīng)對更具體挑戰(zhàn)的時候。在微調(diào)過程中，模型的一部分被 "凍結(jié)"，其余部分則用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進(jìn)一步訓(xùn)練。

明確的微調(diào)增加了LLM部署道路上的復(fù)雜性。它還會導(dǎo)致模型爆炸，即每個業(yè)務(wù)任務(wù)都需要自己的微調(diào)模型，從而升級到無法維護(hù)的各種模型。因此，人們已經(jīng)努力使用少量或零次學(xué)習(xí)來擺脫微調(diào)步驟（例如在GPT-3中）。這種學(xué)習(xí)是在預(yù)測過程中發(fā)生的：向模型提供 "提示"--任務(wù)描述和可能的幾個訓(xùn)練實例--以指導(dǎo)其對未來實例的預(yù)測。

雖然實施起來要快得多，但零次或少量學(xué)習(xí)的便利因素被其較低的預(yù)測質(zhì)量所抵消。此外，許多這樣的模型需要通過云端API訪問。在開發(fā)初期，這可能是一個受歡迎的機會--然而，在更高級的階段，它可能變成另一個不需要的外部依賴。

2.為下游任務(wù)挑選合適的模型

看著人工智能市場上不斷供應(yīng)的新語言模型，為特定的下游任務(wù)選擇合適的模型并與最先進(jìn)的技術(shù)保持同步是很棘手的。

研究論文通常以特定的下游任務(wù)和數(shù)據(jù)集作為每個模型的基準(zhǔn)。標(biāo)準(zhǔn)化的任務(wù)套件，如SuperGLUE和BIG-bench，可以針對眾多的NLP任務(wù)進(jìn)行統(tǒng)一的基準(zhǔn)測試，并提供一個比較的基礎(chǔ)。不過，我們應(yīng)該記住，這些測試是在一個高度受控的環(huán)境中準(zhǔn)備的。到今天為止，語言模型的泛化能力相當(dāng)有限--因此，轉(zhuǎn)移到現(xiàn)實生活中的數(shù)據(jù)集可能會大大影響模型的性能。評估和選擇一個合適的模型應(yīng)該包括在盡可能接近生產(chǎn)數(shù)據(jù)的數(shù)據(jù)上進(jìn)行實驗。

作為一條經(jīng)驗法則，預(yù)訓(xùn)練目標(biāo)提供了一個重要的提示：自回歸模型在文本生成任務(wù)中表現(xiàn)良好，如對話式人工智能、問題回答和文本總結(jié)，而自動編碼器擅長 "理解 "和結(jié)構(gòu)化語言，例如用于情感分析和各種信息提取任務(wù)。理論上，只要收到適當(dāng)?shù)奶崾?，用于零點學(xué)習(xí)的模型可以執(zhí)行各種任務(wù)--然而，它們的準(zhǔn)確率通常低于經(jīng)過微調(diào)的模型。

為了使事情更加具體，下圖顯示了流行的NLP任務(wù)是如何與NLP文獻(xiàn)中突出的語言模型相關(guān)聯(lián)的。這些關(guān)聯(lián)是根據(jù)多種相似性和聚合度量計算的，包括嵌入相似性和距離加權(quán)共同發(fā)生。得分較高的模型-任務(wù)對，如BART/文本總結(jié)和LaMDA/對話式人工智能，表明基于歷史數(shù)據(jù)的良好匹配。

圖5：語言模型和下游任務(wù)之間的關(guān)聯(lián)強度

五、主要收獲

在這篇文章中，我們已經(jīng)涵蓋了LLM的基本概念和正在發(fā)生創(chuàng)新的主要層面。下表提供了最受歡迎的LLM的主要特征摘要。

表1：最受歡迎的大型語言模型的特征摘要

讓我們總結(jié)一下選擇和LLM的一般準(zhǔn)則。

1.在評估潛在模式時，要清楚在人工智能旅程中的位置。

在開始的時候，用通過云API部署的LLM做實驗可能是一個好主意。
一旦找到了產(chǎn)品與市場的契合點，考慮在你這邊托管和維護(hù)你的模型，以便有更多的控制權(quán)，并進(jìn)一步提高模型的性能，以滿足你的應(yīng)用。

2.為了與你的下游任務(wù)保持一致，人工智能團隊?wèi)?yīng)該根據(jù)以下標(biāo)準(zhǔn)創(chuàng)建一個模型的短名單。

以下游任務(wù)為重點，對學(xué)術(shù)文獻(xiàn)中的成果進(jìn)行基準(zhǔn)測試

預(yù)培訓(xùn)目標(biāo)和下游任務(wù)之間的一致性：考慮為NLGU進(jìn)行自動編碼，為NLG進(jìn)行自動回歸。

以前報告的這種模型-任務(wù)組合的經(jīng)驗。

3.對入圍的模型進(jìn)行測試，以了解真實世界的任務(wù)和數(shù)據(jù)集，從而對性能有一個初步的感覺。

4.在大多數(shù)情況下，有可能通過專門的微調(diào)達(dá)到更好的質(zhì)量。然而，如果你沒有內(nèi)部技術(shù)能力或預(yù)算進(jìn)行微調(diào)，或者你需要覆蓋大量的任務(wù)，可以考慮少數(shù)/零次學(xué)習(xí)。

5.LLM的創(chuàng)新和趨勢是短暫的。在使用語言模型時，要注意它們的生命周期和LLM領(lǐng)域的整體活動，并注意加強你的游戲機會。

最后，要意識到LLMs的局限性。雖然它們有驚人的、類似于人類的產(chǎn)生語言的能力，但它們的整體認(rèn)知能力與我們?nèi)祟愊啾仁怯胁罹嗟?。這些模型的世界知識和推理能力嚴(yán)格限制在它們在語言表面發(fā)現(xiàn)的信息。它們也不能把事實放在時間上，可能會不眨眼地給你提供過時的信息。如果你正在構(gòu)建一個依賴于生成最新甚至是原始知識的應(yīng)用程序，請考慮將你的LLM與額外的多模態(tài)、結(jié)構(gòu)化或動態(tài)知識源相結(jié)合。

原文鏈接：https://www.topbots.com/choosing-the-right-language-model/

譯者介紹

崔皓，51CTO社區(qū)編輯，資深架構(gòu)師，擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗，10年分布式架構(gòu)經(jīng)驗。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

NLP 語言模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營