偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="lldz6"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Transformers回顧：從BERT到GPT4

作者：佚名 2023-05-09 15:41:03

人工智能已成為近年來最受關(guān)注的話題之一，由于神經(jīng)網(wǎng)絡(luò)的發(fā)展，曾經(jīng)被認(rèn)為純粹是科幻小說中的服務(wù)現(xiàn)在正在成為現(xiàn)實。從對話代理到媒體內(nèi)容生成，人工智能正在改變我們與技術(shù)互動的方式。特別是機器學(xué)習(xí) (ML) 模型在自然語言處理 (NLP) 領(lǐng)域取得了重大進展。

人工智能已成為近年來最受關(guān)注的話題之一，由于神經(jīng)網(wǎng)絡(luò)的發(fā)展，曾經(jīng)被認(rèn)為純粹是科幻小說中的服務(wù)現(xiàn)在正在成為現(xiàn)實。從對話代理到媒體內(nèi)容生成，人工智能正在改變我們與技術(shù)互動的方式。特別是機器學(xué)習(xí) (ML) 模型在自然語言處理 (NLP) 領(lǐng)域取得了重大進展。一個關(guān)鍵的突破是引入了“自注意力”和用于序列處理的Transformers架構(gòu)，這使得之前主導(dǎo)該領(lǐng)域的幾個關(guān)鍵問題得以解決。

在本文中，我們將研究革命性的Transformers架構(gòu)以及它如何改變NLP，我們還將全面回顧從BERT到Alpaca的Transformers模型，重點介紹每種模型的主要特征及其潛在應(yīng)用。

類似bert的文本模型

第一部分是基于Transformer編碼器的模型，用于向量化、分類、序列標(biāo)記、QA(問答)、NER(命名實體識別)等。

1、BERT Google / 2018

Transformer 編碼器，wordpiece tokenization（30K 詞匯量）。輸入嵌入由三個向量組成：標(biāo)記向量、可訓(xùn)練位置向量和片段向量（第一個文本或第二個文本）。模型輸入是 CLS 標(biāo)記嵌入、第一個文本的嵌入和第二個文本的嵌入。

BERT 有兩個訓(xùn)練任務(wù)：Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 中，15% 的令牌被屏蔽，80% 被 MASK 令牌替換，10% 被隨機令牌替換，10% 保持不變。模型會預(yù)測正確的令牌，而損失僅在這 15% 的屏蔽令牌上計算。在 NSP 中，模型預(yù)測第二個文本是否跟在第一個文本之后。預(yù)測是在 CLS 令牌的輸出向量上進行的。

為了加快訓(xùn)練速度，首先90%的訓(xùn)練在序列長度為 128 個標(biāo)記上進行，然后剩下的10% 的時間在 512 個標(biāo)記上訓(xùn)練模型以獲得更有效的位置嵌入。

2、RoBERTa Facebook / 2019

BERT的改進版本，它只在MLM上訓(xùn)練(因為NSP被認(rèn)為不太有用)，訓(xùn)練序列更長(512個令牌)。使用動態(tài)屏蔽(當(dāng)再次處理相同的數(shù)據(jù)時，不同的令牌被屏蔽)，訓(xùn)練超參數(shù)是精心選擇的。

3、XLM Facebook / 2019

訓(xùn)練多語言模型的方法之一是使用不同的基本模型(目前最流行的模型是基于RoBERTa的XLM-R)。在最初的XLM中，所有語言都有一個共享的BPE詞匯表。

XLM 有兩個訓(xùn)練任務(wù):MLM和翻譯。翻譯本質(zhì)上與一對文本上的 MLM 相同，但文本是彼此的平行翻譯，具有隨機掩碼和段嵌入編碼語言。

4、Transformer-XL Carnegie Mellon University / 2019

該模型設(shè)計用于處理長序列，主要有兩個思想:片段的循環(huán)處理和相對位置編碼。

長文本被分成幾個片段，每次處理一個片段。前一段的輸出被緩存，在計算當(dāng)前段中的自我關(guān)注時，鍵和值是基于當(dāng)前段和前一段的輸出計算的(只是簡單地連接在一起)。梯度也只在當(dāng)前段內(nèi)計算。

這種方法不適用于絕對位置。所以模型中重新參數(shù)化了注意力權(quán)重公式。絕對的位置編碼向量被一個固定的矩陣取代，該矩陣基于標(biāo)記位置之間距離的正弦值和對所有位置共有的可訓(xùn)練向量。

5、ERNIE 清華大學(xué)，華為 / 2019

將知識圖譜中有關(guān)命名實體的信息嵌入到 BERT 中。輸入由一組文本標(biāo)記和一組實體標(biāo)記組成（每個標(biāo)記代表整個實體）。文本標(biāo)記由 BERT 編碼。在 BERT 之上，有一組 K 編碼器塊（約占網(wǎng)絡(luò)參數(shù)的 3%）。在這些塊中：

文本標(biāo)記的更新向量和實體標(biāo)記的原始向量首先獨立地計算自注意力；
實體向量與它們在文本中出現(xiàn)的第一個標(biāo)記相匹配；
使用GeLU 激活，并且用于獲得文本標(biāo)記的新隱藏表示；
文本和實體標(biāo)記的新向量從隱藏表示中獲得，并作為輸入傳遞給下一個編碼器塊。

在預(yù)訓(xùn)練期間，計算三種損失：MLM、NSP 和來自令牌的實體預(yù)測（如自編碼器），自編碼器使用下面規(guī)則：

在 5% 的情況下，實體被替換為錯誤的實體，但匹配被保留，模型必須預(yù)測正確的實體；
在 15% 的情況下，匹配被移除，模型必須僅基于文本來預(yù)測實體；
在其他情況下，是正常的。

預(yù)訓(xùn)練模型可以像常規(guī) BERT 模型一樣進行微調(diào)（有 CLS 令牌）。也可以使用額外的程序進行微調(diào)以確定實體及其類型之間的關(guān)系。

6、XLNet Carnegie Mellon University / 2019

因為BERT訓(xùn)練過程存在問題：

在訓(xùn)練期間，損失計算僅計算掩碼標(biāo)記。
只有個別標(biāo)記被屏蔽，一個屏蔽標(biāo)記的預(yù)測不會影響其他標(biāo)記的預(yù)測。
模型在訓(xùn)練期間主動看到的實際應(yīng)用程序中沒有 MASK 令牌。

XLNet 基于 Transformer-XL，除了替換語言建模 (PLM) 任務(wù)外，它學(xué)習(xí)在短的上下文中預(yù)測標(biāo)記，而不是直接使用 MASK。這確保了梯度會計算所有標(biāo)記并消除了對特殊掩碼標(biāo)記的需要。

上下文中的標(biāo)記被打亂（比如：可以根據(jù)第 i-2個和第i+1個標(biāo)記預(yù)測第 i 個標(biāo)記），但它們的位置仍然是已知的。這無法通過當(dāng)前的位置編碼（包括 Transformer-XL）實現(xiàn)。當(dāng)嘗試在給定上下文的一部分的情況下預(yù)測令牌的概率時，模型不應(yīng)該知道本身的令牌，但應(yīng)該知道令牌在上下文中的位置。為了解決這個問題，他們將self-attention 分為兩個流：

在每個標(biāo)記位置，有兩個向量而不是一個：內(nèi)容向量和查詢向量。
內(nèi)容向量包含有關(guān)令牌的完整信息，而查詢向量僅包含位置信息。
token 的兩個向量都是基于上下文向量計算的，但是 self-attention 中的查詢向量是使用過去的內(nèi)容向量計算的，內(nèi)容向量是使用過去的查詢向量計算的。
query vector 不接收關(guān)于相應(yīng) token 的內(nèi)容的信息，但知道上下文的所有信息，而 content vector 包含完整的信息。

在微調(diào)期間，如果忽略查詢向量，模型將像常規(guī)的 Transformer-XL 一樣工作。

在實踐中該模型的要求上下文必須足夠長，以便模型能夠正確學(xué)習(xí)。它在與 RoBERTa 相同數(shù)量的數(shù)據(jù)上學(xué)習(xí)，結(jié)果相似，但由于實現(xiàn)的復(fù)雜性，該模型并沒有像 RoBERTa 那樣流行。

7、ALBERT Google / 2019

在不犧牲質(zhì)量的情況下簡化BERT:

在不同的編碼器塊中使用共同的參數(shù)，并且已經(jīng)證明可以共享自注意力的權(quán)重，但是分離全連接層的權(quán)重會導(dǎo)致質(zhì)量下降。
與BERT相比，使用了更小的輸入嵌入和更大的隱藏層向量。這可以通過在網(wǎng)絡(luò)輸入處使用一個額外的投影矩陣來實現(xiàn)，這樣也可以將嵌入的大小與隱藏表示的大小解耦。
模型的參數(shù)減少了18倍，運行速度提高了1.7倍。

模型在MLM和句子順序預(yù)測(SOP)上進行訓(xùn)練。

8、DistilBERT Google / 2019

另一種優(yōu)化BERT的方法是蒸餾:

編碼器塊的數(shù)量減半
三個損失成分:MLM、與教師模型輸出的交叉熵，以及相應(yīng)層輸出之間的余弦距離。
模型比教師模型小40%，速度快60%，并且在各種任務(wù)上保持了97%的質(zhì)量。

9、LaBSE Google / 2020

基于BERT的多語言矢量化模型。它在MLM和TLM上進行訓(xùn)練(20%的標(biāo)記被屏蔽)，然后對其進行微調(diào)。它支持100多種語言，包含500K個標(biāo)記的詞匯表。

10、ELECTRA Google, Stanford University / 2020

使用生成對抗方法加速BERT訓(xùn)練:

訓(xùn)練了兩個類bert模型:一個小型生成器和一個主鑒別器
生成器在MLM上進行訓(xùn)練，然后填充掩碼令牌
鑒別器被訓(xùn)練來預(yù)測由生成器生成的文本的原創(chuàng)性(替換檢測任務(wù))
訓(xùn)練完成后，去掉生成器，用鑒別器進行微調(diào)

訓(xùn)練數(shù)據(jù)的數(shù)量與RoBERTa或XLNet相同，并且模型比BERT、RoBERTa和ALBERT更快地學(xué)習(xí)到相似的質(zhì)量水平。訓(xùn)練時間越長，它的表現(xiàn)就越好。

11、DeBERTa Microsoft / 2020

另一種將標(biāo)記向量的內(nèi)容和位置分離為兩個單獨的向量的模型:

位置向量在所有層之間共享，并且是相對的，即標(biāo)記之間的每個可能距離都有一個。
為它們添加了兩個新的權(quán)重矩陣K_pos和Q_pos。
對注意力權(quán)重計算進行修改，簡化為三個乘積的和:Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
與ALBERT中一樣，使用投影矩陣將嵌入大小與隱藏標(biāo)記表示向量的大小解耦。

類似GPT 和T5的而模型

基于完整Transformers的模型。它的應(yīng)用范圍非常廣泛：除了上一節(jié)的任務(wù)外，它還包括會話代理、機器翻譯、邏輯和數(shù)學(xué)推理、代碼分析和生成，以及基本上文本生成。最大和“最智能”的模型通?；诮獯a器架構(gòu)。此類模型通常在 few-shot 和 zero-shot 模式下無需微調(diào)即可表現(xiàn)良好。

1、GPT-2 OpenAI / 2018

解碼器在因果LM的任務(wù)上進行訓(xùn)練(根據(jù)左側(cè)上下文預(yù)測下一個令牌)。從體系結(jié)構(gòu)的角度來看，有一些小的變化:從每個解碼器塊中移除交叉注意層，并使用了LayerNorm

使用的標(biāo)記器是字節(jié)級BPE (50K詞匯表)，沒有使用類似的子字符串例如（“dog”、“dog!”、“dog.”）。最大序列長度為 1024。層輸出緩存所有先前生成的標(biāo)記。

2、T5 Google / 2019

在MLM上進行完整的預(yù)訓(xùn)練(15%的令牌被屏蔽)，跨度由代碼掩碼(<X>， <Y>，…)屏蔽。輸出預(yù)測序列<X>span<Y>span…

LayerNorm在自注意力層和全連接層輸入之前應(yīng)用。使用相對位置編碼:

位置由可學(xué)習(xí)的嵌入編碼，其中每個“嵌入”只是在計算注意力權(quán)重時添加相應(yīng)logit的標(biāo)量。

矩陣B是跨層共享的，但對于不同的自注意力注頭是不同的。

每一層考慮令牌之間的128個距離，其余的歸零，這樣可以對比訓(xùn)練期間看到的序列更長的序列進行推理。

標(biāo)記化使用sentencepece (32K詞匯表)完成，在預(yù)訓(xùn)練期間最大序列長度為512。

3、BART Facebook / 2019

另一個完整的transformers，但是用GeLU取代了ReLU。訓(xùn)練它從噪聲文本(AE去噪)中預(yù)測原始文本，噪聲類型如下:

令牌屏蔽
刪除令牌
令牌填充
句子中令牌順序顛倒
使隨機令牌成為序列的開始

使用字節(jié)級BPE(詞匯表大小為50K)

4、CTRL Salesforce / 2019

使用前綴代碼令牌(例如，<Horror> input text…)控制生成的解碼器。在訓(xùn)練期間將代碼分配給適當(dāng)?shù)奈谋?，然后在推理期間使用代碼生成相應(yīng)樣式的文本。該模型是在因果LM上訓(xùn)練的，并且沒有使用額外的損失。使用的標(biāo)記化是BPE，詞匯表大小為250K。

5、GPT-3 OpenAI / 2020

這是一個具有Sparse Transformer架構(gòu)的GPT-2模型，并且增加了2048個令牌的序列長度。還記的那句話嗎：別問，問就是GPT3

6、mT5 Google / 2020

基于T5模型，具有類似的訓(xùn)練，但使用多語言數(shù)據(jù)。ReLU激活被替換為GeGLU，詞匯表擴展到250K個標(biāo)記。

7、GLAM Google / 2021

這個模型在概念上類似于Switch Transformer，但更側(cè)重于在少樣本的模式下工作，而不是微調(diào)。不同規(guī)模的模型使用32到256個專家層，K=2。使用來自Transformer-XL的相對位置編碼。在處理令牌時，只有不到10%的網(wǎng)絡(luò)參數(shù)被激活。

8、 LaMDA Google / 2021

類似gpt的模型。該模型是一個會話模型，在因果LM上進行了預(yù)訓(xùn)練，并在生成和判別任務(wù)上進行了微調(diào)。該模型還可以對外部系統(tǒng)(搜索、翻譯)的調(diào)用。

9、GPT-NeoX-20B EleutherAI / 2022

這個模型類似于GPT-J，也使用旋轉(zhuǎn)位置編碼。模型權(quán)重使用float16表示。最大序列長度為2048。

10、BLOOM BigScience / 2022

這是46種語言和13種編程語言的最大開源模型。為了訓(xùn)練模型，使用一個名為ROOTS的大型聚合數(shù)據(jù)集，其中包括大約500個開放數(shù)據(jù)集。

11、PaLM Google / 2022

這是一個大型多語言解碼器模型，使用Adafactor進行訓(xùn)練，在預(yù)訓(xùn)練時禁用dropout，在微調(diào)時使用0.1。

12、LLaMA Meta / 2023

用于科學(xué)研究的開源大型gpt類LM，已用于訓(xùn)練多個指令模型。該模型使用了pre-LayerNorm、SwiGLU激活和RoPE位置嵌入。因為開源所以這是彎道超車的主要模型之一。

文本的指導(dǎo)模型

這些模型抓喲用于校正模型輸出（例如 RLHF）以提高對話和任務(wù)解決期間的響應(yīng)質(zhì)量。

1、InstructGPT OpenAI / 2022

這項工作調(diào)整GPT-3以有效地遵循指示。該模型在一個由提示和答案組成的數(shù)據(jù)集上進行微調(diào)，這些提示和答案是人類根據(jù)一套標(biāo)準(zhǔn)認(rèn)為好的?；贗nstructGPT，OpenAI 創(chuàng)建了一個被我們現(xiàn)在熟知的模型ChatGPT。

2、Flan-T5 Google / 2022

適用于T5的指導(dǎo)模型。在某些任務(wù)中，F(xiàn)lan-T5 11B在沒有這種微調(diào)的情況下優(yōu)于PaLM 62B。這些模型已經(jīng)作為開源發(fā)布。

3、Sparrow DeepMind / 2022

基本模型是通過在選定的高質(zhì)量對話上對Chinchilla進行微調(diào)獲得的，前80%的層被凍結(jié)。然后該模型被進一步訓(xùn)練，使用一個大提示來引導(dǎo)它進行對話。有幾個獎勵模型也在Chinchilla的基礎(chǔ)上進行訓(xùn)練。該模型可以訪問搜索引擎并檢索最多500個字符的片段，這些片段可以成為響應(yīng)。

在推理過程中，獎勵模型用于對候選人進行排序。候選項要么由模型生成，要么從搜索中獲得，然后最好的一個成為響應(yīng)。

4、Alpaca Stanford University / 2023

上面LLaMA 的指導(dǎo)模型。主要重點是使用GPT-3構(gòu)建數(shù)據(jù)集的過程:

目標(biāo)是獲得一組Task-Input-Output三元組，其中Input可以為空。
人類會生成175個帶有答案的任務(wù)提示，這些提示被輸入到GPT-3中，GPT-3會生成新的任務(wù)。
生成過程是迭代的，在每個步驟中，都提供了一些來自人類的任務(wù)示例和一些來自先前生成的任務(wù)示例。
GPT-3將生成的任務(wù)分為分類任務(wù)或非分類任務(wù)，并根據(jù)此生成不同的輸入和輸出。
三元組根據(jù)質(zhì)量和與數(shù)據(jù)庫中現(xiàn)有三元組的不相似度進行過濾。

總共生成了52K個唯一的三元組，并對LLaMA 7B進行了微調(diào)。

5、Koala Berkeley University / 2023

這是在指令數(shù)據(jù)上對LLaMA進行微調(diào)，但與上面的Alpaca不同的是，它不僅在GPT-3等大型模型生成的數(shù)據(jù)上進行微調(diào)。還數(shù)據(jù)集的組成為:

30k個關(guān)于數(shù)學(xué)、詩歌和對話的說明和回答樣本;
52K個Alpaca 數(shù)據(jù)集的樣本;
160K對用戶對有用性和危害偏好的模型響應(yīng);
20K對帶有用戶問題和評分的模型回答;
93K個總結(jié)，用戶對其質(zhì)量評分;

與GPT-3相比，沒有質(zhì)量的增加。但是在盲測中，用戶更喜歡Koala 的回答，而不是Alpaca 的回答。

從文本生成圖像的模型

基于文本描述的圖像生成器。擴散模型與transformers 相結(jié)合在這一領(lǐng)域占據(jù)主導(dǎo)地位，不僅可以生成圖像，還可以進行內(nèi)容操作和分辨率增強。

1、DALL-E OpenAI / 2021

這項工作分兩個階段進行:對圖像的標(biāo)記進行訓(xùn)練，然后學(xué)習(xí)文本和圖像的聯(lián)合生成模型。

在第一階段，訓(xùn)練dVAE，其中將圖像從256x256x3空間轉(zhuǎn)換為32x32xdim并返回，其中dim是隱藏表示向量的維度?？偣灿?192個這樣的標(biāo)記向量，這些標(biāo)記向量將在模型中進一步使用。

使用的主要模型是稀疏transformer 解碼器。文本令牌和圖像令牌作為輸入，模型學(xué)習(xí)聯(lián)合分布(Causal LM)，之后可以基于文本生成圖像令牌。dVAE基于這些相同的令牌生成一個映像。文本標(biāo)記的損失權(quán)重是1/8，圖像標(biāo)記的權(quán)重損失是7/8。

對于文本標(biāo)記，有常規(guī)嵌入和位置嵌入，對于圖像標(biāo)記，有常規(guī)的、按列定位的和按行定位的嵌入。文本標(biāo)記序列的最大長度為256，標(biāo)記化為BPE (16K詞匯表)。

2、GLIDE OpenAI / 2021

一種在像素級操作并由文本控制的擴散模型(DM)。它基于U-Net架構(gòu)，具有卷積、注意和殘差連接。使用不同的方法來控制生成。使用CLIP獲得的圖像向量和文本向量的標(biāo)量積

3、Latent Diffusion [Stable Diffusion] CompVis [Stability AI] / 2021 [2022]

在像素空間中工作的擴散模型，主要包含2個模型：

一種用于從潛在空間降維和生成的VAE自編碼器
內(nèi)部表征的DM

自編碼器以類似gan的方式進行訓(xùn)練，在其結(jié)果上使用鑒別器，并將額外的正則化表示與標(biāo)準(zhǔn)正態(tài)分布的接近程度。

結(jié)果在潛在空間中進入DM解碼:如果條件是一個向量，則在步驟的輸入處與潛在向量連接，如果是一個向量序列，則用于不同U-Net層的交叉注意。對于文本提示使用CLIP向量。

這個通用的模型可以被訓(xùn)練用于不同的任務(wù):文本到圖像，著色，繪畫，超分辨率。

4、Imagen Google / 2022

Imagen背后的主要思想是增加文本編碼器的大小比增加DM的大小可以給生成模型帶來更多的好處。所以CLIP被替換為T5-XXL。

從圖像生成文本的模型

本節(jié)中的模型通常被稱為多模態(tài)模型，因為它們在生成文本的同時能夠分析不同性質(zhì)的數(shù)據(jù)。生成的文本可以是自然語言，也可以是一組命令，例如機器人的命令。

1、CoCa Google / 2022

一個單獨的圖像編碼器(ViT或CNN) +一個共享解碼器，其中前半部分處理文本，后半部分與圖像編碼器的輸出共同處理文本。

288x288的圖像被切成18x18的塊，編碼器將其轉(zhuǎn)換為向量+基于所有這些向量的共享注意力池向量。

解碼器的前半部分的輸出是文本向量和序列末尾的CLS標(biāo)記向量，使用sentencepece (64K詞匯表)進行標(biāo)記化。文本和圖像矢量通過交叉注意在解碼器的后半部分合并。

兩個損失的權(quán)重分別:

圖像的注意力池向量與圖像描述對的文本的CLS標(biāo)記向量之間的相似性。
整個解碼器輸出的自回歸損失(以圖像為條件)。

在微調(diào)過程中，圖像編碼器可以被凍結(jié)，只有注意力池可以被微調(diào)。

2、PaLM-E Google / 2023

圖像由ViT編碼，輸出向量以及文本令牌和命令被輸入PaLM, PaLM生成輸出文本。

PaLM-E用于所有任務(wù)，包括 VQA、對象檢測和機器人操作。

3、GPT-4 OpenAI / 2023

這是一個具有少量已知細節(jié)的封閉模型。據(jù)推測，它有一個具有稀疏注意力和多模態(tài)輸入的解碼器。它使用自回歸訓(xùn)練和微調(diào)RLHF，序列長度從8K到32K。

它已經(jīng)在人類考試中進行了零樣本和少樣本的測試，并達到了類似人類的水平。它可以立即和逐步解決基于圖像的問題(包括數(shù)學(xué)問題)，理解和解釋圖像，并可以分析和生成代碼。還適用于不同的語言，包括小語種。

總結(jié)

下面是簡短結(jié)論。它們可能不完整，或者根本不正確，所以僅供參考。

自動顯卡不能挖礦以后，各種大型模型蜂擁而至，模型的基數(shù)一直在增長，但是簡單的層的增加和數(shù)據(jù)集的增長被各種更好的技術(shù)替代，這些技術(shù)允許質(zhì)量改進(使用外部數(shù)據(jù)和工具，改進網(wǎng)絡(luò)結(jié)構(gòu)和新的微調(diào)技術(shù))。但是越來越多的工作表明訓(xùn)練數(shù)據(jù)的質(zhì)量比數(shù)量更重要：正確選擇和形成數(shù)據(jù)集可以減少訓(xùn)練時間并提高結(jié)果質(zhì)量。

OpenAI現(xiàn)在正在走向閉源，他們已經(jīng)嘗試過不釋放GPT-2的權(quán)重但沒有成功。但是GPT4是黑盒，近幾個月來改進和優(yōu)化開源模型的微調(diào)成本和推理速度的趨勢在很大程度上降低了大型私有模型作為產(chǎn)品的價值，開源模型在質(zhì)量上也正迅速趕上巨頭，這又可以彎道超車了。

最后開源模型的總結(jié)如下：

在編碼器模型塊中，XLM-RoBERTa 和 LaBSE 模型被認(rèn)為是可靠的多語言解決方案；
在開放的生成模型中，最有趣的是 LLaMA 和來自 EleutherAI 的模型（都有它們所有的微調(diào)版本）、Dolly-2、BLOOM（同樣有指令微調(diào)選項）；
代碼方面，SantaCoder的模型還不錯，但是總體來說質(zhì)量也明顯落后于ChatGPT/GPT-4；
Transformer-XL 和 Sparse Transformer 實現(xiàn)了其他模型中使用的技術(shù)，可以仔細研究；

以上，僅供參考。

責(zé)任編輯：華軒來源： DeepHub IMBA

人工智能機器學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="hms18"><form id="hms18"><optgroup id="hms18"></optgroup></form></nobr>

<ruby id="hms18"><progress id="hms18"></progress></ruby>