偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformers回顧 :從BERT到GPT4

人工智能
人工智能已成為近年來最受關(guān)注的話題之一,由于神經(jīng)網(wǎng)絡(luò)的發(fā)展,曾經(jīng)被認(rèn)為純粹是科幻小說中的服務(wù)現(xiàn)在正在成為現(xiàn)實。從對話代理到媒體內(nèi)容生成,人工智能正在改變我們與技術(shù)互動的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。

人工智能已成為近年來最受關(guān)注的話題之一,由于神經(jīng)網(wǎng)絡(luò)的發(fā)展,曾經(jīng)被認(rèn)為純粹是科幻小說中的服務(wù)現(xiàn)在正在成為現(xiàn)實。從對話代理到媒體內(nèi)容生成,人工智能正在改變我們與技術(shù)互動的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。一個關(guān)鍵的突破是引入了“自注意力”和用于序列處理的Transformers架構(gòu),這使得之前主導(dǎo)該領(lǐng)域的幾個關(guān)鍵問題得以解決。

圖片

在本文中,我們將研究革命性的Transformers架構(gòu)以及它如何改變NLP,我們還將全面回顧從BERT到Alpaca的Transformers模型,重點介紹每種模型的主要特征及其潛在應(yīng)用。

類似bert的文本模型

第一部分是基于Transformer編碼器的模型,用于向量化、分類、序列標(biāo)記、QA(問答)、NER(命名實體識別)等。

1、BERT Google / 2018

Transformer 編碼器,wordpiece tokenization(30K 詞匯量)。輸入嵌入由三個向量組成:標(biāo)記向量、可訓(xùn)練位置向量和片段向量(第一個文本或第二個文本)。模型輸入是 CLS 標(biāo)記嵌入、第一個文本的嵌入和第二個文本的嵌入。

BERT 有兩個訓(xùn)練任務(wù):Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 中,15% 的令牌被屏蔽,80% 被 MASK 令牌替換,10% 被隨機(jī)令牌替換,10% 保持不變。模型會預(yù)測正確的 令牌,而損失僅在這 15% 的屏蔽令牌上計算。在 NSP 中,模型預(yù)測第二個文本是否跟在第一個文本之后。預(yù)測是在 CLS 令牌的輸出向量上進(jìn)行的。

為了加快訓(xùn)練速度,首先90%的訓(xùn)練在序列長度為 128 個標(biāo)記上進(jìn)行,然后剩下的10% 的時間在 512 個標(biāo)記上訓(xùn)練模型以獲得更有效的位置嵌入。

2、RoBERTa Facebook / 2019

BERT的改進(jìn)版本,它只在MLM上訓(xùn)練(因為NSP被認(rèn)為不太有用),訓(xùn)練序列更長(512個令牌)。使用動態(tài)屏蔽(當(dāng)再次處理相同的數(shù)據(jù)時,不同的令牌被屏蔽),訓(xùn)練超參數(shù)是精心選擇的。

3、XLM Facebook / 2019

訓(xùn)練多語言模型的方法之一是使用不同的基本模型(目前最流行的模型是基于RoBERTa的XLM-R)。在最初的XLM中,所有語言都有一個共享的BPE詞匯表。

XLM 有兩個訓(xùn)練任務(wù):MLM和翻譯。翻譯本質(zhì)上與一對文本上的 MLM 相同,但文本是彼此的平行翻譯,具有隨機(jī)掩碼和段嵌入編碼語言。

4、Transformer-XL Carnegie Mellon University / 2019

該模型設(shè)計用于處理長序列,主要有兩個思想:片段的循環(huán)處理和相對位置編碼。

長文本被分成幾個片段,每次處理一個片段。前一段的輸出被緩存,在計算當(dāng)前段中的自我關(guān)注時,鍵和值是基于當(dāng)前段和前一段的輸出計算的(只是簡單地連接在一起)。梯度也只在當(dāng)前段內(nèi)計算。

這種方法不適用于絕對位置。所以模型中重新參數(shù)化了注意力權(quán)重公式。絕對的位置編碼向量被一個固定的矩陣取代,該矩陣基于標(biāo)記位置之間距離的正弦值和對所有位置共有的可訓(xùn)練向量。

5、ERNIE 清華大學(xué),華為 / 2019

將知識圖譜中有關(guān)命名實體的信息嵌入到 BERT 中。輸入由一組文本標(biāo)記和一組實體標(biāo)記組成(每個標(biāo)記代表整個實體)。文本標(biāo)記由 BERT 編碼。在 BERT 之上,有一組 K 編碼器塊(約占網(wǎng)絡(luò)參數(shù)的 3%)。在這些塊中:

  • 文本標(biāo)記的更新向量和實體標(biāo)記的原始向量首先獨立地計算自注意力;
  • 實體向量與它們在文本中出現(xiàn)的第一個標(biāo)記相匹配;
  • 使用GeLU 激活,并且用于獲得文本標(biāo)記的新隱藏表示;
  • 文本和實體標(biāo)記的新向量從隱藏表示中獲得,并作為輸入傳遞給下一個編碼器塊。

在預(yù)訓(xùn)練期間,計算三種損失:MLM、NSP 和來自令牌的實體預(yù)測(如自編碼器),自編碼器使用下面規(guī)則:

  • 在 5% 的情況下,實體被替換為錯誤的實體,但匹配被保留,模型必須預(yù)測正確的實體;
  • 在 15% 的情況下,匹配被移除,模型必須僅基于文本來預(yù)測實體;
  • 在其他情況下,是正常的。

預(yù)訓(xùn)練模型可以像常規(guī) BERT 模型一樣進(jìn)行微調(diào)(有 CLS 令牌)。也可以使用額外的程序進(jìn)行微調(diào)以確定實體及其類型之間的關(guān)系。

6、XLNet Carnegie Mellon University / 2019

因為BERT訓(xùn)練過程存在問題:

  • 在訓(xùn)練期間,損失計算僅計算掩碼標(biāo)記。
  • 只有個別標(biāo)記被屏蔽,一個屏蔽標(biāo)記的預(yù)測不會影響其他標(biāo)記的預(yù)測。
  • 模型在訓(xùn)練期間主動看到的實際應(yīng)用程序中沒有 MASK 令牌。

XLNet 基于 Transformer-XL,除了替換語言建模 (PLM) 任務(wù)外,它學(xué)習(xí)在短的上下文中預(yù)測標(biāo)記,而不是直接使用 MASK。這確保了梯度會計算所有標(biāo)記并消除了對特殊掩碼標(biāo)記的需要。

上下文中的標(biāo)記被打亂(比如:可以根據(jù)第 i-2個和第i+1個標(biāo)記預(yù)測第 i 個標(biāo)記),但它們的位置仍然是已知的。這無法通過當(dāng)前的位置編碼(包括 Transformer-XL)實現(xiàn)。當(dāng)嘗試在給定上下文的一部分的情況下預(yù)測令牌的概率時,模型不應(yīng)該知道本身的令牌,但應(yīng)該知道令牌在上下文中的位置。為了解決這個問題,他們將self-attention 分為兩個流:

  • 在每個標(biāo)記位置,有兩個向量而不是一個:內(nèi)容向量和查詢向量。
  • 內(nèi)容向量包含有關(guān)令牌的完整信息,而查詢向量僅包含位置信息。
  • token 的兩個向量都是基于上下文向量計算的,但是 self-attention 中的查詢向量是使用過去的內(nèi)容向量計算的,內(nèi)容向量是使用過去的查詢向量計算的。
  • query vector 不接收關(guān)于相應(yīng) token 的內(nèi)容的信息,但知道上下文的所有信息,而 content vector 包含完整的信息。

在微調(diào)期間,如果忽略查詢向量,模型將像常規(guī)的 Transformer-XL 一樣工作。

在實踐中該模型的要求上下文必須足夠長,以便模型能夠正確學(xué)習(xí)。它在與 RoBERTa 相同數(shù)量的數(shù)據(jù)上學(xué)習(xí),結(jié)果相似,但由于實現(xiàn)的復(fù)雜性,該模型并沒有像 RoBERTa 那樣流行。

7、ALBERT Google / 2019

在不犧牲質(zhì)量的情況下簡化BERT:

  • 在不同的編碼器塊中使用共同的參數(shù),并且已經(jīng)證明可以共享自注意力的權(quán)重,但是分離全連接層的權(quán)重會導(dǎo)致質(zhì)量下降。
  • 與BERT相比,使用了更小的輸入嵌入和更大的隱藏層向量。這可以通過在網(wǎng)絡(luò)輸入處使用一個額外的投影矩陣來實現(xiàn),這樣也可以將嵌入的大小與隱藏表示的大小解耦。
  • 模型的參數(shù)減少了18倍,運行速度提高了1.7倍。

模型在MLM和句子順序預(yù)測(SOP)上進(jìn)行訓(xùn)練。

8、DistilBERT Google / 2019

另一種優(yōu)化BERT的方法是蒸餾:

  • 編碼器塊的數(shù)量減半
  • 三個損失成分:MLM、與教師模型輸出的交叉熵,以及相應(yīng)層輸出之間的余弦距離。
  • 模型比教師模型小40%,速度快60%,并且在各種任務(wù)上保持了97%的質(zhì)量。

9、LaBSE Google / 2020

基于BERT的多語言矢量化模型。它在MLM和TLM上進(jìn)行訓(xùn)練(20%的標(biāo)記被屏蔽),然后對其進(jìn)行微調(diào)。它支持100多種語言,包含500K個標(biāo)記的詞匯表。

10、ELECTRA Google, Stanford University / 2020

使用生成對抗方法加速BERT訓(xùn)練:

  • 訓(xùn)練了兩個類bert模型:一個小型生成器和一個主鑒別器
  • 生成器在MLM上進(jìn)行訓(xùn)練,然后填充掩碼令牌
  • 鑒別器被訓(xùn)練來預(yù)測由生成器生成的文本的原創(chuàng)性(替換檢測任務(wù))
  • 訓(xùn)練完成后,去掉生成器,用鑒別器進(jìn)行微調(diào)

訓(xùn)練數(shù)據(jù)的數(shù)量與RoBERTa或XLNet相同,并且模型比BERT、RoBERTa和ALBERT更快地學(xué)習(xí)到相似的質(zhì)量水平。訓(xùn)練時間越長,它的表現(xiàn)就越好。

11、DeBERTa Microsoft / 2020

另一種將標(biāo)記向量的內(nèi)容和位置分離為兩個單獨的向量的模型:

  • 位置向量在所有層之間共享,并且是相對的,即標(biāo)記之間的每個可能距離都有一個。
  • 為它們添加了兩個新的權(quán)重矩陣K_pos和Q_pos。
  • 對注意力權(quán)重計算進(jìn)行修改,簡化為三個乘積的和:Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
  • 與ALBERT中一樣,使用投影矩陣將嵌入大小與隱藏標(biāo)記表示向量的大小解耦。

類似GPT 和T5的而模型

基于完整Transformers的模型。它的應(yīng)用范圍非常廣泛:除了上一節(jié)的任務(wù)外,它還包括會話代理、機(jī)器翻譯、邏輯和數(shù)學(xué)推理、代碼分析和生成,以及基本上文本生成。最大和“最智能”的模型通?;诮獯a器架構(gòu)。此類模型通常在 few-shot 和 zero-shot 模式下無需微調(diào)即可表現(xiàn)良好。

1、GPT-2 OpenAI / 2018

解碼器在因果LM的任務(wù)上進(jìn)行訓(xùn)練(根據(jù)左側(cè)上下文預(yù)測下一個令牌)。從體系結(jié)構(gòu)的角度來看,有一些小的變化:從每個解碼器塊中移除交叉注意層,并使用了LayerNorm

使用的標(biāo)記器是字節(jié)級BPE (50K詞匯表),沒有使用類似的子字符串例如(“dog”、“dog!”、“dog.”)。最大序列長度為 1024。層輸出緩存所有先前生成的標(biāo)記。

2、T5 Google / 2019

在MLM上進(jìn)行完整的預(yù)訓(xùn)練(15%的令牌被屏蔽),跨度由代碼掩碼(<X>, <Y>,…)屏蔽。輸出預(yù)測序列<X>span<Y>span…

LayerNorm在自注意力層和全連接層輸入之前應(yīng)用。使用相對位置編碼:

位置由可學(xué)習(xí)的嵌入編碼,其中每個“嵌入”只是在計算注意力權(quán)重時添加相應(yīng)logit的標(biāo)量。

矩陣B是跨層共享的,但對于不同的自注意力注頭是不同的。

每一層考慮令牌之間的128個距離,其余的歸零,這樣可以對比訓(xùn)練期間看到的序列更長的序列進(jìn)行推理。

標(biāo)記化使用sentencepece (32K詞匯表)完成,在預(yù)訓(xùn)練期間最大序列長度為512。

3、BART Facebook / 2019

另一個完整的transformers,但是用GeLU取代了ReLU。訓(xùn)練它從噪聲文本(AE去噪)中預(yù)測原始文本,噪聲類型如下:

  • 令牌屏蔽
  • 刪除令牌
  • 令牌填充
  • 句子中令牌順序顛倒
  • 使隨機(jī)令牌成為序列的開始

使用字節(jié)級BPE(詞匯表大小為50K)

4、CTRL Salesforce / 2019

使用前綴代碼令牌(例如,<Horror> input text…)控制生成的解碼器。在訓(xùn)練期間將代碼分配給適當(dāng)?shù)奈谋?,然后在推理期間使用代碼生成相應(yīng)樣式的文本。該模型是在因果LM上訓(xùn)練的,并且沒有使用額外的損失。使用的標(biāo)記化是BPE,詞匯表大小為250K。

5、GPT-3 OpenAI / 2020

這是一個具有Sparse Transformer架構(gòu)的GPT-2模型,并且增加了2048個令牌的序列長度。還記的那句話嗎:別問,問就是GPT3

6、mT5 Google / 2020

基于T5模型,具有類似的訓(xùn)練,但使用多語言數(shù)據(jù)。ReLU激活被替換為GeGLU,詞匯表擴(kuò)展到250K個標(biāo)記。

7、GLAM Google / 2021

這個模型在概念上類似于Switch Transformer,但更側(cè)重于在少樣本的模式下工作,而不是微調(diào)。不同規(guī)模的模型使用32到256個專家層,K=2。使用來自Transformer-XL的相對位置編碼。在處理令牌時,只有不到10%的網(wǎng)絡(luò)參數(shù)被激活。

8、 LaMDA Google / 2021

類似gpt的模型。該模型是一個會話模型,在因果LM上進(jìn)行了預(yù)訓(xùn)練,并在生成和判別任務(wù)上進(jìn)行了微調(diào)。該模型還可以對外部系統(tǒng)(搜索、翻譯)的調(diào)用。

9、GPT-NeoX-20B EleutherAI / 2022

這個模型類似于GPT-J,也使用旋轉(zhuǎn)位置編碼。模型權(quán)重使用float16表示。最大序列長度為2048。

10、BLOOM BigScience / 2022

這是46種語言和13種編程語言的最大開源模型。為了訓(xùn)練模型,使用一個名為ROOTS的大型聚合數(shù)據(jù)集,其中包括大約500個開放數(shù)據(jù)集。

11、PaLM Google / 2022

這是一個大型多語言解碼器模型,使用Adafactor進(jìn)行訓(xùn)練,在預(yù)訓(xùn)練時禁用dropout,在微調(diào)時使用0.1。

12、LLaMA Meta / 2023

用于科學(xué)研究的開源大型gpt類LM,已用于訓(xùn)練多個指令模型。該模型使用了pre-LayerNorm、SwiGLU激活和RoPE位置嵌入。因為開源所以這是彎道超車的主要模型之一。

文本的指導(dǎo)模型

這些模型抓喲用于校正模型輸出(例如 RLHF)以提高對話和任務(wù)解決期間的響應(yīng)質(zhì)量。

1、InstructGPT OpenAI / 2022

這項工作調(diào)整GPT-3以有效地遵循指示。該模型在一個由提示和答案組成的數(shù)據(jù)集上進(jìn)行微調(diào),這些提示和答案是人類根據(jù)一套標(biāo)準(zhǔn)認(rèn)為好的。基于InstructGPT,OpenAI 創(chuàng)建了一個被我們現(xiàn)在熟知的模型ChatGPT。

2、Flan-T5 Google / 2022

適用于T5的指導(dǎo)模型。在某些任務(wù)中,F(xiàn)lan-T5 11B在沒有這種微調(diào)的情況下優(yōu)于PaLM 62B。這些模型已經(jīng)作為開源發(fā)布。

3、Sparrow DeepMind / 2022

基本模型是通過在選定的高質(zhì)量對話上對Chinchilla進(jìn)行微調(diào)獲得的,前80%的層被凍結(jié)。然后該模型被進(jìn)一步訓(xùn)練,使用一個大提示來引導(dǎo)它進(jìn)行對話。有幾個獎勵模型也在Chinchilla的基礎(chǔ)上進(jìn)行訓(xùn)練。該模型可以訪問搜索引擎并檢索最多500個字符的片段,這些片段可以成為響應(yīng)。

在推理過程中,獎勵模型用于對候選人進(jìn)行排序。候選項要么由模型生成,要么從搜索中獲得,然后最好的一個成為響應(yīng)。

4、Alpaca Stanford University / 2023

上面LLaMA 的指導(dǎo)模型。主要重點是使用GPT-3構(gòu)建數(shù)據(jù)集的過程:

  • 目標(biāo)是獲得一組Task-Input-Output三元組,其中Input可以為空。
  • 人類會生成175個帶有答案的任務(wù)提示,這些提示被輸入到GPT-3中,GPT-3會生成新的任務(wù)。
  • 生成過程是迭代的,在每個步驟中,都提供了一些來自人類的任務(wù)示例和一些來自先前生成的任務(wù)示例。
  • GPT-3將生成的任務(wù)分為分類任務(wù)或非分類任務(wù),并根據(jù)此生成不同的輸入和輸出。
  • 三元組根據(jù)質(zhì)量和與數(shù)據(jù)庫中現(xiàn)有三元組的不相似度進(jìn)行過濾。

總共生成了52K個唯一的三元組,并對LLaMA 7B進(jìn)行了微調(diào)。

5、Koala Berkeley University / 2023

這是在指令數(shù)據(jù)上對LLaMA進(jìn)行微調(diào),但與上面的Alpaca不同的是,它不僅在GPT-3等大型模型生成的數(shù)據(jù)上進(jìn)行微調(diào)。還數(shù)據(jù)集的組成為:

  • 30k個關(guān)于數(shù)學(xué)、詩歌和對話的說明和回答樣本;
  • 52K個Alpaca 數(shù)據(jù)集的樣本;
  • 160K對用戶對有用性和危害偏好的模型響應(yīng);
  • 20K對帶有用戶問題和評分的模型回答;
  • 93K個總結(jié),用戶對其質(zhì)量評分;

與GPT-3相比,沒有質(zhì)量的增加。但是在盲測中,用戶更喜歡Koala 的回答,而不是Alpaca 的回答。

從文本生成圖像的模型

基于文本描述的圖像生成器。擴(kuò)散模型與transformers 相結(jié)合在這一領(lǐng)域占據(jù)主導(dǎo)地位,不僅可以生成圖像,還可以進(jìn)行內(nèi)容操作和分辨率增強(qiáng)。

1、DALL-E OpenAI / 2021

這項工作分兩個階段進(jìn)行:對圖像的標(biāo)記進(jìn)行訓(xùn)練,然后學(xué)習(xí)文本和圖像的聯(lián)合生成模型。

在第一階段,訓(xùn)練dVAE,其中將圖像從256x256x3空間轉(zhuǎn)換為32x32xdim并返回,其中dim是隱藏表示向量的維度??偣灿?192個這樣的標(biāo)記向量,這些標(biāo)記向量將在模型中進(jìn)一步使用。

使用的主要模型是稀疏transformer 解碼器。文本令牌和圖像令牌作為輸入,模型學(xué)習(xí)聯(lián)合分布(Causal LM),之后可以基于文本生成圖像令牌。dVAE基于這些相同的令牌生成一個映像。文本標(biāo)記的損失權(quán)重是1/8,圖像標(biāo)記的權(quán)重?fù)p失是7/8。

對于文本標(biāo)記,有常規(guī)嵌入和位置嵌入,對于圖像標(biāo)記,有常規(guī)的、按列定位的和按行定位的嵌入。文本標(biāo)記序列的最大長度為256,標(biāo)記化為BPE (16K詞匯表)。

2、GLIDE OpenAI / 2021

一種在像素級操作并由文本控制的擴(kuò)散模型(DM)。它基于U-Net架構(gòu),具有卷積、注意和殘差連接。使用不同的方法來控制生成。使用CLIP獲得的圖像向量和文本向量的標(biāo)量積

3、Latent Diffusion [Stable Diffusion] CompVis [Stability AI] / 2021 [2022]

在像素空間中工作的擴(kuò)散模型,主要包含2個模型:

  • 一種用于從潛在空間降維和生成的VAE自編碼器
  • 內(nèi)部表征的DM

自編碼器以類似gan的方式進(jìn)行訓(xùn)練,在其結(jié)果上使用鑒別器,并將額外的正則化表示與標(biāo)準(zhǔn)正態(tài)分布的接近程度。

結(jié)果在潛在空間中進(jìn)入DM解碼:如果條件是一個向量,則在步驟的輸入處與潛在向量連接,如果是一個向量序列,則用于不同U-Net層的交叉注意。對于文本提示使用CLIP向量。

這個通用的模型可以被訓(xùn)練用于不同的任務(wù):文本到圖像,著色,繪畫,超分辨率。

4、Imagen Google / 2022

Imagen背后的主要思想是增加文本編碼器的大小比增加DM的大小可以給生成模型帶來更多的好處。所以CLIP被替換為T5-XXL。

從圖像生成文本的模型

本節(jié)中的模型通常被稱為多模態(tài)模型,因為它們在生成文本的同時能夠分析不同性質(zhì)的數(shù)據(jù)。生成的文本可以是自然語言,也可以是一組命令,例如機(jī)器人的命令。

1、CoCa Google / 2022

一個單獨的圖像編碼器(ViT或CNN) +一個共享解碼器,其中前半部分處理文本,后半部分與圖像編碼器的輸出共同處理文本。

288x288的圖像被切成18x18的塊,編碼器將其轉(zhuǎn)換為向量+基于所有這些向量的共享注意力池向量。

解碼器的前半部分的輸出是文本向量和序列末尾的CLS標(biāo)記向量,使用sentencepece (64K詞匯表)進(jìn)行標(biāo)記化。文本和圖像矢量通過交叉注意在解碼器的后半部分合并。

兩個損失的權(quán)重分別:

  • 圖像的注意力池向量與圖像描述對的文本的CLS標(biāo)記向量之間的相似性。
  • 整個解碼器輸出的自回歸損失(以圖像為條件)。

在微調(diào)過程中,圖像編碼器可以被凍結(jié),只有注意力池可以被微調(diào)。

2、PaLM-E Google / 2023

圖像由ViT編碼,輸出向量以及文本令牌和命令被輸入PaLM, PaLM生成輸出文本。

PaLM-E用于所有任務(wù),包括 VQA、對象檢測和機(jī)器人操作。

3、GPT-4 OpenAI / 2023

這是一個具有少量已知細(xì)節(jié)的封閉模型。據(jù)推測,它有一個具有稀疏注意力和多模態(tài)輸入的解碼器。它使用自回歸訓(xùn)練和微調(diào)RLHF,序列長度從8K到32K。

它已經(jīng)在人類考試中進(jìn)行了零樣本和少樣本的測試,并達(dá)到了類似人類的水平。它可以立即和逐步解決基于圖像的問題(包括數(shù)學(xué)問題),理解和解釋圖像,并可以分析和生成代碼。還適用于不同的語言,包括小語種。

總結(jié)

下面是簡短結(jié)論。它們可能不完整,或者根本不正確,所以僅供參考。

自動顯卡不能挖礦以后,各種大型模型蜂擁而至,模型的基數(shù)一直在增長,但是簡單的層的增加和數(shù)據(jù)集的增長被各種更好的技術(shù)替代,這些技術(shù)允許質(zhì)量改進(jìn)(使用外部數(shù)據(jù)和工具,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和新的微調(diào)技術(shù))。但是越來越多的工作表明訓(xùn)練數(shù)據(jù)的質(zhì)量比數(shù)量更重要:正確選擇和形成數(shù)據(jù)集可以減少訓(xùn)練時間并提高結(jié)果質(zhì)量。

OpenAI現(xiàn)在正在走向閉源,他們已經(jīng)嘗試過不釋放GPT-2的權(quán)重但沒有成功。但是GPT4是黑盒,近幾個月來改進(jìn)和優(yōu)化開源模型的微調(diào)成本和推理速度的趨勢在很大程度上降低了大型私有模型作為產(chǎn)品的價值,開源模型在質(zhì)量上也正迅速趕上巨頭,這又可以彎道超車了。

最后開源模型的總結(jié)如下:

  • 在編碼器模型塊中,XLM-RoBERTa 和 LaBSE 模型被認(rèn)為是可靠的多語言解決方案;
  • 在開放的生成模型中,最有趣的是 LLaMA 和來自 EleutherAI 的模型(都有它們所有的微調(diào)版本)、Dolly-2、BLOOM(同樣有指令微調(diào)選項);
  • 代碼方面,SantaCoder的模型還不錯,但是總體來說質(zhì)量也明顯落后于ChatGPT/GPT-4;
  • Transformer-XL 和 Sparse Transformer 實現(xiàn)了其他模型中使用的技術(shù),可以仔細(xì)研究;

以上,僅供參考。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2024-06-11 09:20:48

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2024-04-08 10:12:20

GPT4AgentAI

2023-03-16 10:38:37

GPT4ChatGPT

2023-04-25 15:41:59

2025-03-07 08:41:50

2023-08-17 08:00:00

2023-05-30 11:16:15

人工智能GPT4

2024-02-27 11:45:59

2023-04-20 14:43:38

Linux模型GPT4

2023-05-17 15:15:16

2023-10-29 18:14:08

GPT4機(jī)器人算法

2023-06-25 09:38:04

GPT-4研究

2024-03-05 09:16:32

AI模型GPT-4

2022-11-25 14:24:27

2024-05-10 08:29:59

2024-06-21 08:42:54

BERTNLP自然語言處理

2023-03-15 14:15:06

GPT4ChatGPT網(wǎng)站

2010-06-02 09:15:15

Android

2023-04-02 18:00:56

點贊
收藏

51CTO技術(shù)棧公眾號