大模型系列:一文帶你梳理Large Language Model發(fā)展歷程
在這個(gè)系列文章中,我會(huì)用通俗的語(yǔ)言,為大家介紹學(xué)習(xí)大模型的核心知識(shí)點(diǎn)。讀完這個(gè)系列的文章,你會(huì)深入理解語(yǔ)言大模型、多模態(tài)大模型的核心技術(shù)點(diǎn),包括模型結(jié)構(gòu)、訓(xùn)練方式、數(shù)據(jù)處理、多模態(tài)融合等。
大模型的前身是語(yǔ)言模型,圓圓是很早就開(kāi)始在工業(yè)界研究和應(yīng)用語(yǔ)言模型的一批人,因此對(duì)整個(gè)深度學(xué)習(xí)時(shí)代語(yǔ)言模型的發(fā)展歷程都有見(jiàn)證。當(dāng)時(shí)還沒(méi)有Transformer、BERT,只有LSTM、Attention這種結(jié)構(gòu)。工業(yè)界效果最好、應(yīng)用最穩(wěn)定的語(yǔ)言模型,還是基于n-gram的統(tǒng)計(jì)版語(yǔ)言模型。
后來(lái),隨著Transformer和BERT的相繼出現(xiàn),基于深度學(xué)習(xí)的語(yǔ)言模型才開(kāi)始取得主導(dǎo)型的效果和地位。隨后的三四年,BERT這種判別式的模型一直是工業(yè)界的主流,模型的尺寸和訓(xùn)練數(shù)據(jù)量也不斷增大。直到ChatGPT的出現(xiàn),開(kāi)啟了真正的生成式大語(yǔ)言模型時(shí)代,直到近期的DeepSeek。過(guò)程中,也伴隨著多模態(tài)方向的研究。
在第一節(jié)中,會(huì)重點(diǎn)給大家梳理一下從n-gram到DeepSeek,整個(gè)大模型的發(fā)展歷史。針對(duì)每個(gè)演進(jìn)版本語(yǔ)言模型的詳細(xì)介紹,將在后續(xù)章節(jié)逐一介紹。
1.N-gram統(tǒng)計(jì)語(yǔ)言模型
N-gram是語(yǔ)言模型最基礎(chǔ)的建模方法,也是深度學(xué)習(xí)之前主要的語(yǔ)言模型建模方法。N-gram的核心思路是,根據(jù)大量的語(yǔ)料,統(tǒng)計(jì)出前面n-1個(gè)詞已知的情況下,第n個(gè)詞的概率。比如最基礎(chǔ)的2-gram,統(tǒng)計(jì)連續(xù)2個(gè)單詞出現(xiàn)的概率,當(dāng)根據(jù)前序單詞預(yù)測(cè)下一個(gè)單詞時(shí),之前出現(xiàn)次數(shù)頻率最高的就是更加合理。
N-gram這種統(tǒng)計(jì)模型的問(wèn)題在于,N太大時(shí)數(shù)據(jù)很稀疏,N太小能考慮的上下文信息就比較少,雖然有一些平滑方法能夠提升N-gram在稀疏數(shù)據(jù)下的表現(xiàn),但是上限仍然比較低。

2.詞向量
詞向量是機(jī)器學(xué)習(xí)時(shí)代的NLP領(lǐng)域常見(jiàn)方法,也是后續(xù)深度學(xué)習(xí)語(yǔ)言模型的基礎(chǔ)。通過(guò)將每個(gè)單詞映射成一個(gè)向量,向量之間的距離能夠反應(yīng)2個(gè)詞語(yǔ)義的相似度,實(shí)現(xiàn)相比n-gram更具泛化性的文本表征方法。
詞向量的本質(zhì)思路是,一個(gè)詞的含義,可以由其上下文出現(xiàn)的其他詞表示。統(tǒng)計(jì)大量語(yǔ)料中,詞之間的共現(xiàn)關(guān)系。兩個(gè)詞的上下文越相似,這兩個(gè)詞的語(yǔ)義就越相似。這個(gè)統(tǒng)計(jì)過(guò)程,使用神經(jīng)網(wǎng)絡(luò)在大量的文本語(yǔ)料上自動(dòng)學(xué)習(xí),實(shí)現(xiàn)了表征的泛化性。Skip-gram、CBOW、Glove等都是最常用的詞向量模型。

3.LSTM/Attention深度語(yǔ)言模型
隨著深度學(xué)習(xí)的發(fā)展,LSTM網(wǎng)絡(luò)、Attention結(jié)構(gòu)等被用來(lái)構(gòu)建深度學(xué)習(xí)的語(yǔ)言模型。語(yǔ)言是序列形式的,天然適合LSTM這種序列建模模型。在統(tǒng)計(jì)n-gram時(shí),前序單詞決定下一個(gè)單詞,LSTM就具備這種建模能力。所以一個(gè)最基礎(chǔ)的基于LSTM的語(yǔ)言模型,就是對(duì)于每段文本輸入到一個(gè)LSTM網(wǎng)絡(luò)中,讓其預(yù)測(cè)下一個(gè)單詞,通過(guò)這種訓(xùn)練方式實(shí)現(xiàn)對(duì)任務(wù)長(zhǎng)度gram的。這種基于LSTM的語(yǔ)言模型也經(jīng)過(guò)了多個(gè)階段的發(fā)展,最后發(fā)展到2018年的ELMo,通過(guò)兩組單向LSTM融合的方式提取兩側(cè)的上下文信息。

此外,Attention也經(jīng)常用來(lái)和LSTM相結(jié)合,彌補(bǔ)LSTM在長(zhǎng)周期建模中的不足。例如在機(jī)器翻譯中,使用LSTM和Attention相結(jié)合,快速獲取歷史長(zhǎng)文本中和當(dāng)前待預(yù)測(cè)位置相關(guān)的部分。
4.Transformer:GPT和BERT
Transformer的出現(xiàn),以及其衍生出來(lái)的GPT和BERT,開(kāi)啟了深度學(xué)習(xí)語(yǔ)言模型的新時(shí)代,也是大模型的基礎(chǔ)。Transformer結(jié)構(gòu)至今仍然是各個(gè)開(kāi)源大模型的基礎(chǔ)模型結(jié)構(gòu)。它完全基于Attention結(jié)構(gòu)進(jìn)行一段文本中單詞之間的關(guān)系計(jì)算。

根據(jù)建模方式的差異,又分為以BERT為代表的判別式模型和以GPT為代表的生成式模型。BERT這種判別式,只有一個(gè)Encoder,Mask掉部分token用上下文其他token還原。GPT這種生成式模型,則仍然采用n-grapm的形式,根據(jù)前面token生成下一個(gè)token。
在最開(kāi)始的幾年中,BERT一直是工業(yè)界主要使用的方法,而GPT因?yàn)槠湎鄬?duì)復(fù)雜的生成式過(guò)程,應(yīng)用較少。當(dāng)然,后續(xù)ChatGPT等的出現(xiàn),證明GPT才是更適合作為人機(jī)接口的語(yǔ)言模型建模形式,是BERT等判別式模型無(wú)法替代的。
BERT和GPT分別有一系列的改進(jìn)工作。和BERT相關(guān)的,包括ALBERT、RoBERTa、DeBERTa等各種從性能角度、效果角度的優(yōu)化,也包括ELECTRA等引入外部知識(shí)庫(kù)的優(yōu)化。GPT相關(guān)的改進(jìn)則相對(duì)較少(當(dāng)時(shí)BERT更火,主流都在研究如何優(yōu)化BERT),主要還是GPT后的GPT2、GPT3等。
5.大模型時(shí)代:ChatGPT
ChatGPT的出現(xiàn)開(kāi)啟了大模型的時(shí)代。其前序工作包括GPT1、GPT2、GPT3、InstructGPT等。GPT1的核心是無(wú)監(jiān)督語(yǔ)言模型預(yù)訓(xùn)練;GPT2的核心是更多的訓(xùn)練數(shù)據(jù)、更大的模型尺寸;GPT3的核心是prompt和in-context learning,挖掘語(yǔ)言模型的理解能力;InstructGPT的核心是如何讓GPT生成的回答更符合人類(lèi)的需求,核心是引入了強(qiáng)化學(xué)習(xí)機(jī)制,基于強(qiáng)化學(xué)習(xí)的思想去優(yōu)化無(wú)監(jiān)督預(yù)訓(xùn)練模型產(chǎn)出的文本,讓其更符合人類(lèi)的需求。

ChatGPT的數(shù)據(jù)處理方法、模型結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)方法,是LLM最核心的組件。在模型結(jié)構(gòu)方面,后續(xù)出現(xiàn)的LLaMA,則是現(xiàn)在包括DeepSeek等大模型的基礎(chǔ)模型結(jié)構(gòu)。
6.DeepSeek/千問(wèn)
在ChatGPT后,各大機(jī)構(gòu)都開(kāi)始研究LLM,提出了一系列的LLM建模方式、應(yīng)用方式。在這個(gè)過(guò)程中,LLM的應(yīng)用越來(lái)越廣泛,到目前為止很多人都已經(jīng)開(kāi)始使用LLM。這里重點(diǎn)介紹兩個(gè)國(guó)內(nèi)比較有代表性的,目前最先進(jìn)的LLM。一個(gè)是DeepSeek,一個(gè)是阿里的通義千問(wèn)。它們基于前序的LLM成功經(jīng)驗(yàn),對(duì)模型結(jié)構(gòu)、訓(xùn)練流程、性能優(yōu)化等做了大量改造,逐步提升了LLM性能。比如DeepSeek,目前的應(yīng)用版本,經(jīng)歷了V1~V3,再到R1的升級(jí),引入了包括MoE、深度思維鏈樣本強(qiáng)化學(xué)習(xí)等,逐步提升LLM性能。
在后續(xù)的章節(jié)中,會(huì)進(jìn)一步展開(kāi)詳細(xì)介紹LLM的上述發(fā)展過(guò)程中,各個(gè)階段的代表性工作、技術(shù)原理等的深度解析。

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise


















