Transformer 動畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) 原創(chuàng) 精華
0、背景
Transformer 大模型,一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),已被廣泛應(yīng)用于各種自然語言處理任務(wù),比如:機(jī)器翻譯、文本摘要、生成問答等。
從端到端的角度來看,Transformer 大模型中數(shù)據(jù)的處理流程主要包括四個階段:首先是嵌入階段(Embedding),隨后是注意力機(jī)制階段(Attention),然后是通過多層感知機(jī)(MLPs)進(jìn)行處理,最后是從模型的表示轉(zhuǎn)換到最終輸出的解嵌入階段(Unembedding),如下圖所示:
圖:Embedding -> Attention -> MLPs -> Unembedding
下面是對這四個階段的簡要介紹。
1、Embedding(嵌入)階段
大模型的輸入通常由離散的詞匯或符號組成(比如:在英文文本中,每個單詞或標(biāo)點(diǎn)符號都是一個單獨(dú)的符號)。嵌入層的作用是將這些離散的符號轉(zhuǎn)換成連續(xù)的、具有固定維度的向量(通常稱為詞嵌入)。這些向量能夠捕獲符號的語義以及上下文信息。
在Transformer 大模型中,無論是編碼器(Encoder)還是解碼器(Decoder),都包含一個嵌入層。此外,在解碼器中,還會添加一個位置嵌入(Positional Embedding)層,用于記錄序列中單詞的位置信息,這是因為 Transformer 大模型不通過 RNN 或 CNN 等傳統(tǒng)結(jié)構(gòu)來直接捕捉序列的順序信息。
2、Attention (注意力機(jī)制)階段
注意力機(jī)制構(gòu)成了 Transformer 大模型的基石,它使得大模型能夠在產(chǎn)生當(dāng)前輸出時聚焦于輸入序列中的各個部分。Transformer 大模型采用了多種類型的注意力機(jī)制,其中包括自注意力(Self-Attention)、編碼器-解碼器注意力(Encoder-Decoder Attention)以及掩碼多頭注意力(Masked Multi-Head Attention)。
自注意力機(jī)制使得大模型能夠識別序列內(nèi)不同位置之間的相互關(guān)系,進(jìn)而把握序列的內(nèi)在結(jié)構(gòu)。編碼器-解碼器注意力機(jī)制則使得大模型在輸出生成過程中能夠針對輸入序列的特定部分給予關(guān)注。在注意力機(jī)制的運(yùn)算過程中,會生成一個注意力權(quán)重矩陣,該矩陣揭示了輸入序列中每個位置對于當(dāng)前位置的貢獻(xiàn)程度。
3、MLPs(多層感知機(jī),也稱為前饋神經(jīng)網(wǎng)絡(luò))階段
在注意力機(jī)制處理之后,大模型會利用一個或多個全連接層(也稱為前饋網(wǎng)絡(luò)或 MLPs)來進(jìn)行更深層次的變換和特征提取。
這些全連接層能夠捕捉輸入數(shù)據(jù)中的非線性關(guān)系,并輔助模型識別更復(fù)雜的模式。在 Transformer 大模型中,MLPs 一般被置于自注意力層和歸一化層之間,共同構(gòu)成了所謂的“編碼器塊”或“解碼器塊”。
4、Unembedding(從模型表示到最終輸出)階段
這一過程可以被視作從大模型的內(nèi)部表示到最終輸出格式的轉(zhuǎn)換。
在文本生成任務(wù)中,比如:機(jī)器翻譯,解碼器的輸出將通過一個線性層和一個 Softmax 函數(shù),以產(chǎn)生一個概率分布,該分布反映了下一個輸出詞(token)的概率。
而在其他類型的任務(wù)中,比如:文本分類,解碼器的輸出可能直接用于損失函數(shù)的計算(比如:交叉熵?fù)p失),或者通過其他方法轉(zhuǎn)換成最終的預(yù)測結(jié)果。
本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:????https://mp.weixin.qq.com/s/wY5WtAlqHNPQN7LbAS9c8g??
