沒有思考過 Embedding,談何 RAG,更不足以談 AI大模型
今天,我們來聊聊 AI 大模型,有一個非常重要概念 "Embedding"。你可能聽說過它,也可能對它一知半解。如果你沒有深入了解過 Embedding,那你就無法真正掌握 RAG 技術,更不能掌握 AI 大模型精髓所在。
1.什么是大語言模型(LLM)?
LLM 是一種大型語言模型,是一種用于理解、生成和響應類人文本的神經網絡,這些模型是在大量文本數據上訓練的深度神經網絡。
大型語言模型中的“大”指的是模型在參數方面的大小和它所訓練的龐大數據集。這樣的模型通常有數百億甚至數千億個參數,這些參數是網絡中可調整的權重,在訓練過程中進行優(yōu)化,以預測序列中的下一個單詞。
模型微調,是指在預訓練模型的基礎上,使用特定任務的標注數據進行進一步訓練,使模型能夠完成特定的任務。
其特點,建立在預訓練基礎上,利用預訓練模型已經學到的語言知識,不需要從零開始訓練。這樣有助于降低訓練的成本,以及縮短訓練時間,能更好快速適應新任務。
2.Embedding 的理解
深度學習模型不能處理原始形式的視頻、音頻和文本等數據格式。那怎么辦?因此,我們引入了 “embedding“ ,翻譯為“嵌入“ 。
專業(yè)術語來講,Embedding 是一種將離散數據(如文字、圖像、音頻等)轉換為連續(xù)的密集向量表示的技術,這些向量能夠反映原始數據之間的關系。
現在,很多企業(yè)搭建本地知識庫,常提到的 RAG 技術,實際上用 Embedding 模型作為基礎工具,來將查詢的詞轉換為向量。
Embedding 是 RAG 的基礎工具,而 RAG 是 Embedding 的一種應用場景,這樣就得到一個公式:RAG = Embedding + 檢索 + LLM生成。
如果,你還想更深層次去理解 Embedding 底層細節(jié)原理,建議你去學習或了解相關數學概念,如向量空間、線性代數、矩陣、特征值和特征向量和內積和外積等。
今天,這篇文章主要是講大致流程概念,知道這么回事,并沒有過多的深入講解。
3.RAG 又是什么?
RAG 是檢索增強生成(Retrieval-Augmented Generation)的縮寫,它通過結合檢索系統(tǒng)和生成模型來提高語言生成的準確性和相關性。
RAG 優(yōu)勢就是能夠在生成響應時引入外部知識,使得生成的內容更加準確,也無需訓練。很好解決 LLM 面臨數據實時性問題,因為 LLM 訓練是有時截止日期的。
目前,很多企業(yè)搭建自己知識庫時,都是采用 RAG 技術進行信息檢索。然而為了達到更好效果,企業(yè)一般也會進行內部模型微調 Embedding Model,來增加檢索增強生成的能力。