偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型的嵌入——Embedding與向量——Ve ctor 原創(chuàng)

發(fā)布于 2024-12-30 10:25
瀏覽
0收藏
“ 向量是大模型的基石,嵌入是大模型的入口 ”


最近在研究RAG然后帶來(lái)了對(duì)嵌入與向量的思考;畢竟嵌入與向量是實(shí)現(xiàn)大模型的基礎(chǔ);嵌入解決的是數(shù)據(jù)向量化的問(wèn)題,而向量解決的是數(shù)據(jù)之間的關(guān)系問(wèn)題。

Embedding中文翻譯是嵌入,但更形象的理解是——在機(jī)器學(xué)習(xí)和大模型中,嵌入是一種數(shù)據(jù)向量化或向量表示的技術(shù);簡(jiǎn)單來(lái)說(shuō)就相當(dāng)于一個(gè)轉(zhuǎn)換器,把人類能夠理解的數(shù)據(jù)包括文本,圖像等轉(zhuǎn)換為大模型方便處理的向量數(shù)據(jù)。

而向量是數(shù)學(xué)概念中的一個(gè)表示有大小和方向的量,其空間幾何意義就是一個(gè)帶有方向的箭頭,并且可以平移;而更直觀的理解可以把向量當(dāng)成一個(gè)多維矩陣,更確切的說(shuō)是用多維矩陣來(lái)描述向量。

因此,我們?cè)诖竽P图夹g(shù)中所說(shuō)的向量指的并不是空間維度;而是數(shù)據(jù)所構(gòu)成的維度。所以說(shuō),向量是一個(gè)數(shù)學(xué)概念,而矩陣是向量在計(jì)算機(jī)中的載體。

嵌入與向量

向量

向量在數(shù)學(xué)上表示的一個(gè)有方向和大小的量,在計(jì)算機(jī)中的載體是一個(gè)多維矩陣;因此向量從某些方面講就具備矩陣的性質(zhì),比如維度變換。

在大模型中數(shù)據(jù)一半通過(guò)多維矩陣來(lái)描述,比如大模型參數(shù)中有一個(gè)很重要的參數(shù)就是維度(dimension);這個(gè)維度指的就是多維矩陣的維度,維度越高,能夠表示的場(chǎng)景就越復(fù)雜。

但同樣,由于矩陣中存在著太多無(wú)用數(shù)據(jù);因此就產(chǎn)生了密集矩陣和稀疏矩陣的區(qū)別;而稀疏矩陣可以通過(guò)降維的方式來(lái)壓縮其矩陣大小,以此來(lái)獲取更高的存儲(chǔ)效率。

大模型的嵌入——Embedding與向量——Ve ctor-AI.x社區(qū)

高維矩陣與低維矩陣的區(qū)別就類似于圖片中的像素點(diǎn);像素點(diǎn)越多,圖片質(zhì)量越好,觀感上就更細(xì)膩;而像素點(diǎn)越低,圖像就越模糊,丟失的東西就越多。

但同樣的圖片效果怎么樣,除了像素點(diǎn)之外還有你觀看距離的影響,離得越遠(yuǎn),像素點(diǎn)的影響越小。

而為了解決近距離觀看的效果,升維就有了用武之地;而遠(yuǎn)距離觀看,就可以對(duì)數(shù)據(jù)進(jìn)行降維處理,節(jié)省空間,提升效率。

而至于怎么描述數(shù)據(jù)之間的語(yǔ)義關(guān)系,就是通過(guò)向量之間的計(jì)算——比如歐式距離,余弦,內(nèi)積等。

嵌入

嵌入雖然本質(zhì)上都是把離散數(shù)據(jù)映射到高維矩陣中,通過(guò)向量的空間關(guān)系來(lái)捕捉數(shù)據(jù)之間的語(yǔ)義關(guān)系;但其在不同的場(chǎng)景中又有一定的區(qū)別。

詞嵌入

詞嵌入是將單詞映射為數(shù)值向量,以捕捉單詞間的語(yǔ)義和句法關(guān)系,為自然語(yǔ)言處理任務(wù)提供有效的特征表示。

方法與技術(shù):詞嵌入通過(guò)預(yù)測(cè)單詞上下文(如Word2Vec)或全局詞頻統(tǒng)計(jì)(如GloVe)來(lái)學(xué)習(xí),也可使用深度神經(jīng)網(wǎng)絡(luò)捕捉更復(fù)雜的語(yǔ)言特征。

大模型的嵌入——Embedding與向量——Ve ctor-AI.x社區(qū)

圖像嵌入

圖像嵌入是將圖像轉(zhuǎn)換為低維向量,以簡(jiǎn)化處理并保留關(guān)鍵信息供機(jī)器學(xué)習(xí)使用。

方法與技術(shù):利用深度學(xué)習(xí)模型(如CNN)抽取圖像特征,通過(guò)降維技術(shù)映射到低維空間,訓(xùn)練優(yōu)化嵌入向量。

在機(jī)器學(xué)習(xí)中,Embedding 主要是指將離散的高維數(shù)據(jù)(如文字、圖片、音頻)映射到低緯度的連續(xù)向量空間。這個(gè)過(guò)程會(huì)生成由實(shí)數(shù)構(gòu)成的向量,用于捕捉原始數(shù)據(jù)的潛在的關(guān)系和結(jié)構(gòu)。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/pGwTsHOawzbg4jRTQK6rJQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦