偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM的「母語(yǔ)」是什么?

人工智能
在以英語(yǔ)為主的語(yǔ)料庫(kù)上訓(xùn)練的多語(yǔ)言LLM,是否使用英語(yǔ)作為內(nèi)部語(yǔ)言?對(duì)此,來(lái)自EPFL的研究人員針對(duì)Llama 2家族進(jìn)行了一系列實(shí)驗(yàn)。

大語(yǔ)言模型的「母語(yǔ)」是什么?

我們的第一反應(yīng)很可能是:英語(yǔ)。

但事實(shí)果真如此嗎?尤其是對(duì)于能夠聽(tīng)說(shuō)讀寫(xiě)多種語(yǔ)言的LLM來(lái)說(shuō)。

對(duì)此,來(lái)自EPFL(洛桑聯(lián)邦理工學(xué)院)的研究人員發(fā)表了下面這篇工作來(lái)一探究竟:

圖片圖片

論文地址:https://arxiv.org/pdf/2402.10588

項(xiàng)目地址:https://github.com/epfl-dlab/llm-latent-language

作者以Llama2為對(duì)象,向我們展示了具有多語(yǔ)言能力的Transformer,是如何思考問(wèn)題的。

像「羊駝」這種在英語(yǔ)區(qū)下長(zhǎng)大的娃,他的「多語(yǔ)言」到底是本質(zhì)屬性,還是僅僅套了個(gè)翻譯的殼?

這對(duì)于人們理解LLM的運(yùn)行機(jī)制至關(guān)重要。

圖片圖片

要探究大模型的內(nèi)心世界,雖然聽(tīng)起來(lái)有點(diǎn)復(fù)雜,但實(shí)際上一點(diǎn)也不簡(jiǎn)單。

研究人員在這里化繁為簡(jiǎn),使用特定的提示來(lái)保證輸出的唯一性,同時(shí)把Llama-2-7B的32層輸出全部提取出來(lái)——一層一層一層的剝開(kāi)她的心。

圖片圖片

于是,我們能在上圖清楚地看到,羊駝在得到中文翻譯(「花」)時(shí)的整個(gè)推理過(guò)程。

Transformer將輸入token進(jìn)行逐層映射,最終預(yù)測(cè)出下一個(gè)token,中間那些我們大概能理解或者不能理解的字符串,就是LLM使用的「內(nèi)部語(yǔ)言」。

顯然,在中間層的「思考」環(huán)節(jié),羊駝?dòng)玫氖瞧蛴谟⒄Z(yǔ)的某種神秘文字。

這里需要強(qiáng)調(diào)一下,這是羊駝的自發(fā)行為,因?yàn)樘崾局袎焊蜎](méi)有一點(diǎn)英語(yǔ)!

圖片圖片

比如上圖是其中的一個(gè)實(shí)驗(yàn),構(gòu)建了法語(yǔ)翻譯中文的提示,且限制了正確答案只需1個(gè)token(花)。

而下圖的統(tǒng)計(jì)顯示:在Llama2的大部分前向傳遞中,正確中文token(藍(lán)色)的概率遠(yuǎn)低于英文翻譯(橙色)的概率。中文只在最后兩層中占據(jù)主導(dǎo)地位。

圖片圖片

為了方便大家觀察,作者還將嵌入在高維空間中的路徑的可視化(實(shí)際是8192個(gè)維度,這里使用2D展示)。

從輸入到輸出,軌跡以紅色開(kāi)始,以紫色結(jié)束。我們可以看到,這些路徑基本都是先繞道英語(yǔ),然后才返回正確的中文。

圖片圖片

不過(guò),這是否確實(shí)表明Llama2先用英文進(jìn)行推理,然后將再其翻譯成中文?

作者表示,比這更微妙一點(diǎn)。那些看起來(lái)像英語(yǔ)的中間嵌入實(shí)際上對(duì)應(yīng)于抽象概念,而不是具體的英文token。

所以,一方面,Llama2內(nèi)部的「通用語(yǔ)」不是英語(yǔ),而是概念;

但另一方面,這些神秘字符又顯然是偏向于英語(yǔ)的概念。

因此,在語(yǔ)義上,而非純粹的詞匯意義上,英語(yǔ)確實(shí)可以被視為羊駝的「母語(yǔ)」。

網(wǎng)友:我早就發(fā)現(xiàn)了

有網(wǎng)友表示:恕我直言,不僅僅是羊駝系列,基本上所有LLM都是這樣。

圖片圖片

「對(duì)于以英語(yǔ)為母語(yǔ)的人來(lái)說(shuō),這可能會(huì)令人驚訝,但對(duì)于其他人來(lái)說(shuō),這種傾向性是可見(jiàn)的,只不過(guò)有時(shí)多,有時(shí)少。」

「有時(shí)我會(huì)想LLM為什么要這樣回答,然后我意識(shí)到這個(gè)答案在英語(yǔ)中更有意義?!?/span>

「這在詩(shī)歌中更是顯而易見(jiàn)的。LLM寫(xiě)詩(shī)很漂亮,但通常沒(méi)有押韻.——如果你把它翻譯成英語(yǔ),就押韻了?!?/span>

另一位網(wǎng)友表示,這是大模型帶來(lái)的偏見(jiàn),要小心了。

圖片圖片

「英語(yǔ)和中文最終將成為L(zhǎng)LM提示和輸出的最佳語(yǔ)言,而隨著LLM的應(yīng)用范圍越來(lái)越廣泛,世界其他語(yǔ)言將更加邊緣化?!?/span>

模型表達(dá)空間的探索

當(dāng)嵌入逐層轉(zhuǎn)換時(shí),它們會(huì)經(jīng)歷3個(gè)階段:

1. 輸入空間:模型消除分詞器帶來(lái)的影響。

2. 概念空間:嵌入進(jìn)入一個(gè)抽象的概念空間中。

3. 輸出空間:概念被映射回原本的表達(dá)形式。

圖片圖片

模型

實(shí)驗(yàn)專注于Llama-2系列語(yǔ)言模型。Llama-2系列模型在多語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,語(yǔ)料庫(kù)主要由英語(yǔ)主導(dǎo)(占89.70%)。

不過(guò)考慮到總體訓(xùn)練數(shù)據(jù)的大?。?萬(wàn)億個(gè)token),即使是一小部分非英語(yǔ)訓(xùn)練數(shù)據(jù),絕對(duì)值仍然很大(德語(yǔ)占0.17%=3.4B,中文占0.13%=2.6B)。

Llama-2有7B/13B/70B三種尺寸,分別為32/40/80層,嵌入維度d=4096/5120/8192,詞匯表V包含32,000個(gè)token。實(shí)驗(yàn)中使用8位量化探究這三種不同大小的模型。

實(shí)驗(yàn)

實(shí)驗(yàn)的目標(biāo)是探索Llama-2的內(nèi)部狀態(tài),是否與特定的自然語(yǔ)言相對(duì)應(yīng),這需要從token分布映射到語(yǔ)言。

為了規(guī)避許多token在語(yǔ)言方面上模棱兩可的問(wèn)題,研究人員構(gòu)造了特殊的提示,限制token輸出的唯一性,并且可以明確地歸因于某一種語(yǔ)言。

翻譯任務(wù)

將前面的非英語(yǔ)(例如法語(yǔ))單詞翻譯成中文,示例如下,向模型展示四個(gè)單詞,并帶有正確的翻譯,后跟第五個(gè)沒(méi)有翻譯的單詞,讓模型預(yù)測(cè)下一個(gè)token:

圖片圖片

重復(fù)任務(wù)

要求模型簡(jiǎn)單地重復(fù)最后一個(gè)單詞,提示如下:

圖片圖片

完形填空任務(wù)

作為一項(xiàng)稍微困難的任務(wù),模型需要預(yù)測(cè)句子中缺失的單詞。給定一個(gè)目標(biāo)單詞,通過(guò)GPT-4構(gòu)建一個(gè)以該單詞開(kāi)頭的英語(yǔ)句子,屏蔽目標(biāo)單詞,并將該句子翻譯成其他語(yǔ)言。英語(yǔ)示例如下:

圖片圖片

單詞選擇

為了實(shí)現(xiàn)明確的語(yǔ)言歸屬,研究人員為每種語(yǔ)言構(gòu)建了一組封閉的單詞。掃描Llama-2的詞匯表,尋找具有單token英文翻譯的單token中文單詞(主要是名詞)。

這樣一來(lái),Llama-2預(yù)測(cè)下一個(gè)中文單詞的正確概率就可以直接從下一個(gè)token概率中讀出。

保險(xiǎn)起見(jiàn),作者還在德語(yǔ)、法語(yǔ)和俄語(yǔ)上進(jìn)行了相同的實(shí)驗(yàn),總共測(cè)試了139個(gè)中文、104個(gè)德語(yǔ)、56個(gè)法語(yǔ)和115個(gè)俄語(yǔ)單詞。三個(gè)任務(wù)的測(cè)試結(jié)果如下:

圖片圖片

上圖表示Llama-2前向傳遞期間,每一層輸出是英語(yǔ)還是中文的概率,三個(gè)任務(wù)分別為:(a)從德語(yǔ)/法語(yǔ)/俄語(yǔ)到中文的翻譯任務(wù),(b)中文重復(fù)任務(wù),(c)中文完形填空任務(wù)。

誤差線顯示輸入文本的95%高斯置信區(qū)間(翻譯任務(wù)為353,重復(fù)任務(wù)和完形填空為139)。

8192D太空漫游

自回歸Transformer是以增量方式求解的,每一層通過(guò)添加殘差來(lái)修改前一層產(chǎn)生的潛在向量,這一過(guò)程在幾何上可以描述為通過(guò)d維歐幾里得空間的路徑。

圖片圖片

為了建立直覺(jué),首先考慮一個(gè)假設(shè)的極端情況,即token位于整個(gè)d維空間的適當(dāng)子空間中。

如果latent embedding(h)具有與token子空間正交的分量,則表示預(yù)測(cè)中包含與h無(wú)關(guān)的信息。

研究人員采用h和token嵌入之間的均方余弦,來(lái)表示h的能量有多少轉(zhuǎn)化為logit分?jǐn)?shù)。為了可解釋性,這里通過(guò)token嵌入本身的均方余弦進(jìn)行歸一化,得到h的平方token能量:

圖片圖片

在上面的球形示意圖中,所有嵌入都位于原點(diǎn)周圍的球體上。token嵌入位于赤道上,主要沿x軸分布,x軸捕獲語(yǔ)言(左英文,右中文),y軸捕捉概念,z軸提供了額外的自由度,可用于存儲(chǔ)有關(guān)上下文、語(yǔ)言等的信息。Transformer正向傳遞沿球體表面移動(dòng)。

在第1階段,latent embedding從北極開(kāi)始,與輸出token和概念嵌入正交。

階段2旋轉(zhuǎn)到概念空間中,英語(yǔ)token占據(jù)主導(dǎo)。

最后,第3階段沿赤道旋轉(zhuǎn)到目標(biāo)語(yǔ)言的半球,產(chǎn)生輸出token。

參考資料:

https://arxiv.org/abs/2402.10588

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-06-25 14:18:36

LAMLAMsGUI

2024-06-28 13:57:34

2023-06-30 09:00:00

Falcon LLM開(kāi)源

2024-07-11 16:32:13

代碼Java

2017-03-21 23:29:44

DevOps運(yùn)維開(kāi)發(fā)

2024-08-06 08:16:05

2023-04-27 13:09:10

MLOps工程師軟技能

2012-04-16 15:14:47

web設(shè)計(jì)

2020-10-18 12:50:25

人工智能中文英文

2023-06-26 07:42:39

2009-07-07 16:50:39

ServletResp

2009-09-16 09:39:50

ccna是什么CCNA

2009-07-15 15:47:49

iBATIS是什么

2013-02-21 15:40:02

SDN

2009-03-26 15:48:00

2011-06-07 16:56:40

LDAP

2024-09-04 15:28:20

2021-08-18 07:56:05

Typescript類型本質(zhì)

2021-09-26 05:41:13

數(shù)字困境IT領(lǐng)導(dǎo)數(shù)字轉(zhuǎn)型

2021-10-11 08:58:34

Goroutine操作系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)