偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="pmhzl"></bdo>

<tt id="pmhzl"><option id="pmhzl"></option></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM的「母語(yǔ)」是什么？

作者：新智元 2024-06-03 07:57:32

在以英語(yǔ)為主的語(yǔ)料庫(kù)上訓(xùn)練的多語(yǔ)言LLM，是否使用英語(yǔ)作為內(nèi)部語(yǔ)言？對(duì)此，來(lái)自EPFL的研究人員針對(duì)Llama 2家族進(jìn)行了一系列實(shí)驗(yàn)。

大語(yǔ)言模型的「母語(yǔ)」是什么？

我們的第一反應(yīng)很可能是：英語(yǔ)。

但事實(shí)果真如此嗎？尤其是對(duì)于能夠聽(tīng)說(shuō)讀寫(xiě)多種語(yǔ)言的LLM來(lái)說(shuō)。

對(duì)此，來(lái)自EPFL（洛桑聯(lián)邦理工學(xué)院）的研究人員發(fā)表了下面這篇工作來(lái)一探究竟：

圖片

論文地址：https://arxiv.org/pdf/2402.10588

項(xiàng)目地址：https://github.com/epfl-dlab/llm-latent-language

作者以Llama2為對(duì)象，向我們展示了具有多語(yǔ)言能力的Transformer，是如何思考問(wèn)題的。

像「羊駝」這種在英語(yǔ)區(qū)下長(zhǎng)大的娃，他的「多語(yǔ)言」到底是本質(zhì)屬性，還是僅僅套了個(gè)翻譯的殼？

這對(duì)于人們理解LLM的運(yùn)行機(jī)制至關(guān)重要。

圖片

要探究大模型的內(nèi)心世界，雖然聽(tīng)起來(lái)有點(diǎn)復(fù)雜，但實(shí)際上一點(diǎn)也不簡(jiǎn)單。

研究人員在這里化繁為簡(jiǎn)，使用特定的提示來(lái)保證輸出的唯一性，同時(shí)把Llama-2-7B的32層輸出全部提取出來(lái)——一層一層一層的剝開(kāi)她的心。

圖片

于是，我們能在上圖清楚地看到，羊駝在得到中文翻譯（「花」）時(shí)的整個(gè)推理過(guò)程。

Transformer將輸入token進(jìn)行逐層映射，最終預(yù)測(cè)出下一個(gè)token，中間那些我們大概能理解或者不能理解的字符串，就是LLM使用的「內(nèi)部語(yǔ)言」。

顯然，在中間層的「思考」環(huán)節(jié)，羊駝?dòng)玫氖瞧蛴谟⒄Z(yǔ)的某種神秘文字。

這里需要強(qiáng)調(diào)一下，這是羊駝的自發(fā)行為，因?yàn)樘崾局袎焊蜎](méi)有一點(diǎn)英語(yǔ)！

圖片

比如上圖是其中的一個(gè)實(shí)驗(yàn)，構(gòu)建了法語(yǔ)翻譯中文的提示，且限制了正確答案只需1個(gè)token（花）。

而下圖的統(tǒng)計(jì)顯示：在Llama2的大部分前向傳遞中，正確中文token（藍(lán)色）的概率遠(yuǎn)低于英文翻譯（橙色）的概率。中文只在最后兩層中占據(jù)主導(dǎo)地位。

圖片

為了方便大家觀察，作者還將嵌入在高維空間中的路徑的可視化（實(shí)際是8192個(gè)維度，這里使用2D展示）。

從輸入到輸出，軌跡以紅色開(kāi)始，以紫色結(jié)束。我們可以看到，這些路徑基本都是先繞道英語(yǔ)，然后才返回正確的中文。

圖片

不過(guò)，這是否確實(shí)表明Llama2先用英文進(jìn)行推理，然后將再其翻譯成中文？

作者表示，比這更微妙一點(diǎn)。那些看起來(lái)像英語(yǔ)的中間嵌入實(shí)際上對(duì)應(yīng)于抽象概念，而不是具體的英文token。

所以，一方面，Llama2內(nèi)部的「通用語(yǔ)」不是英語(yǔ)，而是概念；

但另一方面，這些神秘字符又顯然是偏向于英語(yǔ)的概念。

因此，在語(yǔ)義上，而非純粹的詞匯意義上，英語(yǔ)確實(shí)可以被視為羊駝的「母語(yǔ)」。

網(wǎng)友：我早就發(fā)現(xiàn)了

有網(wǎng)友表示：恕我直言，不僅僅是羊駝系列，基本上所有LLM都是這樣。

圖片

「對(duì)于以英語(yǔ)為母語(yǔ)的人來(lái)說(shuō)，這可能會(huì)令人驚訝，但對(duì)于其他人來(lái)說(shuō)，這種傾向性是可見(jiàn)的，只不過(guò)有時(shí)多，有時(shí)少。」

「有時(shí)我會(huì)想LLM為什么要這樣回答，然后我意識(shí)到這個(gè)答案在英語(yǔ)中更有意義?！?/span>

「這在詩(shī)歌中更是顯而易見(jiàn)的。LLM寫(xiě)詩(shī)很漂亮，但通常沒(méi)有押韻.——如果你把它翻譯成英語(yǔ)，就押韻了?！?/span>

另一位網(wǎng)友表示，這是大模型帶來(lái)的偏見(jiàn)，要小心了。

圖片

「英語(yǔ)和中文最終將成為L(zhǎng)LM提示和輸出的最佳語(yǔ)言，而隨著LLM的應(yīng)用范圍越來(lái)越廣泛，世界其他語(yǔ)言將更加邊緣化?！?/span>

模型表達(dá)空間的探索

當(dāng)嵌入逐層轉(zhuǎn)換時(shí)，它們會(huì)經(jīng)歷3個(gè)階段：

1. 輸入空間：模型消除分詞器帶來(lái)的影響。
2. 概念空間：嵌入進(jìn)入一個(gè)抽象的概念空間中。
3. 輸出空間：概念被映射回原本的表達(dá)形式。

圖片

模型

實(shí)驗(yàn)專注于Llama-2系列語(yǔ)言模型。Llama-2系列模型在多語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練，語(yǔ)料庫(kù)主要由英語(yǔ)主導(dǎo)（占89.70%）。

不過(guò)考慮到總體訓(xùn)練數(shù)據(jù)的大?。?萬(wàn)億個(gè)token），即使是一小部分非英語(yǔ)訓(xùn)練數(shù)據(jù)，絕對(duì)值仍然很大（德語(yǔ)占0.17%=3.4B，中文占0.13%=2.6B）。

Llama-2有7B/13B/70B三種尺寸，分別為32/40/80層，嵌入維度d=4096/5120/8192，詞匯表V包含32,000個(gè)token。實(shí)驗(yàn)中使用8位量化探究這三種不同大小的模型。

實(shí)驗(yàn)

實(shí)驗(yàn)的目標(biāo)是探索Llama-2的內(nèi)部狀態(tài)，是否與特定的自然語(yǔ)言相對(duì)應(yīng)，這需要從token分布映射到語(yǔ)言。

為了規(guī)避許多token在語(yǔ)言方面上模棱兩可的問(wèn)題，研究人員構(gòu)造了特殊的提示，限制token輸出的唯一性，并且可以明確地歸因于某一種語(yǔ)言。

翻譯任務(wù)

將前面的非英語(yǔ)（例如法語(yǔ)）單詞翻譯成中文，示例如下，向模型展示四個(gè)單詞，并帶有正確的翻譯，后跟第五個(gè)沒(méi)有翻譯的單詞，讓模型預(yù)測(cè)下一個(gè)token：

圖片

重復(fù)任務(wù)

要求模型簡(jiǎn)單地重復(fù)最后一個(gè)單詞，提示如下：

圖片

完形填空任務(wù)

作為一項(xiàng)稍微困難的任務(wù)，模型需要預(yù)測(cè)句子中缺失的單詞。給定一個(gè)目標(biāo)單詞，通過(guò)GPT-4構(gòu)建一個(gè)以該單詞開(kāi)頭的英語(yǔ)句子，屏蔽目標(biāo)單詞，并將該句子翻譯成其他語(yǔ)言。英語(yǔ)示例如下：

圖片

單詞選擇

為了實(shí)現(xiàn)明確的語(yǔ)言歸屬，研究人員為每種語(yǔ)言構(gòu)建了一組封閉的單詞。掃描Llama-2的詞匯表，尋找具有單token英文翻譯的單token中文單詞（主要是名詞）。

這樣一來(lái)，Llama-2預(yù)測(cè)下一個(gè)中文單詞的正確概率就可以直接從下一個(gè)token概率中讀出。

保險(xiǎn)起見(jiàn)，作者還在德語(yǔ)、法語(yǔ)和俄語(yǔ)上進(jìn)行了相同的實(shí)驗(yàn)，總共測(cè)試了139個(gè)中文、104個(gè)德語(yǔ)、56個(gè)法語(yǔ)和115個(gè)俄語(yǔ)單詞。三個(gè)任務(wù)的測(cè)試結(jié)果如下：

圖片

上圖表示Llama-2前向傳遞期間，每一層輸出是英語(yǔ)還是中文的概率，三個(gè)任務(wù)分別為：（a）從德語(yǔ)/法語(yǔ)/俄語(yǔ)到中文的翻譯任務(wù)，（b）中文重復(fù)任務(wù)，（c）中文完形填空任務(wù)。

誤差線顯示輸入文本的95%高斯置信區(qū)間（翻譯任務(wù)為353，重復(fù)任務(wù)和完形填空為139）。

8192D太空漫游

自回歸Transformer是以增量方式求解的，每一層通過(guò)添加殘差來(lái)修改前一層產(chǎn)生的潛在向量，這一過(guò)程在幾何上可以描述為通過(guò)d維歐幾里得空間的路徑。

圖片

為了建立直覺(jué)，首先考慮一個(gè)假設(shè)的極端情況，即token位于整個(gè)d維空間的適當(dāng)子空間中。

如果latent embedding（h）具有與token子空間正交的分量，則表示預(yù)測(cè)中包含與h無(wú)關(guān)的信息。

研究人員采用h和token嵌入之間的均方余弦，來(lái)表示h的能量有多少轉(zhuǎn)化為logit分?jǐn)?shù)。為了可解釋性，這里通過(guò)token嵌入本身的均方余弦進(jìn)行歸一化，得到h的平方token能量：

圖片

在上面的球形示意圖中，所有嵌入都位于原點(diǎn)周圍的球體上。token嵌入位于赤道上，主要沿x軸分布，x軸捕獲語(yǔ)言（左英文，右中文），y軸捕捉概念，z軸提供了額外的自由度，可用于存儲(chǔ)有關(guān)上下文、語(yǔ)言等的信息。Transformer正向傳遞沿球體表面移動(dòng)。

在第1階段，latent embedding從北極開(kāi)始，與輸出token和概念嵌入正交。

階段2旋轉(zhuǎn)到概念空間中，英語(yǔ)token占據(jù)主導(dǎo)。

最后，第3階段沿赤道旋轉(zhuǎn)到目標(biāo)語(yǔ)言的半球，產(chǎn)生輸出token。

參考資料：

https://arxiv.org/abs/2402.10588

責(zé)任編輯：武曉燕來(lái)源：新智元

LLM Llama 2 token

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<dfn id="z68tj"><menu id="z68tj"></menu></dfn>