偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

MetaAI解鎖Transformer潛意識,僅額外3%計算開銷,性能提升最高55%

人工智能 新聞
這項研究給我們的啟示是,即使在Transformer架構(gòu)已經(jīng)非常成熟的今天,對其核心的自回歸機(jī)制進(jìn)行微小而深刻的改造,依然能帶來意想不到的性能飛躍。

Meta FAIR部門的研究員Fran?ois Fleuret發(fā)布了一篇名為《The Free Transformer》的論文,提出了一種對現(xiàn)有解碼器Transformer模型的精妙擴(kuò)展。

這項技術(shù)的核心,是讓模型在生成每個字之前,能先在內(nèi)部形成一個類似計劃或草稿的隱性決策,而不是像過去那樣,只能邊寫邊想。

實驗證明,這種先計劃,后執(zhí)行的模式,在編程、數(shù)學(xué)和推理等任務(wù)上帶來了顯著的性能提升。

AI寫作的慣性困境

我們今天所熟知的解碼器Transformer,比如GPT系列,模型在生成一段話時,是逐字(token)進(jìn)行的。它預(yù)測下一個字,完全依賴于它已經(jīng)生成的所有前面的字。

假設(shè)我們想訓(xùn)練一個模型來寫電影評論,評論有正面和負(fù)面兩種。

一個標(biāo)準(zhǔn)的解碼器Transformer當(dāng)然可以學(xué)會寫這兩種評論。但它的工作方式是,一個字一個字地吐。它可能寫了幾個字之后,根據(jù)已經(jīng)寫出的這部電影,來判斷接下來應(yīng)該接很精彩還是很糟糕。

它并沒有一個全局的、預(yù)先的決定:我現(xiàn)在要寫一篇負(fù)面評論。這個負(fù)面或正面的概念,是隨著文字的生成,隱含在概率計算中的一種后續(xù)推斷。

這種模式存在幾個潛在的問題。

它需要模型具備非常大的容量和復(fù)雜的計算,才能從已經(jīng)生成的零散詞語中,反推出一個全局的意圖,這很低效。

如果生成過程的早期,有幾個詞出現(xiàn)了偏差、模棱兩可或者前后矛盾,整個生成過程就可能跑偏,后面再也拉不回來。

關(guān)鍵的概念,比如正面或負(fù)面,不是模型主動構(gòu)建的,而是在擬合訓(xùn)練數(shù)據(jù)時被動形成的。這使得模型在面對分布外的數(shù)據(jù)時,可能表現(xiàn)得很脆弱。

Free Transformer讓模型擁有了自由意志

Free Transformer的核心思路是,在模型的自回歸生成過程中,引入一些額外的、不受訓(xùn)練樣本直接控制的隨機(jī)變量,讓模型可以依據(jù)這些變量來調(diào)整生成。

回到電影評論的例子。模型可以先用一個內(nèi)部的隨機(jī)布爾值,一次性決定接下來要生成的是一篇正面評論,還是一篇負(fù)面評論。

有了這個全局性的決策,模型就不再需要從已經(jīng)生成的零散詞語中費(fèi)力地推斷意圖。

實現(xiàn)這個想法,需要借助一種名為變分自編碼器(Variational Autoencoder,簡稱VAE)的框架。

在生成新內(nèi)容時,過程很簡單:模型先采樣一個隨機(jī)變量Z,然后像普通的Transformer一樣,基于這個Z去生成整個序列。

挑戰(zhàn)在于訓(xùn)練。我們希望模型學(xué)會將有意義的信息(比如評論的情感)編碼到Z里面。

這就需要一個編碼器(Encoder)。在訓(xùn)練時,編碼器會讀取一個完整的訓(xùn)練樣本(比如一篇已有的正面評論),然后生成一個與之匹配的Z。解碼器(Decoder)再利用這個Z,嘗試去重建原始的評論。

通過聯(lián)合優(yōu)化編碼器和解碼器,模型就學(xué)會了如何將序列的全局屬性(情感、主題等)壓縮進(jìn)Z,并利用Z來指導(dǎo)生成。

這里有一個關(guān)鍵點(diǎn):必須限制從編碼器流向Z的信息量。否則,編碼器可能會耍小聰明,直接把整個原文復(fù)制到Z里,解碼器就可以躺平了。這在訓(xùn)練時看起來很完美,但在實際生成時,沒有了編碼器,模型就什么也做不了。

VAE理論通過計算Z的分布與一個標(biāo)準(zhǔn)先驗分布之間的KL(Kullback-Leibler)散度來控制信息量,并將其作為一個懲罰項加入到總的損失函數(shù)中。

Free Transformer的結(jié)構(gòu)設(shè)計非常巧妙。它不是一個全新的模型,而是對標(biāo)準(zhǔn)解碼器Transformer的微小改造。

它將隨機(jī)噪聲Z注入到模型的中間層。

更妙的是,編碼器直接復(fù)用了模型的前半部分網(wǎng)絡(luò)層,只增加了一個額外的、非因果的Transformer塊和兩個線性層。

非因果意味著這個塊可以同時看到整個輸入序列,這對于捕捉全局信息至關(guān)重要。

這種設(shè)計,對于一個28層的1.5B模型,額外開銷大約是1/28,約等于3.6%。對于一個32層的8B模型,開銷約為1/32,即3.1%。

用約3%的計算開銷,帶來大幅性能提升,這幾乎是免費(fèi)的午餐。

實驗證明了它的有效性

為了驗證Free Transformer是否真的學(xué)會了利用潛變量Z,研究人員設(shè)計了一個巧妙的合成數(shù)據(jù)集。

每個數(shù)據(jù)樣本的生成規(guī)則如下:

  • 以64個下劃線_開始。
  • 隨機(jī)選一個大寫字母,在序列的隨機(jī)位置,用8個該字母組成的目標(biāo)替換掉下劃線。
  • 以很小的概率,將任意字符替換為感嘆號,作為噪聲。
  • 在末尾附上一個提示,比如 a>,告知目標(biāo)字母是什么。

研究人員用這個數(shù)據(jù)集訓(xùn)練了模型,并設(shè)置了不同的KL散度閾值(κ),這個閾值控制了模型可以往Z里塞入多少信息。

結(jié)果非常直觀。

當(dāng)KL閾值很低時,模型幾乎不使用Z,表現(xiàn)和普通Transformer一樣(圖左上)。所有生成的序列都各不相同。

當(dāng)閾值稍微提高,模型開始將目標(biāo)的位置信息編碼到Z中。在圖右上的綠色框里,所有序列共享同一個Z,它們的目標(biāo)都出現(xiàn)在了相同的位置。

當(dāng)閾值進(jìn)一步提高,模型不僅編碼了位置,還編碼了噪聲(感嘆號)的模式。圖左下的綠色框里,不僅目標(biāo)位置一樣,連感嘆號出現(xiàn)的位置都完全一樣。

當(dāng)閾值過高時,模型開始作弊,把整個序列的信息都塞進(jìn)了Z,導(dǎo)致生成出錯(圖右下)。

這個實驗清晰地證明,F(xiàn)ree Transformer學(xué)會了根據(jù)任務(wù)需求,自主地將最關(guān)鍵的全局信息(目標(biāo)位置、噪聲模式)打包到潛變量Z中。

接下來是真實世界的基準(zhǔn)測試。研究人員使用了1.5B和8B兩種規(guī)模的模型,與結(jié)構(gòu)相同的標(biāo)準(zhǔn)解碼器Transformer進(jìn)行對比。

為了保證公平,所有超參數(shù)都沿用基線模型的設(shè)置,沒有為Free Transformer做特殊優(yōu)化。

結(jié)果顯示,在HumanEval+(代碼生成)、MBPP(代碼生成)和GSM8K(小學(xué)數(shù)學(xué)應(yīng)用題)這些需要推理能力的基準(zhǔn)上,F(xiàn)ree Transformer取得了顯著的性能提升。

在8B模型上,當(dāng)每個token允許引入半比特信息時,性能提升最為明顯。

為了驗證這種改進(jìn)在更大規(guī)模的訓(xùn)練下是否依然存在,研究團(tuán)隊用1T(萬億)級別的token訓(xùn)練了8B模型。

結(jié)果再次證實了之前的發(fā)現(xiàn)。無論是在訓(xùn)練結(jié)束時還是在訓(xùn)練后期的平均性能上,F(xiàn)ree Transformer在推理、數(shù)學(xué)和多項選擇問答任務(wù)上都穩(wěn)定地優(yōu)于基線模型。

這項工作意味著什么

Free Transformer用一種極為高效的方式,對標(biāo)準(zhǔn)解碼器Transformer的歸納偏置(inductive bias)進(jìn)行了改進(jìn)。

它讓模型有能力無監(jiān)督地學(xué)習(xí)數(shù)據(jù)中存在的潛在結(jié)構(gòu),并利用這些結(jié)構(gòu)來指導(dǎo)內(nèi)容生成。

在某種意義上,這與思維鏈(Chain-of-Thought)或強(qiáng)化學(xué)習(xí)中的推理模型(如DeepSeek-R1)有異曲同工之妙。后者是在token層面,通過顯式的文本來進(jìn)行推理;而Free Transformer則是在模型的潛在空間(latent space),通過自編碼的方式,進(jìn)行一種更底層的、隱式的規(guī)劃。

將這兩種方法結(jié)合起來,無疑是一個充滿潛力的研究方向。

這項工作僅僅是一個開始。研究人員指出,模型的訓(xùn)練過程有時不穩(wěn)定,這可能是編碼器和解碼器優(yōu)化過程耦合導(dǎo)致的,未來可以探索不同的優(yōu)化策略。隨機(jī)嵌入Z的形式也可以有多種選擇。

它在更大規(guī)模的模型和數(shù)據(jù)集上的表現(xiàn),仍有待進(jìn)一步探索。

這項研究給我們的啟示是,即使在Transformer架構(gòu)已經(jīng)非常成熟的今天,對其核心的自回歸機(jī)制進(jìn)行微小而深刻的改造,依然能帶來意想不到的性能飛躍。

AI不僅在學(xué)習(xí)如何說話,更在學(xué)習(xí)如何思考。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-10-24 10:10:22

2024-04-07 07:46:00

谷歌架構(gòu)

2013-05-30 10:11:53

失業(yè)的程序員程序員

2025-10-14 07:53:20

零拷貝CPUI/O 性能

2024-07-04 10:23:51

2020-02-12 09:35:30

AI 數(shù)據(jù)人工智能

2021-12-29 11:06:25

Java代碼技巧

2024-11-14 11:29:38

2023-10-23 08:23:16

系統(tǒng)性能數(shù)據(jù)庫

2010-04-09 09:09:37

2014-11-19 14:00:42

臺灣清華SC14高性能計算

2022-03-21 15:06:10

模型字節(jié)跳動框架

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2022-02-11 17:45:47

Raspberry操作系統(tǒng)樹莓派

2023-02-21 14:16:42

2021-11-26 05:27:28

指紋解鎖人臉識別物理識別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號