MetaAI解鎖Transformer潛意識,僅額外3%計算開銷,性能提升最高55%
Meta FAIR部門的研究員Fran?ois Fleuret發(fā)布了一篇名為《The Free Transformer》的論文,提出了一種對現(xiàn)有解碼器Transformer模型的精妙擴(kuò)展。

這項技術(shù)的核心,是讓模型在生成每個字之前,能先在內(nèi)部形成一個類似計劃或草稿的隱性決策,而不是像過去那樣,只能邊寫邊想。
實驗證明,這種先計劃,后執(zhí)行的模式,在編程、數(shù)學(xué)和推理等任務(wù)上帶來了顯著的性能提升。
AI寫作的慣性困境
我們今天所熟知的解碼器Transformer,比如GPT系列,模型在生成一段話時,是逐字(token)進(jìn)行的。它預(yù)測下一個字,完全依賴于它已經(jīng)生成的所有前面的字。
假設(shè)我們想訓(xùn)練一個模型來寫電影評論,評論有正面和負(fù)面兩種。
一個標(biāo)準(zhǔn)的解碼器Transformer當(dāng)然可以學(xué)會寫這兩種評論。但它的工作方式是,一個字一個字地吐。它可能寫了幾個字之后,根據(jù)已經(jīng)寫出的這部電影,來判斷接下來應(yīng)該接很精彩還是很糟糕。
它并沒有一個全局的、預(yù)先的決定:我現(xiàn)在要寫一篇負(fù)面評論。這個負(fù)面或正面的概念,是隨著文字的生成,隱含在概率計算中的一種后續(xù)推斷。
這種模式存在幾個潛在的問題。
它需要模型具備非常大的容量和復(fù)雜的計算,才能從已經(jīng)生成的零散詞語中,反推出一個全局的意圖,這很低效。
如果生成過程的早期,有幾個詞出現(xiàn)了偏差、模棱兩可或者前后矛盾,整個生成過程就可能跑偏,后面再也拉不回來。
關(guān)鍵的概念,比如正面或負(fù)面,不是模型主動構(gòu)建的,而是在擬合訓(xùn)練數(shù)據(jù)時被動形成的。這使得模型在面對分布外的數(shù)據(jù)時,可能表現(xiàn)得很脆弱。
Free Transformer讓模型擁有了自由意志
Free Transformer的核心思路是,在模型的自回歸生成過程中,引入一些額外的、不受訓(xùn)練樣本直接控制的隨機(jī)變量,讓模型可以依據(jù)這些變量來調(diào)整生成。

回到電影評論的例子。模型可以先用一個內(nèi)部的隨機(jī)布爾值,一次性決定接下來要生成的是一篇正面評論,還是一篇負(fù)面評論。
有了這個全局性的決策,模型就不再需要從已經(jīng)生成的零散詞語中費(fèi)力地推斷意圖。
實現(xiàn)這個想法,需要借助一種名為變分自編碼器(Variational Autoencoder,簡稱VAE)的框架。
在生成新內(nèi)容時,過程很簡單:模型先采樣一個隨機(jī)變量Z,然后像普通的Transformer一樣,基于這個Z去生成整個序列。

挑戰(zhàn)在于訓(xùn)練。我們希望模型學(xué)會將有意義的信息(比如評論的情感)編碼到Z里面。
這就需要一個編碼器(Encoder)。在訓(xùn)練時,編碼器會讀取一個完整的訓(xùn)練樣本(比如一篇已有的正面評論),然后生成一個與之匹配的Z。解碼器(Decoder)再利用這個Z,嘗試去重建原始的評論。
通過聯(lián)合優(yōu)化編碼器和解碼器,模型就學(xué)會了如何將序列的全局屬性(情感、主題等)壓縮進(jìn)Z,并利用Z來指導(dǎo)生成。
這里有一個關(guān)鍵點(diǎn):必須限制從編碼器流向Z的信息量。否則,編碼器可能會耍小聰明,直接把整個原文復(fù)制到Z里,解碼器就可以躺平了。這在訓(xùn)練時看起來很完美,但在實際生成時,沒有了編碼器,模型就什么也做不了。
VAE理論通過計算Z的分布與一個標(biāo)準(zhǔn)先驗分布之間的KL(Kullback-Leibler)散度來控制信息量,并將其作為一個懲罰項加入到總的損失函數(shù)中。
Free Transformer的結(jié)構(gòu)設(shè)計非常巧妙。它不是一個全新的模型,而是對標(biāo)準(zhǔn)解碼器Transformer的微小改造。
它將隨機(jī)噪聲Z注入到模型的中間層。
更妙的是,編碼器直接復(fù)用了模型的前半部分網(wǎng)絡(luò)層,只增加了一個額外的、非因果的Transformer塊和兩個線性層。
非因果意味著這個塊可以同時看到整個輸入序列,這對于捕捉全局信息至關(guān)重要。
這種設(shè)計,對于一個28層的1.5B模型,額外開銷大約是1/28,約等于3.6%。對于一個32層的8B模型,開銷約為1/32,即3.1%。

用約3%的計算開銷,帶來大幅性能提升,這幾乎是免費(fèi)的午餐。
實驗證明了它的有效性
為了驗證Free Transformer是否真的學(xué)會了利用潛變量Z,研究人員設(shè)計了一個巧妙的合成數(shù)據(jù)集。
每個數(shù)據(jù)樣本的生成規(guī)則如下:
- 以64個下劃線_開始。
- 隨機(jī)選一個大寫字母,在序列的隨機(jī)位置,用8個該字母組成的目標(biāo)替換掉下劃線。
- 以很小的概率,將任意字符替換為感嘆號,作為噪聲。
- 在末尾附上一個提示,比如 a>,告知目標(biāo)字母是什么。

研究人員用這個數(shù)據(jù)集訓(xùn)練了模型,并設(shè)置了不同的KL散度閾值(κ),這個閾值控制了模型可以往Z里塞入多少信息。

結(jié)果非常直觀。
當(dāng)KL閾值很低時,模型幾乎不使用Z,表現(xiàn)和普通Transformer一樣(圖左上)。所有生成的序列都各不相同。
當(dāng)閾值稍微提高,模型開始將目標(biāo)的位置信息編碼到Z中。在圖右上的綠色框里,所有序列共享同一個Z,它們的目標(biāo)都出現(xiàn)在了相同的位置。
當(dāng)閾值進(jìn)一步提高,模型不僅編碼了位置,還編碼了噪聲(感嘆號)的模式。圖左下的綠色框里,不僅目標(biāo)位置一樣,連感嘆號出現(xiàn)的位置都完全一樣。
當(dāng)閾值過高時,模型開始作弊,把整個序列的信息都塞進(jìn)了Z,導(dǎo)致生成出錯(圖右下)。
這個實驗清晰地證明,F(xiàn)ree Transformer學(xué)會了根據(jù)任務(wù)需求,自主地將最關(guān)鍵的全局信息(目標(biāo)位置、噪聲模式)打包到潛變量Z中。
接下來是真實世界的基準(zhǔn)測試。研究人員使用了1.5B和8B兩種規(guī)模的模型,與結(jié)構(gòu)相同的標(biāo)準(zhǔn)解碼器Transformer進(jìn)行對比。
為了保證公平,所有超參數(shù)都沿用基線模型的設(shè)置,沒有為Free Transformer做特殊優(yōu)化。


結(jié)果顯示,在HumanEval+(代碼生成)、MBPP(代碼生成)和GSM8K(小學(xué)數(shù)學(xué)應(yīng)用題)這些需要推理能力的基準(zhǔn)上,F(xiàn)ree Transformer取得了顯著的性能提升。
在8B模型上,當(dāng)每個token允許引入半比特信息時,性能提升最為明顯。
為了驗證這種改進(jìn)在更大規(guī)模的訓(xùn)練下是否依然存在,研究團(tuán)隊用1T(萬億)級別的token訓(xùn)練了8B模型。

結(jié)果再次證實了之前的發(fā)現(xiàn)。無論是在訓(xùn)練結(jié)束時還是在訓(xùn)練后期的平均性能上,F(xiàn)ree Transformer在推理、數(shù)學(xué)和多項選擇問答任務(wù)上都穩(wěn)定地優(yōu)于基線模型。
這項工作意味著什么
Free Transformer用一種極為高效的方式,對標(biāo)準(zhǔn)解碼器Transformer的歸納偏置(inductive bias)進(jìn)行了改進(jìn)。
它讓模型有能力無監(jiān)督地學(xué)習(xí)數(shù)據(jù)中存在的潛在結(jié)構(gòu),并利用這些結(jié)構(gòu)來指導(dǎo)內(nèi)容生成。
在某種意義上,這與思維鏈(Chain-of-Thought)或強(qiáng)化學(xué)習(xí)中的推理模型(如DeepSeek-R1)有異曲同工之妙。后者是在token層面,通過顯式的文本來進(jìn)行推理;而Free Transformer則是在模型的潛在空間(latent space),通過自編碼的方式,進(jìn)行一種更底層的、隱式的規(guī)劃。
將這兩種方法結(jié)合起來,無疑是一個充滿潛力的研究方向。
這項工作僅僅是一個開始。研究人員指出,模型的訓(xùn)練過程有時不穩(wěn)定,這可能是編碼器和解碼器優(yōu)化過程耦合導(dǎo)致的,未來可以探索不同的優(yōu)化策略。隨機(jī)嵌入Z的形式也可以有多種選擇。
它在更大規(guī)模的模型和數(shù)據(jù)集上的表現(xiàn),仍有待進(jìn)一步探索。
這項研究給我們的啟示是,即使在Transformer架構(gòu)已經(jīng)非常成熟的今天,對其核心的自回歸機(jī)制進(jìn)行微小而深刻的改造,依然能帶來意想不到的性能飛躍。
AI不僅在學(xué)習(xí)如何說話,更在學(xué)習(xí)如何思考。




























