Meta打碎Transformer 8年鐵律!改寫AI最底層規(guī)則,模型首次冒出潛意識
Transformer可以說整個(gè)LLM的基石,但這個(gè)基石要松動(dòng)了!
8年了!持續(xù)了8年的Transformer底層架構(gòu)似乎要被Meta打破了。
Meta推出「自由Transformer」(Free Transformer)新模型在AI架構(gòu)領(lǐng)域引發(fā)社交媒體熱議。
首次打破自2017年以來所有GPT模型的核心規(guī)則:不再是逐token盲猜式生成,而是在生成前能「預(yù)先思考」。

論文地址:https://arxiv.org/pdf/2510.17558
研究者在解碼器中引入了潛在隨機(jī)變量Z,讓模型在輸出前進(jìn)行內(nèi)部采樣與規(guī)劃,相當(dāng)于為Transformer增加了一層「潛意識」。
這一創(chuàng)新僅增加約3%的計(jì)算開銷,卻顯著提升了模型在推理與結(jié)構(gòu)化生成上的表現(xiàn),在GSM8K、MMLU、HumanEval等測試中超越更大規(guī)模的模型。
Meta稱,這可能是第一種「有內(nèi)在意圖」的Transformer。
用潛在隨機(jī)變量打造機(jī)器「潛意識」
Meta在解碼器中加入了潛在隨機(jī)變量(Z)。
可以將其視為生成文本前的「潛意識層」,模型會(huì)采樣內(nèi)部選擇來引導(dǎo)整個(gè)序列的風(fēng)格或結(jié)構(gòu)。
從技術(shù)上講,這是通過內(nèi)置在Transformer內(nèi)部的條件變分自編碼器(VAE)實(shí)現(xiàn)的。
Meta將其命名為Free Transformer。

不同Transformer架構(gòu)如何處理名為Z的隨機(jī)隱藏狀態(tài)。
圖中第一個(gè)展示的是標(biāo)準(zhǔn)Transformer,僅根據(jù)前序token預(yù)測下一個(gè)token。
第二個(gè)架構(gòu)增加了隨機(jī)狀態(tài)Z,并在訓(xùn)練時(shí)使用額外的編碼器網(wǎng)絡(luò)來推斷每個(gè)樣本對應(yīng)的隱藏狀態(tài)。
第三種架構(gòu)名為Free Transformer,簡化了這一過程。它直接在模型中間層注入隨機(jī)狀態(tài),而非使用獨(dú)立的全編碼器。在訓(xùn)練過程中,編碼器仍被使用一次,以幫助模型學(xué)會(huì)如何選取良好的隱藏狀態(tài),但它僅與網(wǎng)絡(luò)的一部分協(xié)同工作。
在推理過程中,編碼器被跳過,隨機(jī)狀態(tài)Z被直接采樣。
這種設(shè)計(jì)使模型能夠早期做出全局決策,幫助它在沒有太多額外計(jì)算的情況下產(chǎn)生更一致和穩(wěn)定的輸出。
因此,一半模塊充當(dāng)共享編碼器,其余模塊則基于該潛在上下文進(jìn)行解碼。
在常規(guī)設(shè)置中,若使用隨機(jī)隱藏狀態(tài),每次生成文本時(shí)都必須同時(shí)使用編碼器和解碼器。
這會(huì)使成本翻倍。
自由變換器避免了這一點(diǎn)。
它在訓(xùn)練過程中學(xué)習(xí)共享的內(nèi)部結(jié)構(gòu),之后便丟棄編碼器。
在推理時(shí),它直接采樣隱藏狀態(tài)并僅運(yùn)行解碼器。
與標(biāo)準(zhǔn)模型相比,這種設(shè)計(jì)僅增加約3-4%的FLOPs計(jì)算開銷,大幅降低了計(jì)算負(fù)擔(dān)。

它采用經(jīng)典的VAE目標(biāo)進(jìn)行訓(xùn)練:
交叉熵?fù)p失+編碼器分布 Q(Z|S)與先驗(yàn) P(Z)之間的KL散度懲罰項(xiàng)。
Meta使用自由比特閾值(κ)來防止崩潰,僅在散度>κ時(shí)添加KL損失。
這使得Z能夠編碼有用結(jié)構(gòu)(如主題、情感或模式位置)而不會(huì)過擬合。
采用KL散度懲罰結(jié)合自由比特方法,防止隱狀態(tài)記憶整個(gè)序列。
該架構(gòu)在堆疊層中部注入隱狀態(tài):將學(xué)習(xí)得到的向量添加到鍵值中,隨后正常繼續(xù)解碼過程。
每個(gè)token對應(yīng)的隱狀態(tài)從65536種可能性中選取,由16個(gè)獨(dú)立比特構(gòu)建而成。
關(guān)鍵突破在于——它保留了條件變分自編碼器的優(yōu)勢(有助于模型更好地規(guī)劃),同時(shí)消除了通常使其不切實(shí)際的額外成本。
這樣你就能獲得一個(gè)更穩(wěn)定、具有全局感知能力的Transformer,而成本幾乎與普通Transformer相同。
它僅在訓(xùn)練期間增加約 3%的計(jì)算量就能實(shí)現(xiàn)這一點(diǎn)。
普通解碼器僅依據(jù)已生成的標(biāo)記來選擇下一個(gè)標(biāo)記,這導(dǎo)致它們較晚才能推測全局選擇。
FreeTransformer先采樣一個(gè)微小的隨機(jī)狀態(tài),然后讓每個(gè)標(biāo)記都基于該狀態(tài)生成。
訓(xùn)練時(shí),通過條件變分自編碼器將解碼器與編碼器配對,使模型學(xué)會(huì)生成有用的隱狀態(tài)。
結(jié)果非常好!
在推理過程中跳過編碼器,由均勻采樣器選擇狀態(tài),生成過程正常進(jìn)行。
這為模型提供了早期的全局決策,減少了在出現(xiàn)小規(guī)模標(biāo)記錯(cuò)誤后的脆弱行為。
Meta訓(xùn)練了1.5B和8B的模型。
在GSM8K、HumanEval+和 MMLU等重推理基準(zhǔn)測試中的表現(xiàn)顯著提升。
1.5B模型模型增益:
- HumanEval+得分提升 44%
- MBPP測試提升 35%
- GSM8K數(shù)學(xué)題集提升 30%

計(jì)算開銷僅增加3-4%即實(shí)現(xiàn)上述效果。
而且模型保持穩(wěn)定,沒有出現(xiàn)訓(xùn)練崩潰或異常波動(dòng)。
自由變換器(The FreeTransformer)在架構(gòu)中增加了一個(gè)隨機(jī)的「隱藏思維層」。

它不只是預(yù)測,而是先決策后預(yù)測,這可能標(biāo)志著后自回歸時(shí)代的開端。
一句話總結(jié),一個(gè)微小的編碼器添加了有益的偏差,使推理和編碼更加可靠。
會(huì)思考的Transformer,不再只是「鸚鵡學(xué)舌」。
這可能是一個(gè)重要節(jié)點(diǎn),Transformer的思維方式被重塑,從「預(yù)測下一個(gè)詞」邁向「思考如何表達(dá)」。
潛在變量Z到底學(xué)到了什么?
以下是論文給出的測試?yán)印?/span>
合成序列具有固定長度,包含一個(gè)由隨機(jī)字母重復(fù)8次構(gòu)成、位于隨機(jī)位置的「目標(biāo)」,以及由感嘆號組成的獨(dú)立同分布噪聲,還有一個(gè)提示目標(biāo)字母的提示語。
- 每條樣本以「字母+>」作為提示(如 K>)。
- 主體是一行固定長度的下劃線 _,在隨機(jī)位置嵌入 8 個(gè)相同的大寫字母組成的「target」(如KKKKKKKK)。
- 另外以1/16的概率把任一字符替換成 !,形成獨(dú)立同分布的噪聲

下圖則展示了Free Transformer 在該合成任務(wù)上、不同K時(shí)的生成行為與潛變量Z所承載的信息。

每個(gè)模型都給出兩組方框:
- 藍(lán)色方框:每條序列都獨(dú)立采樣一個(gè)Z。
- 綠色方框:整組序列共用同一個(gè)Z,便于看出Z是否「鎖定」了某些全局屬性。
隨κ變大(信息從少到多)現(xiàn)象依次為:
- κ=log(2)/64(≈1/64 bit):幾乎不從Z編碼有用信息,表現(xiàn)像普通無潛變量的解碼器;綠色與藍(lán)色差異很小。
- κ=log(2)/8(≈1/8 bit):Z先學(xué)會(huì)只編碼target的位置;綠色方框中target位置在多條樣本里保持一致,但噪聲 ! 仍隨機(jī)。
- κ=log(2)(1 bit):Z進(jìn)一步同時(shí)編碼target位置與噪聲模式;因此綠色方框的多條樣本連 ! 的分布也很相似。
- κ=8·log(2)(8 bits):Z承載信息過多,幾乎「把整條序列塞進(jìn) Z」——導(dǎo)致訓(xùn)練/生成退化(模型過度依賴 Z,輸出反而不對)。
這張圖用分組對比清楚地示范:允許更大的KL配額會(huì)讓模型把更多「全局決策」搬到潛變量里;太少不夠用,太多會(huì)塌陷。
FAIR實(shí)驗(yàn)室是真的搞研究
注意到,論文作者Fran?ois Fleuret,來自Meta的FAIR實(shí)驗(yàn)室。
Fran?ois Fleuret是一位機(jī)器學(xué)習(xí)領(lǐng)域的研究科學(xué)家與教育工作者。

他目前擔(dān)任 Meta Fundamental AI Research(Meta FAIR)「核心學(xué)習(xí)與推理」(Core Learning & Reasoning)團(tuán)隊(duì)的研究科學(xué)家。
而眾所周知的是,F(xiàn)AIR是Yann LeCun領(lǐng)導(dǎo)的。
今天一個(gè)重磅新聞就是,小扎的超級智能實(shí)驗(yàn)又裁員了600人。
Yann LeCun都逼的出來發(fā)聲明了:
「我沒有參與任何Llama項(xiàng)目,一直由其他團(tuán)隊(duì)負(fù)責(zé),我主要是研究超越LLM的下一代人工智能?!?/span>

從這個(gè)自由Transformer來看,Yann LeCun所言不虛。
雖然他一直反對LLM技術(shù)本身,但是這些創(chuàng)新也是拓展AI的邊界。
希望小扎能好好對待這位圖靈獎(jiǎng)大佬。

































