偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="igscf"><form id="igscf"><acronym id="igscf"></acronym></form></pre>

<cite id="igscf"><rp id="igscf"><form id="igscf"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MetaAI解鎖Transformer潛意識，僅額外3%計算開銷，性能提升最高55%

2025-10-29 16:20:57

人工智能新聞

這項研究給我們的啟示是，即使在Transformer架構(gòu)已經(jīng)非常成熟的今天，對其核心的自回歸機(jī)制進(jìn)行微小而深刻的改造，依然能帶來意想不到的性能飛躍。

Meta FAIR部門的研究員Fran?ois Fleuret發(fā)布了一篇名為《The Free Transformer》的論文，提出了一種對現(xiàn)有解碼器Transformer模型的精妙擴(kuò)展。

這項技術(shù)的核心，是讓模型在生成每個字之前，能先在內(nèi)部形成一個類似計劃或草稿的隱性決策，而不是像過去那樣，只能邊寫邊想。

實驗證明，這種先計劃，后執(zhí)行的模式，在編程、數(shù)學(xué)和推理等任務(wù)上帶來了顯著的性能提升。

AI寫作的慣性困境

我們今天所熟知的解碼器Transformer，比如GPT系列，模型在生成一段話時，是逐字（token）進(jìn)行的。它預(yù)測下一個字，完全依賴于它已經(jīng)生成的所有前面的字。

假設(shè)我們想訓(xùn)練一個模型來寫電影評論，評論有正面和負(fù)面兩種。

一個標(biāo)準(zhǔn)的解碼器Transformer當(dāng)然可以學(xué)會寫這兩種評論。但它的工作方式是，一個字一個字地吐。它可能寫了幾個字之后，根據(jù)已經(jīng)寫出的這部電影，來判斷接下來應(yīng)該接很精彩還是很糟糕。

它并沒有一個全局的、預(yù)先的決定：我現(xiàn)在要寫一篇負(fù)面評論。這個負(fù)面或正面的概念，是隨著文字的生成，隱含在概率計算中的一種后續(xù)推斷。

這種模式存在幾個潛在的問題。

它需要模型具備非常大的容量和復(fù)雜的計算，才能從已經(jīng)生成的零散詞語中，反推出一個全局的意圖，這很低效。

如果生成過程的早期，有幾個詞出現(xiàn)了偏差、模棱兩可或者前后矛盾，整個生成過程就可能跑偏，后面再也拉不回來。

關(guān)鍵的概念，比如正面或負(fù)面，不是模型主動構(gòu)建的，而是在擬合訓(xùn)練數(shù)據(jù)時被動形成的。這使得模型在面對分布外的數(shù)據(jù)時，可能表現(xiàn)得很脆弱。

Free Transformer讓模型擁有了自由意志

Free Transformer的核心思路是，在模型的自回歸生成過程中，引入一些額外的、不受訓(xùn)練樣本直接控制的隨機(jī)變量，讓模型可以依據(jù)這些變量來調(diào)整生成。

回到電影評論的例子。模型可以先用一個內(nèi)部的隨機(jī)布爾值，一次性決定接下來要生成的是一篇正面評論，還是一篇負(fù)面評論。

有了這個全局性的決策，模型就不再需要從已經(jīng)生成的零散詞語中費(fèi)力地推斷意圖。

實現(xiàn)這個想法，需要借助一種名為變分自編碼器（Variational Autoencoder，簡稱VAE）的框架。

在生成新內(nèi)容時，過程很簡單：模型先采樣一個隨機(jī)變量Z，然后像普通的Transformer一樣，基于這個Z去生成整個序列。

挑戰(zhàn)在于訓(xùn)練。我們希望模型學(xué)會將有意義的信息（比如評論的情感）編碼到Z里面。

這就需要一個編碼器（Encoder）。在訓(xùn)練時，編碼器會讀取一個完整的訓(xùn)練樣本（比如一篇已有的正面評論），然后生成一個與之匹配的Z。解碼器（Decoder）再利用這個Z，嘗試去重建原始的評論。

通過聯(lián)合優(yōu)化編碼器和解碼器，模型就學(xué)會了如何將序列的全局屬性（情感、主題等）壓縮進(jìn)Z，并利用Z來指導(dǎo)生成。

這里有一個關(guān)鍵點(diǎn)：必須限制從編碼器流向Z的信息量。否則，編碼器可能會耍小聰明，直接把整個原文復(fù)制到Z里，解碼器就可以躺平了。這在訓(xùn)練時看起來很完美，但在實際生成時，沒有了編碼器，模型就什么也做不了。

VAE理論通過計算Z的分布與一個標(biāo)準(zhǔn)先驗分布之間的KL（Kullback-Leibler）散度來控制信息量，并將其作為一個懲罰項加入到總的損失函數(shù)中。

Free Transformer的結(jié)構(gòu)設(shè)計非常巧妙。它不是一個全新的模型，而是對標(biāo)準(zhǔn)解碼器Transformer的微小改造。

它將隨機(jī)噪聲Z注入到模型的中間層。

更妙的是，編碼器直接復(fù)用了模型的前半部分網(wǎng)絡(luò)層，只增加了一個額外的、非因果的Transformer塊和兩個線性層。

非因果意味著這個塊可以同時看到整個輸入序列，這對于捕捉全局信息至關(guān)重要。

這種設(shè)計，對于一個28層的1.5B模型，額外開銷大約是1/28，約等于3.6%。對于一個32層的8B模型，開銷約為1/32，即3.1%。

用約3%的計算開銷，帶來大幅性能提升，這幾乎是免費(fèi)的午餐。

實驗證明了它的有效性

為了驗證Free Transformer是否真的學(xué)會了利用潛變量Z，研究人員設(shè)計了一個巧妙的合成數(shù)據(jù)集。

每個數(shù)據(jù)樣本的生成規(guī)則如下：

以64個下劃線_開始。
隨機(jī)選一個大寫字母，在序列的隨機(jī)位置，用8個該字母組成的目標(biāo)替換掉下劃線。
以很小的概率，將任意字符替換為感嘆號，作為噪聲。
在末尾附上一個提示，比如 a>，告知目標(biāo)字母是什么。

研究人員用這個數(shù)據(jù)集訓(xùn)練了模型，并設(shè)置了不同的KL散度閾值（κ），這個閾值控制了模型可以往Z里塞入多少信息。

結(jié)果非常直觀。

當(dāng)KL閾值很低時，模型幾乎不使用Z，表現(xiàn)和普通Transformer一樣（圖左上）。所有生成的序列都各不相同。

當(dāng)閾值稍微提高，模型開始將目標(biāo)的位置信息編碼到Z中。在圖右上的綠色框里，所有序列共享同一個Z，它們的目標(biāo)都出現(xiàn)在了相同的位置。

當(dāng)閾值進(jìn)一步提高，模型不僅編碼了位置，還編碼了噪聲（感嘆號）的模式。圖左下的綠色框里，不僅目標(biāo)位置一樣，連感嘆號出現(xiàn)的位置都完全一樣。

當(dāng)閾值過高時，模型開始作弊，把整個序列的信息都塞進(jìn)了Z，導(dǎo)致生成出錯（圖右下）。

這個實驗清晰地證明，F(xiàn)ree Transformer學(xué)會了根據(jù)任務(wù)需求，自主地將最關(guān)鍵的全局信息（目標(biāo)位置、噪聲模式）打包到潛變量Z中。

接下來是真實世界的基準(zhǔn)測試。研究人員使用了1.5B和8B兩種規(guī)模的模型，與結(jié)構(gòu)相同的標(biāo)準(zhǔn)解碼器Transformer進(jìn)行對比。

為了保證公平，所有超參數(shù)都沿用基線模型的設(shè)置，沒有為Free Transformer做特殊優(yōu)化。

結(jié)果顯示，在HumanEval+（代碼生成）、MBPP（代碼生成）和GSM8K（小學(xué)數(shù)學(xué)應(yīng)用題）這些需要推理能力的基準(zhǔn)上，F(xiàn)ree Transformer取得了顯著的性能提升。

在8B模型上，當(dāng)每個token允許引入半比特信息時，性能提升最為明顯。

為了驗證這種改進(jìn)在更大規(guī)模的訓(xùn)練下是否依然存在，研究團(tuán)隊用1T（萬億）級別的token訓(xùn)練了8B模型。

結(jié)果再次證實了之前的發(fā)現(xiàn)。無論是在訓(xùn)練結(jié)束時還是在訓(xùn)練后期的平均性能上，F(xiàn)ree Transformer在推理、數(shù)學(xué)和多項選擇問答任務(wù)上都穩(wěn)定地優(yōu)于基線模型。

這項工作意味著什么

Free Transformer用一種極為高效的方式，對標(biāo)準(zhǔn)解碼器Transformer的歸納偏置（inductive bias）進(jìn)行了改進(jìn)。

它讓模型有能力無監(jiān)督地學(xué)習(xí)數(shù)據(jù)中存在的潛在結(jié)構(gòu)，并利用這些結(jié)構(gòu)來指導(dǎo)內(nèi)容生成。

在某種意義上，這與思維鏈（Chain-of-Thought）或強(qiáng)化學(xué)習(xí)中的推理模型（如DeepSeek-R1）有異曲同工之妙。后者是在token層面，通過顯式的文本來進(jìn)行推理；而Free Transformer則是在模型的潛在空間（latent space），通過自編碼的方式，進(jìn)行一種更底層的、隱式的規(guī)劃。

將這兩種方法結(jié)合起來，無疑是一個充滿潛力的研究方向。

這項工作僅僅是一個開始。研究人員指出，模型的訓(xùn)練過程有時不穩(wěn)定，這可能是編碼器和解碼器優(yōu)化過程耦合導(dǎo)致的，未來可以探索不同的優(yōu)化策略。隨機(jī)嵌入Z的形式也可以有多種選擇。

它在更大規(guī)模的模型和數(shù)據(jù)集上的表現(xiàn)，仍有待進(jìn)一步探索。

這項研究給我們的啟示是，即使在Transformer架構(gòu)已經(jīng)非常成熟的今天，對其核心的自回歸機(jī)制進(jìn)行微小而深刻的改造，依然能帶來意想不到的性能飛躍。

AI不僅在學(xué)習(xí)如何說話，更在學(xué)習(xí)如何思考。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營