討論下一個(gè)token預(yù)測(cè)時(shí),我們可能正在走進(jìn)陷阱
自香農(nóng)在《通信的數(shù)學(xué)原理》一書中提出「下一個(gè) token 預(yù)測(cè)任務(wù)」之后,這一概念逐漸成為現(xiàn)代語(yǔ)言模型的核心部分。最近,圍繞下一個(gè) token 預(yù)測(cè)的討論日趨激烈。
然而,越來(lái)越多的人認(rèn)為,以下一個(gè) token 的預(yù)測(cè)為目標(biāo)只能得到一個(gè)優(yōu)秀的「即興表演藝術(shù)家」,并不能真正模擬人類思維。人類會(huì)在執(zhí)行計(jì)劃之前在頭腦中進(jìn)行細(xì)致的想象、策劃和回溯。遺憾的是,這種策略并沒(méi)有明確地構(gòu)建在當(dāng)今語(yǔ)言模型的框架中。對(duì)此,部分學(xué)者如 LeCun,在其論文中已有所評(píng)判。
在一篇論文中,來(lái)自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對(duì)這個(gè)話題進(jìn)行了深入分析,指出了當(dāng)前爭(zhēng)論沒(méi)有關(guān)注到的本質(zhì)問(wèn)題:即沒(méi)有將訓(xùn)練階段的 teacher forcing 模式和推理階段的自回歸模式加以區(qū)分。

- 論文標(biāo)題:THE PITFALLS OF NEXT-TOKEN PREDICTION
 - 論文地址:https://arxiv.org/pdf/2403.06963.pdf
 - 項(xiàng)目地址:https://github.com/gregorbachmann/Next-Token-Failures
 
讀完此文,也許會(huì)讓你對(duì)下一個(gè) token 預(yù)測(cè)的內(nèi)涵有不一樣的理解。
研究背景
首先,讓我們對(duì) 「人們?cè)谶M(jìn)行語(yǔ)言表達(dá)或者完成某項(xiàng)任務(wù)時(shí),并不是在做下一個(gè) token 的預(yù)測(cè)」這個(gè)表述的含義進(jìn)行分析。對(duì)于這種反對(duì)意見(jiàn),可能馬上就會(huì)有 token 預(yù)測(cè)理論的支持者反駁到:不是每一個(gè)序列生成任務(wù)都可能是自回歸的嗎?咋一看確實(shí)如此,每一個(gè) token 序列的分布都可以是一種鏈?zhǔn)揭?guī)則,通過(guò)復(fù)雜的 token 預(yù)測(cè)模型進(jìn)行模擬之后,這種規(guī)則就可以被捕捉到,即 
??瓷先ニ坪踝曰貧w學(xué)習(xí)方式與讓模型學(xué)習(xí)人類語(yǔ)言的目的是統(tǒng)一的。
然而,這種簡(jiǎn)單粗暴的想法并不妨礙我們認(rèn)為 token 預(yù)測(cè)模型的規(guī)劃能力可能是很糟糕的。很重要的一點(diǎn)是,在這場(chǎng)爭(zhēng)論中人們并沒(méi)有仔細(xì)區(qū)分以下兩種類型的 token 預(yù)測(cè)方式:推理階段的自回歸(模型將自己之前的輸出作為輸入)和訓(xùn)練階段的 teacher-forcing(模型逐個(gè)對(duì) token 進(jìn)行預(yù)測(cè),將所有之前的真值 token 作為輸入)。如果不能對(duì)這兩種情況做出區(qū)分,那當(dāng)模型預(yù)測(cè)錯(cuò)誤時(shí),對(duì)復(fù)合誤差的分析往往只會(huì)將問(wèn)題導(dǎo)向至推理過(guò)程,讓人們覺(jué)得這是模型執(zhí)行方面的問(wèn)題。但這是一種膚淺的認(rèn)知,人們會(huì)覺(jué)得已經(jīng)得到了一個(gè)近乎完美的 token 預(yù)測(cè)模型;也許,通過(guò)一個(gè)適當(dāng)?shù)暮筇幚砟P瓦M(jìn)行驗(yàn)證和回溯后,可以在不產(chǎn)生復(fù)合錯(cuò)誤的情況下就能得出正確的計(jì)劃。
在明確問(wèn)題之后,緊接著我們就需要想清楚一件事:我們能放心地認(rèn)為基于 token 預(yù)測(cè)的學(xué)習(xí)方式(teacher-forcing)總是能學(xué)習(xí)到準(zhǔn)確的 token 預(yù)測(cè)模型嗎?本文作者認(rèn)為情況并非總是如此。
以如下這個(gè)任務(wù)為例:如果希望模型在看到問(wèn)題陳述 p = (p_1, p_2 ... ,) 后產(chǎn)生基本真實(shí)的響應(yīng) token (r_1, r_2, ...) 。teacher-forcing 在訓(xùn)練模型生成 token r_i 時(shí),不僅要提供問(wèn)題陳述 p,還要部分基本事實(shí) toekn r_1、...r_(i-1)。根據(jù)任務(wù)的不同,本文作者認(rèn)為這可能會(huì)產(chǎn)生「捷徑」,即利用產(chǎn)生的基本事實(shí)答案來(lái)虛假地?cái)M合未來(lái)的答案 token。這種作弊方式可以稱之為 「聰明的漢斯 」。接下來(lái),當(dāng)后面的 token 在這種作弊方法的作用下變得容易擬合時(shí),相反,前面的答案 token(如 r_0、r_1 等)卻變得更難學(xué)習(xí)。這是因?yàn)樗鼈儾辉俑綆魏侮P(guān)于完整答案的監(jiān)督信息,因?yàn)椴糠直O(jiān)督信息被「聰明的漢斯 」所剝奪。
作者認(rèn)為,這兩個(gè)缺陷會(huì)同時(shí)出現(xiàn)在 「前瞻性任務(wù) 」中:即需要在前一個(gè) token 之前隱含地規(guī)劃后一個(gè) token 的任務(wù)。在這類任務(wù)中,teacher-forcing 會(huì)導(dǎo)致 token 預(yù)測(cè)器的結(jié)果非常不準(zhǔn)確,無(wú)法推廣到未知問(wèn)題 p,甚至是獨(dú)立同分布下的采樣問(wèn)題。
根據(jù)經(jīng)驗(yàn),本文作者證明了上述機(jī)制會(huì)導(dǎo)致在圖的路徑搜索任務(wù)中會(huì)產(chǎn)生分布上的問(wèn)題。他們?cè)O(shè)計(jì)了一種能觀察到模型的任何錯(cuò)誤,并都可以通過(guò)直接求解來(lái)解決的方式。
作者觀察到 Transformer 和 Mamba 架構(gòu)(一種結(jié)構(gòu)化狀態(tài)空間模型)都失敗了。他們還發(fā)現(xiàn),一種預(yù)測(cè)未來(lái)多個(gè) token 的無(wú)教師訓(xùn)練形式(在某些情況下)能夠規(guī)避這種失敗。因此,本文精心設(shè)計(jì)了一種易于學(xué)習(xí)的場(chǎng)景。在這種場(chǎng)景下會(huì)發(fā)現(xiàn)不是現(xiàn)有文獻(xiàn)中所批評(píng)的環(huán)節(jié),如卷積、遞歸或自回歸推理,而是訓(xùn)練過(guò)程中的 token 預(yù)測(cè)環(huán)節(jié)出了問(wèn)題。
本文作者希望這些研究結(jié)果能夠啟發(fā)未來(lái)圍繞下一個(gè) token 預(yù)測(cè)的討論,并為其奠定堅(jiān)實(shí)的基礎(chǔ)。具體來(lái)說(shuō),作者認(rèn)為,下一個(gè) token 預(yù)測(cè)目標(biāo)在上述這個(gè)簡(jiǎn)單任務(wù)上的失敗,為其在更復(fù)雜任務(wù)(比如學(xué)習(xí)寫故事)上的應(yīng)用前景蒙上了陰影。作者還希望,這個(gè)失敗的例子和無(wú)教師訓(xùn)練方法所產(chǎn)生的正面結(jié)果,能夠激勵(lì)人們采用其他的訓(xùn)練范式。
貢獻(xiàn)總結(jié)如下:
1. 本文整合了針對(duì)下一個(gè) token 預(yù)測(cè)的現(xiàn)有批評(píng)意見(jiàn),并將新的核心爭(zhēng)議點(diǎn)具體化;
2. 本文指出,對(duì)下一個(gè) token 預(yù)測(cè)的爭(zhēng)論不能混淆自回歸推斷與 teacher-forcing,兩者導(dǎo)致的失敗的原因大相徑庭;
3. 本文從概念上論證了在前瞻任務(wù)中,訓(xùn)練過(guò)程中的下一個(gè) token 預(yù)測(cè)(即 teacher-forcing)可能會(huì)產(chǎn)生有問(wèn)題的學(xué)習(xí)機(jī)制,甚至產(chǎn)生分布上的問(wèn)題;
4. 本文設(shè)計(jì)了一個(gè)最小前瞻任務(wù)。通過(guò)實(shí)證證明,盡管該任務(wù)很容易學(xué)習(xí),但對(duì)于 Transformer 和 Mamba 架構(gòu)來(lái)說(shuō),teacher-forcing 是失敗的;
5. 本文發(fā)現(xiàn),Monea et al. 為實(shí)現(xiàn)正交推理時(shí)間效率目標(biāo)而提出的同時(shí)預(yù)測(cè)多個(gè)未來(lái) token 的無(wú)教師訓(xùn)練形式,有望在某些情況下規(guī)避這些訓(xùn)練階段上的失敗。這進(jìn)一步證明了下一個(gè) token 預(yù)測(cè)的局限性。
方法介紹
自回歸推理導(dǎo)致的問(wèn)題
本文的目標(biāo)是更系統(tǒng)地分析并細(xì)致區(qū)分下一個(gè) token 預(yù)測(cè)的兩個(gè)階段:teacher forcing 和自回歸。本文作者認(rèn)為,現(xiàn)有的論證沒(méi)有完全分析出 token 預(yù)測(cè)模型無(wú)法規(guī)劃任務(wù)的全部原因。
- 正方:概率鏈規(guī)則永遠(yuǎn)滴神
 
支持者對(duì)下一個(gè) token 預(yù)測(cè)最熱的呼聲是:概率鏈規(guī)則總能推出一個(gè)能夠符合概率分布的 token 預(yù)測(cè)。
- 反方:誤差會(huì)像雪球一樣越滾越大
 
反對(duì)者認(rèn)為,在自回歸的每一步中都有可能出現(xiàn)微小的錯(cuò)誤,而且一旦出錯(cuò)就沒(méi)有明確的回溯機(jī)制來(lái)挽救模型。這樣一來(lái),每個(gè) token 中的錯(cuò)誤概率,無(wú)論多么微小,都會(huì)以指數(shù)級(jí)的速度越滾越大。
反方抓住的是自回歸在結(jié)構(gòu)上的缺點(diǎn)。而正方對(duì)概率鏈規(guī)則的強(qiáng)調(diào)也只是抓住了自回歸架構(gòu)的表現(xiàn)力。這兩個(gè)論點(diǎn)都沒(méi)有解決一個(gè)問(wèn)題,即利用下一個(gè) token 預(yù)測(cè)進(jìn)行的學(xué)習(xí)本身可能在學(xué)習(xí)如何規(guī)劃方面存在缺陷。從這個(gè)意義上說(shuō),本文作者認(rèn)為現(xiàn)有的論證只捕捉到了問(wèn)題的表象,即下一個(gè) token 預(yù)測(cè)在規(guī)劃方面表現(xiàn)不佳。
teacher forcing 導(dǎo)致的問(wèn)題
token 預(yù)測(cè)模型是否會(huì)在測(cè)試期間無(wú)法高精度地預(yù)測(cè)下一個(gè) token?從數(shù)學(xué)上講,這意味著用 teacher forcing 目標(biāo)訓(xùn)練的模型在其訓(xùn)練的分布上誤差較大(從而打破了滾雪球模式的假設(shè))。因此,任何后處理模型都無(wú)法找到一個(gè)能用的計(jì)劃。從概念上來(lái)說(shuō),這種失敗可能發(fā)生在「前瞻性任務(wù)」中,因?yàn)檫@些任務(wù)隱含地要求在更早的 token 之前提前計(jì)算未來(lái)的 token。
為了更好地表述本文的論點(diǎn)所在,作者設(shè)計(jì)了一個(gè)圖的簡(jiǎn)單尋路問(wèn)題,深刻地抓住了解決前瞻性問(wèn)題的核心本質(zhì)。這項(xiàng)任務(wù)本身很容易解決,所以任何失誤都會(huì)非常直觀地體現(xiàn)出來(lái)。作者將這個(gè)例子視為其論點(diǎn)的模板,該論點(diǎn)覆蓋了 teacher forcing 下的前瞻性問(wèn)題中的更一般、更困難的問(wèn)題。

這個(gè)論點(diǎn)就是,本文作者認(rèn)為 teacher-forcing 可能會(huì)導(dǎo)致以下問(wèn)題,尤其是在前瞻性問(wèn)題中。
- 問(wèn)題 1:由于 teacher forcing 產(chǎn)生的「聰明的漢斯」作弊行為
 
盡管存在著一種機(jī)制可以從原始前綴 p 中恢復(fù)每個(gè) token r_i,但也可以有多種其他機(jī)制可以從 teacher forcing 的前綴(p,r<i)中恢復(fù) token r_i。這些機(jī)制可以更容易地被學(xué)習(xí)到,相應(yīng)地就會(huì)抑制模型學(xué)習(xí)真正的機(jī)制。
- 問(wèn)題 2:由于失去監(jiān)督而無(wú)法加密的 token
 
在訓(xùn)練中解決了「聰明的漢斯」作弊行為后,模型被剝奪了一部分監(jiān)督(尤其是對(duì)于較大的 i,r_i),這使得模型更難,甚至可能難以單獨(dú)從剩余的 token 中學(xué)習(xí)真正的機(jī)制。
實(shí)驗(yàn)
本文通過(guò)圖路徑搜索任務(wù)的實(shí)踐,演示了一種假設(shè)的故障模式。本文在 Transformer 和 Mamba 中進(jìn)行了實(shí)驗(yàn),以證明這些問(wèn)題對(duì)于 teacher-forced 模型來(lái)說(shuō)是普遍的。具體來(lái)說(shuō),先確定 teacher-forced 模型能符合訓(xùn)練數(shù)據(jù),但在滿足數(shù)據(jù)分布這個(gè)問(wèn)題上存在不足。接下來(lái),設(shè)計(jì)指標(biāo)來(lái)量化上述兩種假設(shè)機(jī)制發(fā)生的程度。最后,設(shè)計(jì)了替代目標(biāo)來(lái)干預(yù)和消除兩種故障模式中的每一種,以測(cè)試性能是否有所改善。
模型配置
本文對(duì)兩種模型家族進(jìn)行了評(píng)估,以強(qiáng)調(diào)問(wèn)題的出現(xiàn)與某種特定體系結(jié)構(gòu)無(wú)關(guān),而是源于下一個(gè) token 預(yù)測(cè)這個(gè)設(shè)計(jì)目標(biāo)。對(duì)于 Transformer,使用從頭開(kāi)始的 GPT-Mini 和預(yù)訓(xùn)練的 GPT-2 大模型。對(duì)于遞歸模型,使用從頭開(kāi)始的 Mamba 模型。本文使用 AdamW 進(jìn)行優(yōu)化,直到達(dá)到完美的訓(xùn)練精度。為了排除頓悟現(xiàn)象(grokking),本文對(duì)成本相對(duì)較低的模型進(jìn)行了長(zhǎng)達(dá) 500 個(gè) epoch 的訓(xùn)練。
本文在圖 3 和表 2 中描述了不同拓?fù)渎窂降男切螆D的
。可以觀察到,所有模型(即使經(jīng)過(guò)預(yù)訓(xùn)練)都很難準(zhǔn)確地學(xué)習(xí)任務(wù)。如果模型一致地猜測(cè)認(rèn)為 v_start≈1 /d,并由此在分布上產(chǎn)生問(wèn)題,則精度值能被嚴(yán)格限制。即使在訓(xùn)練以擬合高達(dá) 200k 的量級(jí)到 100% 準(zhǔn)確度的樣本量時(shí)也是如此,盡管訓(xùn)練用的圖結(jié)構(gòu)和測(cè)試用的圖結(jié)構(gòu)具有相同的拓?fù)浣Y(jié)構(gòu)。接下來(lái),本文定量地證明了這種明顯的問(wèn)題是如何由上述兩個(gè)假設(shè)機(jī)制產(chǎn)生的。


通過(guò)表 1 可以發(fā)現(xiàn),為了擬合訓(xùn)練數(shù)據(jù),teacher-forced 模型利用了「聰明的漢斯」作弊方法。


圖 3 和表 3 顯示了無(wú)教師模型的準(zhǔn)確率。不幸的是,在大多數(shù)情況下,無(wú)教師的訓(xùn)練目標(biāo)對(duì)模型來(lái)說(shuō)太難了,甚至無(wú)法擬合訓(xùn)練數(shù)據(jù),這可能是因?yàn)槿狈?jiǎn)單有效的欺騙手段。然而,令人驚訝的是,在一些更容易的圖結(jié)構(gòu)上,模型不僅適合于訓(xùn)練數(shù)據(jù),而且可以很好地泛化到測(cè)試數(shù)據(jù)。這個(gè)優(yōu)秀的結(jié)果(即使在有限的環(huán)境中)驗(yàn)證了兩個(gè)假設(shè)。首先,「聰明的漢斯」作弊方法確實(shí)是造成原有 teacher-forcing 模式失敗的原因之一。其次,值得注意的是,隨著作弊行為的消失,這些模型能夠擬合第一個(gè)節(jié)點(diǎn),而這個(gè)節(jié)點(diǎn)曾經(jīng)在 teacher-forcing 模式下是不可破譯的。綜上所述,本文所提出的假設(shè)可以說(shuō)是得到了驗(yàn)證了,即「聰明的漢斯」作弊方法抹去了對(duì)學(xué)習(xí)第一個(gè) token 的至關(guān)重要的監(jiān)督。
更多研究細(xì)節(jié),可參考原論文。















 
 
 






 
 
 
 