偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

討論下一個(gè)token預(yù)測時(shí),我們可能正在走進(jìn)陷阱

人工智能 新聞
在一篇論文中,來自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對(duì)這個(gè)話題進(jìn)行了深入分析,指出了當(dāng)前爭論沒有關(guān)注到的本質(zhì)問題

自香農(nóng)在《通信的數(shù)學(xué)原理》一書中提出「下一個(gè) token 預(yù)測任務(wù)」之后,這一概念逐漸成為現(xiàn)代語言模型的核心部分。最近,圍繞下一個(gè) token 預(yù)測的討論日趨激烈。

然而,越來越多的人認(rèn)為,以下一個(gè) token 的預(yù)測為目標(biāo)只能得到一個(gè)優(yōu)秀的「即興表演藝術(shù)家」,并不能真正模擬人類思維。人類會(huì)在執(zhí)行計(jì)劃之前在頭腦中進(jìn)行細(xì)致的想象、策劃和回溯。遺憾的是,這種策略并沒有明確地構(gòu)建在當(dāng)今語言模型的框架中。對(duì)此,部分學(xué)者如 LeCun,在其論文中已有所評(píng)判。

在一篇論文中,來自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對(duì)這個(gè)話題進(jìn)行了深入分析,指出了當(dāng)前爭論沒有關(guān)注到的本質(zhì)問題:即沒有將訓(xùn)練階段的 teacher forcing 模式和推理階段的自回歸模式加以區(qū)分。

圖片


  • 論文標(biāo)題:THE PITFALLS OF NEXT-TOKEN PREDICTION
  • 論文地址:https://arxiv.org/pdf/2403.06963.pdf
  • 項(xiàng)目地址:https://github.com/gregorbachmann/Next-Token-Failures

讀完此文,也許會(huì)讓你對(duì)下一個(gè) token 預(yù)測的內(nèi)涵有不一樣的理解。

研究背景

首先,讓我們對(duì) 「人們在進(jìn)行語言表達(dá)或者完成某項(xiàng)任務(wù)時(shí),并不是在做下一個(gè) token 的預(yù)測」這個(gè)表述的含義進(jìn)行分析。對(duì)于這種反對(duì)意見,可能馬上就會(huì)有 token 預(yù)測理論的支持者反駁到:不是每一個(gè)序列生成任務(wù)都可能是自回歸的嗎?咋一看確實(shí)如此,每一個(gè) token 序列的分布都可以是一種鏈?zhǔn)揭?guī)則,通過復(fù)雜的 token 預(yù)測模型進(jìn)行模擬之后,這種規(guī)則就可以被捕捉到,即 圖片??瓷先ニ坪踝曰貧w學(xué)習(xí)方式與讓模型學(xué)習(xí)人類語言的目的是統(tǒng)一的。

然而,這種簡單粗暴的想法并不妨礙我們認(rèn)為 token 預(yù)測模型的規(guī)劃能力可能是很糟糕的。很重要的一點(diǎn)是,在這場爭論中人們并沒有仔細(xì)區(qū)分以下兩種類型的 token 預(yù)測方式:推理階段的自回歸(模型將自己之前的輸出作為輸入)和訓(xùn)練階段的 teacher-forcing(模型逐個(gè)對(duì) token 進(jìn)行預(yù)測,將所有之前的真值 token 作為輸入)。如果不能對(duì)這兩種情況做出區(qū)分,那當(dāng)模型預(yù)測錯(cuò)誤時(shí),對(duì)復(fù)合誤差的分析往往只會(huì)將問題導(dǎo)向至推理過程,讓人們覺得這是模型執(zhí)行方面的問題。但這是一種膚淺的認(rèn)知,人們會(huì)覺得已經(jīng)得到了一個(gè)近乎完美的 token 預(yù)測模型;也許,通過一個(gè)適當(dāng)?shù)暮筇幚砟P瓦M(jìn)行驗(yàn)證和回溯后,可以在不產(chǎn)生復(fù)合錯(cuò)誤的情況下就能得出正確的計(jì)劃。

在明確問題之后,緊接著我們就需要想清楚一件事:我們能放心地認(rèn)為基于 token 預(yù)測的學(xué)習(xí)方式(teacher-forcing)總是能學(xué)習(xí)到準(zhǔn)確的 token 預(yù)測模型嗎?本文作者認(rèn)為情況并非總是如此。

以如下這個(gè)任務(wù)為例:如果希望模型在看到問題陳述 p = (p_1, p_2 ... ,) 后產(chǎn)生基本真實(shí)的響應(yīng) token (r_1, r_2, ...) 。teacher-forcing 在訓(xùn)練模型生成 token r_i 時(shí),不僅要提供問題陳述 p,還要部分基本事實(shí) toekn  r_1、...r_(i-1)。根據(jù)任務(wù)的不同,本文作者認(rèn)為這可能會(huì)產(chǎn)生「捷徑」,即利用產(chǎn)生的基本事實(shí)答案來虛假地?cái)M合未來的答案 token。這種作弊方式可以稱之為 「聰明的漢斯 」。接下來,當(dāng)后面的 token 在這種作弊方法的作用下變得容易擬合時(shí),相反,前面的答案 token(如 r_0、r_1 等)卻變得更難學(xué)習(xí)。這是因?yàn)樗鼈儾辉俑綆魏侮P(guān)于完整答案的監(jiān)督信息,因?yàn)椴糠直O(jiān)督信息被「聰明的漢斯 」所剝奪。

作者認(rèn)為,這兩個(gè)缺陷會(huì)同時(shí)出現(xiàn)在 「前瞻性任務(wù) 」中:即需要在前一個(gè) token 之前隱含地規(guī)劃后一個(gè) token 的任務(wù)。在這類任務(wù)中,teacher-forcing 會(huì)導(dǎo)致 token 預(yù)測器的結(jié)果非常不準(zhǔn)確,無法推廣到未知問題 p,甚至是獨(dú)立同分布下的采樣問題。

根據(jù)經(jīng)驗(yàn),本文作者證明了上述機(jī)制會(huì)導(dǎo)致在圖的路徑搜索任務(wù)中會(huì)產(chǎn)生分布上的問題。他們設(shè)計(jì)了一種能觀察到模型的任何錯(cuò)誤,并都可以通過直接求解來解決的方式。

作者觀察到 Transformer 和 Mamba 架構(gòu)(一種結(jié)構(gòu)化狀態(tài)空間模型)都失敗了。他們還發(fā)現(xiàn),一種預(yù)測未來多個(gè) token 的無教師訓(xùn)練形式(在某些情況下)能夠規(guī)避這種失敗。因此,本文精心設(shè)計(jì)了一種易于學(xué)習(xí)的場景。在這種場景下會(huì)發(fā)現(xiàn)不是現(xiàn)有文獻(xiàn)中所批評(píng)的環(huán)節(jié),如卷積、遞歸或自回歸推理,而是訓(xùn)練過程中的 token 預(yù)測環(huán)節(jié)出了問題。

本文作者希望這些研究結(jié)果能夠啟發(fā)未來圍繞下一個(gè) token 預(yù)測的討論,并為其奠定堅(jiān)實(shí)的基礎(chǔ)。具體來說,作者認(rèn)為,下一個(gè) token 預(yù)測目標(biāo)在上述這個(gè)簡單任務(wù)上的失敗,為其在更復(fù)雜任務(wù)(比如學(xué)習(xí)寫故事)上的應(yīng)用前景蒙上了陰影。作者還希望,這個(gè)失敗的例子和無教師訓(xùn)練方法所產(chǎn)生的正面結(jié)果,能夠激勵(lì)人們采用其他的訓(xùn)練范式。

貢獻(xiàn)總結(jié)如下:

1. 本文整合了針對(duì)下一個(gè) token 預(yù)測的現(xiàn)有批評(píng)意見,并將新的核心爭議點(diǎn)具體化;

2. 本文指出,對(duì)下一個(gè) token 預(yù)測的爭論不能混淆自回歸推斷與 teacher-forcing,兩者導(dǎo)致的失敗的原因大相徑庭;

3. 本文從概念上論證了在前瞻任務(wù)中,訓(xùn)練過程中的下一個(gè) token 預(yù)測(即 teacher-forcing)可能會(huì)產(chǎn)生有問題的學(xué)習(xí)機(jī)制,甚至產(chǎn)生分布上的問題;

4. 本文設(shè)計(jì)了一個(gè)最小前瞻任務(wù)。通過實(shí)證證明,盡管該任務(wù)很容易學(xué)習(xí),但對(duì)于 Transformer 和 Mamba 架構(gòu)來說,teacher-forcing 是失敗的;

5. 本文發(fā)現(xiàn),Monea et al. 為實(shí)現(xiàn)正交推理時(shí)間效率目標(biāo)而提出的同時(shí)預(yù)測多個(gè)未來 token 的無教師訓(xùn)練形式,有望在某些情況下規(guī)避這些訓(xùn)練階段上的失敗。這進(jìn)一步證明了下一個(gè) token 預(yù)測的局限性。

方法介紹

自回歸推理導(dǎo)致的問題

本文的目標(biāo)是更系統(tǒng)地分析并細(xì)致區(qū)分下一個(gè) token 預(yù)測的兩個(gè)階段:teacher forcing 和自回歸。本文作者認(rèn)為,現(xiàn)有的論證沒有完全分析出 token 預(yù)測模型無法規(guī)劃任務(wù)的全部原因。

  • 正方:概率鏈規(guī)則永遠(yuǎn)滴神

支持者對(duì)下一個(gè) token 預(yù)測最熱的呼聲是:概率鏈規(guī)則總能推出一個(gè)能夠符合概率分布的 token 預(yù)測。

  • 反方:誤差會(huì)像雪球一樣越滾越大

反對(duì)者認(rèn)為,在自回歸的每一步中都有可能出現(xiàn)微小的錯(cuò)誤,而且一旦出錯(cuò)就沒有明確的回溯機(jī)制來挽救模型。這樣一來,每個(gè) token 中的錯(cuò)誤概率,無論多么微小,都會(huì)以指數(shù)級(jí)的速度越滾越大。

反方抓住的是自回歸在結(jié)構(gòu)上的缺點(diǎn)。而正方對(duì)概率鏈規(guī)則的強(qiáng)調(diào)也只是抓住了自回歸架構(gòu)的表現(xiàn)力。這兩個(gè)論點(diǎn)都沒有解決一個(gè)問題,即利用下一個(gè) token 預(yù)測進(jìn)行的學(xué)習(xí)本身可能在學(xué)習(xí)如何規(guī)劃方面存在缺陷。從這個(gè)意義上說,本文作者認(rèn)為現(xiàn)有的論證只捕捉到了問題的表象,即下一個(gè) token 預(yù)測在規(guī)劃方面表現(xiàn)不佳。

teacher forcing 導(dǎo)致的問題

token 預(yù)測模型是否會(huì)在測試期間無法高精度地預(yù)測下一個(gè) token?從數(shù)學(xué)上講,這意味著用 teacher forcing 目標(biāo)訓(xùn)練的模型在其訓(xùn)練的分布上誤差較大(從而打破了滾雪球模式的假設(shè))。因此,任何后處理模型都無法找到一個(gè)能用的計(jì)劃。從概念上來說,這種失敗可能發(fā)生在「前瞻性任務(wù)」中,因?yàn)檫@些任務(wù)隱含地要求在更早的 token 之前提前計(jì)算未來的 token。

為了更好地表述本文的論點(diǎn)所在,作者設(shè)計(jì)了一個(gè)圖的簡單尋路問題,深刻地抓住了解決前瞻性問題的核心本質(zhì)。這項(xiàng)任務(wù)本身很容易解決,所以任何失誤都會(huì)非常直觀地體現(xiàn)出來。作者將這個(gè)例子視為其論點(diǎn)的模板,該論點(diǎn)覆蓋了 teacher forcing 下的前瞻性問題中的更一般、更困難的問題。

這個(gè)論點(diǎn)就是,本文作者認(rèn)為 teacher-forcing 可能會(huì)導(dǎo)致以下問題,尤其是在前瞻性問題中。

  • 問題 1:由于 teacher forcing 產(chǎn)生的「聰明的漢斯」作弊行為

盡管存在著一種機(jī)制可以從原始前綴 p 中恢復(fù)每個(gè) token r_i,但也可以有多種其他機(jī)制可以從 teacher forcing 的前綴(p,r<i)中恢復(fù) token r_i。這些機(jī)制可以更容易地被學(xué)習(xí)到,相應(yīng)地就會(huì)抑制模型學(xué)習(xí)真正的機(jī)制。

  • 問題 2:由于失去監(jiān)督而無法加密的 token

在訓(xùn)練中解決了「聰明的漢斯」作弊行為后,模型被剝奪了一部分監(jiān)督(尤其是對(duì)于較大的 i,r_i),這使得模型更難,甚至可能難以單獨(dú)從剩余的 token 中學(xué)習(xí)真正的機(jī)制。

實(shí)驗(yàn)

本文通過圖路徑搜索任務(wù)的實(shí)踐,演示了一種假設(shè)的故障模式。本文在 Transformer 和 Mamba 中進(jìn)行了實(shí)驗(yàn),以證明這些問題對(duì)于 teacher-forced 模型來說是普遍的。具體來說,先確定 teacher-forced 模型能符合訓(xùn)練數(shù)據(jù),但在滿足數(shù)據(jù)分布這個(gè)問題上存在不足。接下來,設(shè)計(jì)指標(biāo)來量化上述兩種假設(shè)機(jī)制發(fā)生的程度。最后,設(shè)計(jì)了替代目標(biāo)來干預(yù)和消除兩種故障模式中的每一種,以測試性能是否有所改善。

模型配置

本文對(duì)兩種模型家族進(jìn)行了評(píng)估,以強(qiáng)調(diào)問題的出現(xiàn)與某種特定體系結(jié)構(gòu)無關(guān),而是源于下一個(gè) token 預(yù)測這個(gè)設(shè)計(jì)目標(biāo)。對(duì)于 Transformer,使用從頭開始的 GPT-Mini 和預(yù)訓(xùn)練的 GPT-2 大模型。對(duì)于遞歸模型,使用從頭開始的 Mamba 模型。本文使用 AdamW 進(jìn)行優(yōu)化,直到達(dá)到完美的訓(xùn)練精度。為了排除頓悟現(xiàn)象(grokking),本文對(duì)成本相對(duì)較低的模型進(jìn)行了長達(dá) 500 個(gè) epoch 的訓(xùn)練。

本文在圖 3 和表 2 中描述了不同拓?fù)渎窂降男切螆D的圖片。可以觀察到,所有模型(即使經(jīng)過預(yù)訓(xùn)練)都很難準(zhǔn)確地學(xué)習(xí)任務(wù)。如果模型一致地猜測認(rèn)為 v_start≈1 /d,并由此在分布上產(chǎn)生問題,則精度值能被嚴(yán)格限制。即使在訓(xùn)練以擬合高達(dá) 200k 的量級(jí)到 100% 準(zhǔn)確度的樣本量時(shí)也是如此,盡管訓(xùn)練用的圖結(jié)構(gòu)和測試用的圖結(jié)構(gòu)具有相同的拓?fù)浣Y(jié)構(gòu)。接下來,本文定量地證明了這種明顯的問題是如何由上述兩個(gè)假設(shè)機(jī)制產(chǎn)生的。

圖片

通過表 1 可以發(fā)現(xiàn),為了擬合訓(xùn)練數(shù)據(jù),teacher-forced 模型利用了「聰明的漢斯」作弊方法。

圖片

圖 3 和表 3 顯示了無教師模型的準(zhǔn)確率。不幸的是,在大多數(shù)情況下,無教師的訓(xùn)練目標(biāo)對(duì)模型來說太難了,甚至無法擬合訓(xùn)練數(shù)據(jù),這可能是因?yàn)槿狈唵斡行У钠垓_手段。然而,令人驚訝的是,在一些更容易的圖結(jié)構(gòu)上,模型不僅適合于訓(xùn)練數(shù)據(jù),而且可以很好地泛化到測試數(shù)據(jù)。這個(gè)優(yōu)秀的結(jié)果(即使在有限的環(huán)境中)驗(yàn)證了兩個(gè)假設(shè)。首先,「聰明的漢斯」作弊方法確實(shí)是造成原有 teacher-forcing 模式失敗的原因之一。其次,值得注意的是,隨著作弊行為的消失,這些模型能夠擬合第一個(gè)節(jié)點(diǎn),而這個(gè)節(jié)點(diǎn)曾經(jīng)在 teacher-forcing 模式下是不可破譯的。綜上所述,本文所提出的假設(shè)可以說是得到了驗(yàn)證了,即「聰明的漢斯」作弊方法抹去了對(duì)學(xué)習(xí)第一個(gè) token 的至關(guān)重要的監(jiān)督。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2015-09-21 09:33:08

2013-09-18 10:07:24

2017-10-27 13:53:34

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2019-03-19 19:19:19

Facebook微信轉(zhuǎn)型

2014-06-17 10:57:09

2025-02-18 13:00:00

2010-09-03 14:54:42

VMwareSaaS

2021-06-22 11:53:44

5G物聯(lián)網(wǎng)5G移動(dòng)服務(wù)

2017-03-20 11:12:08

語音接口交互時(shí)代語音識(shí)別

2019-01-08 14:47:32

2011-04-02 09:44:52

Android 3.0Android 2.3

2025-03-31 09:32:00

視覺生產(chǎn)AI模型

2015-08-03 14:06:44

2022-02-13 15:49:15

WebAssemblKubernetes容器

2009-03-28 09:22:12

MID移動(dòng)OS

2011-03-17 15:01:11

Oracle

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺(tái)IT

2023-07-26 10:03:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)