偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformer本可以深謀遠(yuǎn)慮,但就是不做

發(fā)布于 2024-4-22 09:35
瀏覽
0收藏

「別讓 Yann LeCun 看見(jiàn)了?!?/p>


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)


Yann LeCun 表示太遲了,他已經(jīng)看到了。今天要介紹的這篇 「LeCun 非要看」的論文探討的問(wèn)題是:Transformer 是深謀遠(yuǎn)慮的語(yǔ)言模型嗎?當(dāng)它在某個(gè)位置執(zhí)行推理時(shí),它會(huì)預(yù)先考慮后面的位置嗎?


這項(xiàng)研究得出的結(jié)論是:Transformer 有能力這樣做,但在實(shí)踐中不會(huì)這樣做。  


我們都知道,人類會(huì)思而后言。數(shù)十年的語(yǔ)言學(xué)研究表明:人類在使用語(yǔ)言時(shí),內(nèi)心會(huì)預(yù)測(cè)即將出現(xiàn)的語(yǔ)言輸入、詞或句子。


不同于人類,現(xiàn)在的語(yǔ)言模型在「說(shuō)話」時(shí)會(huì)為每個(gè) token 分配固定的計(jì)算量。那么我們不禁要問(wèn):語(yǔ)言模型會(huì)和人類一樣預(yù)先性地思考嗎?


近期的一些研究已經(jīng)表明:可以通過(guò)探查語(yǔ)言模型的隱藏狀態(tài)來(lái)預(yù)測(cè)下一 token 之后的更多 token。有趣的是,通過(guò)在模型隱藏狀態(tài)上使用線性探針,可以在一定程度上預(yù)測(cè)模型在未來(lái) token 上的輸出,而干擾隱藏狀態(tài)則可以對(duì)未來(lái)輸出進(jìn)行可預(yù)測(cè)的修改。


這些發(fā)現(xiàn)表明在給定時(shí)間步驟的模型激活至少在一定程度上可以預(yù)測(cè)未來(lái)輸出。


但是,我們還不清楚其原因:這只是數(shù)據(jù)的偶然屬性,還是因?yàn)槟P蜁?huì)刻意為未來(lái)時(shí)間步驟準(zhǔn)備信息(但這會(huì)影響模型在當(dāng)前位置的性能)?


為了解答這一問(wèn)題,近日科羅拉多大學(xué)博爾德分校和康奈爾大學(xué)的三位研究者發(fā)布了一篇題為《語(yǔ)言模型是否會(huì)規(guī)劃未來(lái) token?》的論文。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)


論文標(biāo)題:Do Language Models Plan for Future Tokens?

論文地址:https://arxiv.org/pdf/2404.00859.pdf  


研究概覽


他們觀察到,在訓(xùn)練期間的梯度既會(huì)為當(dāng)前 token 位置的損失優(yōu)化權(quán)重,也會(huì)為該序列后面的 token 進(jìn)行優(yōu)化。他們又進(jìn)一步問(wèn):當(dāng)前的 transformer 權(quán)重會(huì)以怎樣的比例為當(dāng)前 token 和未來(lái) token 分配資源?


他們考慮了兩種可能性:預(yù)緩存假設(shè)(pre-caching hypothesis)和面包屑假設(shè)(breadcrumbs hypothesis)。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)


預(yù)緩存假設(shè)是指 transformer 會(huì)在時(shí)間步驟 t 計(jì)算與當(dāng)前時(shí)間步驟的推理任務(wù)無(wú)關(guān)但可能對(duì)未來(lái)時(shí)間步驟 t + τ 有用的特征,而面包屑假設(shè)是指與時(shí)間步驟 t 最相關(guān)的特征已經(jīng)等同于將在時(shí)間步驟 t + τ 最有用的特征。


為了評(píng)估哪種假設(shè)是正確的,該團(tuán)隊(duì)提出了一種短視型訓(xùn)練方案(myopic training scheme),該方案不會(huì)將當(dāng)前位置的損失的梯度傳播給之前位置的隱藏狀態(tài)。


對(duì)上述假設(shè)和方案的數(shù)學(xué)定義和理論描述請(qǐng)參閱原論文。


實(shí)驗(yàn)結(jié)果


為了了解語(yǔ)言模型是否可能直接實(shí)現(xiàn)預(yù)緩存,他們?cè)O(shè)計(jì)了一種合成場(chǎng)景,其中只能通過(guò)顯式的預(yù)緩存完成任務(wù)。他們配置了一種任務(wù),其中模型必須為下一 token 預(yù)先計(jì)算信息,否則就無(wú)法在一次單向通過(guò)中準(zhǔn)確計(jì)算出正確答案。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)

該團(tuán)隊(duì)構(gòu)建的合成數(shù)據(jù)集定義。


在這個(gè)合成場(chǎng)景中,該團(tuán)隊(duì)發(fā)現(xiàn)了明顯的證據(jù)可以說(shuō)明 transformer 可以學(xué)習(xí)預(yù)緩存。當(dāng)基于 transformer 的序列模型必須預(yù)計(jì)算信息來(lái)最小化損失時(shí),它們就會(huì)這樣做。


之后,他們又探究了自然語(yǔ)言模型(預(yù)訓(xùn)練的 GPT-2 變體)是會(huì)展現(xiàn)出面包屑假設(shè)還是會(huì)展現(xiàn)出預(yù)緩存假設(shè)。他們的短視型訓(xùn)練方案實(shí)驗(yàn)表明在這種設(shè)置中,預(yù)緩存出現(xiàn)的情況少得多,因此結(jié)果更偏向于面包屑假設(shè)。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)

基于 token 位置的原始 GPT-2 模型與短視型 GPT-2 模型的交叉熵?fù)p失及其差異。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)

GPT-2 通過(guò)原始和短視型訓(xùn)練獲得的驗(yàn)證交叉熵?fù)p失。


于是該團(tuán)隊(duì)聲稱:在真實(shí)語(yǔ)言數(shù)據(jù)上,語(yǔ)言模型并不會(huì)在顯著程度上準(zhǔn)備用于未來(lái)的信息。相反,它們是計(jì)算對(duì)預(yù)測(cè)下一個(gè) token 有用的特征 —— 事實(shí)證明這對(duì)未來(lái)的步驟也很有用。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)


該團(tuán)隊(duì)表示:「在語(yǔ)言數(shù)據(jù)中,我們觀察到貪婪地針對(duì)下一 token 損失進(jìn)行優(yōu)化與確保未來(lái)預(yù)測(cè)性能之間并不存在顯著的權(quán)衡。」


因此我們大概可以看出來(lái),Transformer 能否深謀遠(yuǎn)慮的問(wèn)題似乎本質(zhì)上是一個(gè)數(shù)據(jù)問(wèn)題。


Transformer本可以深謀遠(yuǎn)慮,但就是不做-AI.x社區(qū)


可以想象,也許未來(lái)我們能通過(guò)合適的數(shù)據(jù)整理方法讓語(yǔ)言模型具備人類一樣預(yù)先思考的能力。


本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/1kolCWSsFAp4e9MGG089vQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦