偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformer霸權(quán)終結(jié)?谷歌DeepMind推出顛覆性架構(gòu):推理2倍速、參數(shù)減半 原創(chuàng)

發(fā)布于 2025-7-17 17:45
瀏覽
0收藏

?

在人工智能領(lǐng)域,大型語(yǔ)言模型(LLMs)的“大而笨”問(wèn)題一直備受詬病。盡管模型參數(shù)規(guī)模不斷膨脹,但處理長(zhǎng)文本時(shí)的性能衰減、計(jì)算資源浪費(fèi)等問(wèn)題始終難以解決。不過(guò),谷歌DeepMind最新推出的MoR架構(gòu),或許為這一難題提供了破局之道。

?

剛剛,谷歌 DeepMind 推出了名為 Mixture-of-Recursions(MoR)的全新大型語(yǔ)言模型(LLM)架構(gòu),被認(rèn)為是有潛力成為“Transformer殺手”的革命性架構(gòu)。

?

Transformer霸權(quán)終結(jié)?谷歌DeepMind推出顛覆性架構(gòu):推理2倍速、參數(shù)減半-AI.x社區(qū)
?

傳統(tǒng)模型的困境

?

一直以來(lái),Transformer 架構(gòu)都是大語(yǔ)言模型的 “頂梁柱”,但隨著研究的深入,其局限性也逐漸顯露。

?

例如,當(dāng)我們向AI模型輸入一篇長(zhǎng)文時(shí),經(jīng)常會(huì)出現(xiàn)一個(gè)問(wèn)題:它前半部分還能準(zhǔn)確回答問(wèn)題,后半部分卻開(kāi)始“胡言亂語(yǔ)”。而這并非偶然,近期研究揭示,現(xiàn)有大模型在處理長(zhǎng)文本時(shí)存在顯著的性能衰減,不同模型“失智”的節(jié)點(diǎn)各不相同——有的模型在讀到第10頁(yè)書(shū)時(shí)就出現(xiàn)性能驟降,有的則能堅(jiān)持到第100頁(yè)。

?

這種性能衰減的根源在于傳統(tǒng)Transformer架構(gòu)的固有缺陷。Transformer通過(guò)堆疊層數(shù)來(lái)提升模型能力,但這種方式導(dǎo)致計(jì)算資源被均勻分配,無(wú)論token的復(fù)雜程度如何。簡(jiǎn)單token(如連詞、助詞)和復(fù)雜token(如專業(yè)術(shù)語(yǔ)、長(zhǎng)句)被一視同仁地處理,造成大量冗余計(jì)算。同時(shí),長(zhǎng)文本下的KV緩存(鍵值緩存)機(jī)制占用巨額內(nèi)存,進(jìn)一步限制了模型效率。
?

為了解決這些難題,研究者們?cè)趦蓚€(gè)方向上積極探索:一是通過(guò)權(quán)重共享提升參數(shù)效率,二是根據(jù)輸入復(fù)雜度動(dòng)態(tài)分配計(jì)算資源,實(shí)現(xiàn)自適應(yīng)計(jì)算。

?

MoR 架構(gòu)的出現(xiàn),正是將這兩種思路巧妙融合,為大語(yǔ)言模型的發(fā)展開(kāi)辟了新路徑。
?

MoR架構(gòu):動(dòng)態(tài)分配資源的“智能調(diào)度員”

?

MoR 框架引入了一種統(tǒng)一方法,同時(shí)實(shí)現(xiàn)參數(shù)共享和自適應(yīng)計(jì)算。它將動(dòng)態(tài) token 級(jí)路由集成到參數(shù)高效的遞歸 Transformer 中,創(chuàng)造出一種協(xié)同架構(gòu),有望實(shí)現(xiàn) “無(wú)需承擔(dān)大模型成本的大模型質(zhì)量”。

?

Transformer霸權(quán)終結(jié)?谷歌DeepMind推出顛覆性架構(gòu):推理2倍速、參數(shù)減半-AI.x社區(qū)
?
簡(jiǎn)單來(lái)說(shuō),MoR 就像是一個(gè)聰明的管家,能夠精準(zhǔn)地判斷每個(gè)任務(wù)(token)需要多少資源(計(jì)算資源),然后合理分配,既不浪費(fèi),又能把事情辦好。

?
在技術(shù)實(shí)現(xiàn)上,MoR 通過(guò)端到端訓(xùn)練輕量級(jí)的路由,為每個(gè) token 分配專屬的遞歸深度。它會(huì)根據(jù)每個(gè) token 所需的思考深度,決定共享參數(shù)模塊對(duì)其重復(fù)應(yīng)用的次數(shù),從而將計(jì)算資源精準(zhǔn)地投放到最需要的地方。

?

這種基于 token 的動(dòng)態(tài)遞歸機(jī)制,還天然支持遞歸級(jí)的鍵值(KV)緩存,能夠根據(jù)每個(gè) token 所分配的遞歸深度,有選擇地存儲(chǔ)和檢索對(duì)應(yīng)的鍵值對(duì),大大降低了內(nèi)存帶寬壓力,無(wú)需后處理操作就能提升推理吞吐量。
?

總的來(lái)說(shuō),MoR 在一個(gè)統(tǒng)一架構(gòu)中同時(shí)實(shí)現(xiàn)了三項(xiàng)重要優(yōu)化。分是參數(shù)共享、計(jì)算路由和遞歸級(jí)緩存。
?

為了驗(yàn)證 MoR 架構(gòu)的優(yōu)勢(shì),研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn)。在等效的訓(xùn)練預(yù)算(16.5×101?FLOPs)下,將 MoR 模型與原始 Transformer 及遞歸 Transformer 進(jìn)行比較。

?

結(jié)果顯示,采用專家選擇路由和兩層遞歸(N_r = 2)的 MoR 模型,實(shí)現(xiàn)了更低的驗(yàn)證損失,并在少樣本學(xué)習(xí)的平均準(zhǔn)確率上超越基線(43.1% 對(duì)比 42.3%)。盡管 MoR 的參數(shù)量減少了近 50%,性能卻更優(yōu),這充分證明了其計(jì)算效率之高。

?
Transformer霸權(quán)終結(jié)?谷歌DeepMind推出顛覆性架構(gòu):推理2倍速、參數(shù)減半-AI.x社區(qū)
?

當(dāng)然,MoR 架構(gòu)也在不斷探索和優(yōu)化中。研究人員評(píng)估了不同路由與緩存策略對(duì)其性能的影響。例如,采用 “token 選擇路由” 時(shí)準(zhǔn)確率較低(40.0%),而 “專家選擇路由” 表現(xiàn)更好(42.6%),表明路由粒度對(duì)模型性能具有關(guān)鍵影響。
?

此外,采用 KV 緩存共享雖略微降低了性能,但顯著提升了內(nèi)存效率,在對(duì)內(nèi)存占用有要求的部署場(chǎng)景中,這種性能與資源之間的權(quán)衡是可以接受的。
?

總體而言,MoR 在所有模型規(guī)模和計(jì)算預(yù)算下都穩(wěn)定優(yōu)于遞歸基線模型。在參數(shù)量超過(guò) 360M 時(shí),MoR 不僅能夠追平,而且在低至中等預(yù)算下常常超越原始 Transformer。
?

MoR 架構(gòu)的出現(xiàn),無(wú)疑為大語(yǔ)言模型的發(fā)展注入了新的活力。它有望在未來(lái)大幅提升模型效率,降低訓(xùn)練和部署成本,讓大語(yǔ)言模型在更多領(lǐng)域得以應(yīng)用和普及。

?

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-7-17 17:46:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦