偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數(shù)減半 原創(chuàng)

發(fā)布于 2025-7-17 17:45
瀏覽
0收藏

?

在人工智能領域,大型語言模型(LLMs)的“大而笨”問題一直備受詬病。盡管模型參數(shù)規(guī)模不斷膨脹,但處理長文本時的性能衰減、計算資源浪費等問題始終難以解決。不過,谷歌DeepMind最新推出的MoR架構,或許為這一難題提供了破局之道。

?

剛剛,谷歌 DeepMind 推出了名為 Mixture-of-Recursions(MoR)的全新大型語言模型(LLM)架構,被認為是有潛力成為“Transformer殺手”的革命性架構。

?

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數(shù)減半-AI.x社區(qū)
?

傳統(tǒng)模型的困境

?

一直以來,Transformer 架構都是大語言模型的 “頂梁柱”,但隨著研究的深入,其局限性也逐漸顯露。

?

例如,當我們向AI模型輸入一篇長文時,經(jīng)常會出現(xiàn)一個問題:它前半部分還能準確回答問題,后半部分卻開始“胡言亂語”。而這并非偶然,近期研究揭示,現(xiàn)有大模型在處理長文本時存在顯著的性能衰減,不同模型“失智”的節(jié)點各不相同——有的模型在讀到第10頁書時就出現(xiàn)性能驟降,有的則能堅持到第100頁。

?

這種性能衰減的根源在于傳統(tǒng)Transformer架構的固有缺陷。Transformer通過堆疊層數(shù)來提升模型能力,但這種方式導致計算資源被均勻分配,無論token的復雜程度如何。簡單token(如連詞、助詞)和復雜token(如專業(yè)術語、長句)被一視同仁地處理,造成大量冗余計算。同時,長文本下的KV緩存(鍵值緩存)機制占用巨額內存,進一步限制了模型效率。
?

為了解決這些難題,研究者們在兩個方向上積極探索:一是通過權重共享提升參數(shù)效率,二是根據(jù)輸入復雜度動態(tài)分配計算資源,實現(xiàn)自適應計算。

?

MoR 架構的出現(xiàn),正是將這兩種思路巧妙融合,為大語言模型的發(fā)展開辟了新路徑。
?

MoR架構:動態(tài)分配資源的“智能調度員”

?

MoR 框架引入了一種統(tǒng)一方法,同時實現(xiàn)參數(shù)共享和自適應計算。它將動態(tài) token 級路由集成到參數(shù)高效的遞歸 Transformer 中,創(chuàng)造出一種協(xié)同架構,有望實現(xiàn) “無需承擔大模型成本的大模型質量”。

?

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數(shù)減半-AI.x社區(qū)
?
簡單來說,MoR 就像是一個聰明的管家,能夠精準地判斷每個任務(token)需要多少資源(計算資源),然后合理分配,既不浪費,又能把事情辦好。

?
在技術實現(xiàn)上,MoR 通過端到端訓練輕量級的路由,為每個 token 分配專屬的遞歸深度。它會根據(jù)每個 token 所需的思考深度,決定共享參數(shù)模塊對其重復應用的次數(shù),從而將計算資源精準地投放到最需要的地方。

?

這種基于 token 的動態(tài)遞歸機制,還天然支持遞歸級的鍵值(KV)緩存,能夠根據(jù)每個 token 所分配的遞歸深度,有選擇地存儲和檢索對應的鍵值對,大大降低了內存帶寬壓力,無需后處理操作就能提升推理吞吐量。
?

總的來說,MoR 在一個統(tǒng)一架構中同時實現(xiàn)了三項重要優(yōu)化。分是參數(shù)共享、計算路由和遞歸級緩存。
?

為了驗證 MoR 架構的優(yōu)勢,研究團隊進行了一系列實驗。在等效的訓練預算(16.5×101?FLOPs)下,將 MoR 模型與原始 Transformer 及遞歸 Transformer 進行比較。

?

結果顯示,采用專家選擇路由和兩層遞歸(N_r = 2)的 MoR 模型,實現(xiàn)了更低的驗證損失,并在少樣本學習的平均準確率上超越基線(43.1% 對比 42.3%)。盡管 MoR 的參數(shù)量減少了近 50%,性能卻更優(yōu),這充分證明了其計算效率之高。

?
Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數(shù)減半-AI.x社區(qū)
?

當然,MoR 架構也在不斷探索和優(yōu)化中。研究人員評估了不同路由與緩存策略對其性能的影響。例如,采用 “token 選擇路由” 時準確率較低(40.0%),而 “專家選擇路由” 表現(xiàn)更好(42.6%),表明路由粒度對模型性能具有關鍵影響。
?

此外,采用 KV 緩存共享雖略微降低了性能,但顯著提升了內存效率,在對內存占用有要求的部署場景中,這種性能與資源之間的權衡是可以接受的。
?

總體而言,MoR 在所有模型規(guī)模和計算預算下都穩(wěn)定優(yōu)于遞歸基線模型。在參數(shù)量超過 360M 時,MoR 不僅能夠追平,而且在低至中等預算下常常超越原始 Transformer。
?

MoR 架構的出現(xiàn),無疑為大語言模型的發(fā)展注入了新的活力。它有望在未來大幅提升模型效率,降低訓練和部署成本,讓大語言模型在更多領域得以應用和普及。

?

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-17 17:46:36修改
收藏
回復
舉報
回復
相關推薦