偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<source id="8gf3l"><b id="8gf3l"></b></source>

<cite id="8gf3l"><rp id="8gf3l"><pre id="8gf3l"></pre></rp></cite>

^{<blockquote id="8gf3l"></blockquote>}

<sub id="8gf3l"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半原創(chuàng)

算家計(jì)算

發(fā)布于 2025-7-17 17:45

瀏覽

0收藏

?

在人工智能領(lǐng)域，大型語(yǔ)言模型（LLMs）的“大而笨”問(wèn)題一直備受詬病。盡管模型參數(shù)規(guī)模不斷膨脹，但處理長(zhǎng)文本時(shí)的性能衰減、計(jì)算資源浪費(fèi)等問(wèn)題始終難以解決。不過(guò)，谷歌DeepMind最新推出的MoR架構(gòu)，或許為這一難題提供了破局之道。

?

剛剛，谷歌 DeepMind 推出了名為 Mixture-of-Recursions（MoR）的全新大型語(yǔ)言模型（LLM）架構(gòu)，被認(rèn)為是有潛力成為“Transformer殺手”的革命性架構(gòu)。

?

Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半-AI.x社區(qū)
?

傳統(tǒng)模型的困境

?

一直以來(lái)，Transformer 架構(gòu)都是大語(yǔ)言模型的 “頂梁柱”，但隨著研究的深入，其局限性也逐漸顯露。

?

例如，當(dāng)我們向AI模型輸入一篇長(zhǎng)文時(shí)，經(jīng)常會(huì)出現(xiàn)一個(gè)問(wèn)題：它前半部分還能準(zhǔn)確回答問(wèn)題，后半部分卻開(kāi)始“胡言亂語(yǔ)”。而這并非偶然，近期研究揭示，現(xiàn)有大模型在處理長(zhǎng)文本時(shí)存在顯著的性能衰減，不同模型“失智”的節(jié)點(diǎn)各不相同——有的模型在讀到第10頁(yè)書(shū)時(shí)就出現(xiàn)性能驟降，有的則能堅(jiān)持到第100頁(yè)。

?

這種性能衰減的根源在于傳統(tǒng)Transformer架構(gòu)的固有缺陷。Transformer通過(guò)堆疊層數(shù)來(lái)提升模型能力，但這種方式導(dǎo)致計(jì)算資源被均勻分配，無(wú)論token的復(fù)雜程度如何。簡(jiǎn)單token（如連詞、助詞）和復(fù)雜token（如專業(yè)術(shù)語(yǔ)、長(zhǎng)句）被一視同仁地處理，造成大量冗余計(jì)算。同時(shí)，長(zhǎng)文本下的KV緩存（鍵值緩存）機(jī)制占用巨額內(nèi)存，進(jìn)一步限制了模型效率。
?

為了解決這些難題，研究者們?cè)趦蓚€(gè)方向上積極探索：一是通過(guò)權(quán)重共享提升參數(shù)效率，二是根據(jù)輸入復(fù)雜度動(dòng)態(tài)分配計(jì)算資源，實(shí)現(xiàn)自適應(yīng)計(jì)算。

?

MoR 架構(gòu)的出現(xiàn)，正是將這兩種思路巧妙融合，為大語(yǔ)言模型的發(fā)展開(kāi)辟了新路徑。
?

MoR架構(gòu)：動(dòng)態(tài)分配資源的“智能調(diào)度員”

?

MoR 框架引入了一種統(tǒng)一方法，同時(shí)實(shí)現(xiàn)參數(shù)共享和自適應(yīng)計(jì)算。它將動(dòng)態(tài) token 級(jí)路由集成到參數(shù)高效的遞歸 Transformer 中，創(chuàng)造出一種協(xié)同架構(gòu)，有望實(shí)現(xiàn) “無(wú)需承擔(dān)大模型成本的大模型質(zhì)量”。

?

Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半-AI.x社區(qū)
?
簡(jiǎn)單來(lái)說(shuō)，MoR 就像是一個(gè)聰明的管家，能夠精準(zhǔn)地判斷每個(gè)任務(wù)（token）需要多少資源（計(jì)算資源），然后合理分配，既不浪費(fèi)，又能把事情辦好。

?
在技術(shù)實(shí)現(xiàn)上，MoR 通過(guò)端到端訓(xùn)練輕量級(jí)的路由，為每個(gè) token 分配專屬的遞歸深度。它會(huì)根據(jù)每個(gè) token 所需的思考深度，決定共享參數(shù)模塊對(duì)其重復(fù)應(yīng)用的次數(shù)，從而將計(jì)算資源精準(zhǔn)地投放到最需要的地方。

?

這種基于 token 的動(dòng)態(tài)遞歸機(jī)制，還天然支持遞歸級(jí)的鍵值（KV）緩存，能夠根據(jù)每個(gè) token 所分配的遞歸深度，有選擇地存儲(chǔ)和檢索對(duì)應(yīng)的鍵值對(duì)，大大降低了內(nèi)存帶寬壓力，無(wú)需后處理操作就能提升推理吞吐量。
?

總的來(lái)說(shuō)，MoR 在一個(gè)統(tǒng)一架構(gòu)中同時(shí)實(shí)現(xiàn)了三項(xiàng)重要優(yōu)化。分是參數(shù)共享、計(jì)算路由和遞歸級(jí)緩存。
?

為了驗(yàn)證 MoR 架構(gòu)的優(yōu)勢(shì)，研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn)。在等效的訓(xùn)練預(yù)算（16.5×101?FLOPs）下，將 MoR 模型與原始 Transformer 及遞歸 Transformer 進(jìn)行比較。

?

結(jié)果顯示，采用專家選擇路由和兩層遞歸（N_r = 2）的 MoR 模型，實(shí)現(xiàn)了更低的驗(yàn)證損失，并在少樣本學(xué)習(xí)的平均準(zhǔn)確率上超越基線（43.1% 對(duì)比 42.3%）。盡管 MoR 的參數(shù)量減少了近 50%，性能卻更優(yōu)，這充分證明了其計(jì)算效率之高。

?
Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半-AI.x社區(qū)
?

當(dāng)然，MoR 架構(gòu)也在不斷探索和優(yōu)化中。研究人員評(píng)估了不同路由與緩存策略對(duì)其性能的影響。例如，采用 “token 選擇路由” 時(shí)準(zhǔn)確率較低（40.0%），而 “專家選擇路由” 表現(xiàn)更好（42.6%），表明路由粒度對(duì)模型性能具有關(guān)鍵影響。
?

此外，采用 KV 緩存共享雖略微降低了性能，但顯著提升了內(nèi)存效率，在對(duì)內(nèi)存占用有要求的部署場(chǎng)景中，這種性能與資源之間的權(quán)衡是可以接受的。
?

總體而言，MoR 在所有模型規(guī)模和計(jì)算預(yù)算下都穩(wěn)定優(yōu)于遞歸基線模型。在參數(shù)量超過(guò) 360M 時(shí)，MoR 不僅能夠追平，而且在低至中等預(yù)算下常常超越原始 Transformer。
?

MoR 架構(gòu)的出現(xiàn)，無(wú)疑為大語(yǔ)言模型的發(fā)展注入了新的活力。它有望在未來(lái)大幅提升模型效率，降低訓(xùn)練和部署成本，讓大語(yǔ)言模型在更多領(lǐng)域得以應(yīng)用和普及。

?

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語(yǔ)言模型

MoR架構(gòu)

已于2025-7-17 17:46:36修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升

Crystalcxt ? 3533瀏覽 ? 0回復(fù)
谷歌DeepMind發(fā)布Gecko：專攻檢索，與大7倍模型相抗衡

輕薄滴假象 ? 2654瀏覽 ? 0回復(fù)
直接擴(kuò)展到無(wú)限長(zhǎng)，谷歌Infini-Transformer終結(jié)上下文長(zhǎng)度之爭(zhēng)

輕薄滴假象 ? 2749瀏覽 ? 0回復(fù)
Transformer解碼真實(shí)場(chǎng)景！Meta推出70M參數(shù)SceneScript模型

duhorse ? 2760瀏覽 ? 0回復(fù)
谷歌推出TransformerFAM架構(gòu)，以更低的消耗處理長(zhǎng)序列文本

Aceryt ? 2846瀏覽 ? 0回復(fù)
多模態(tài)大模型不夠靈活，谷歌DeepMind創(chuàng)新架構(gòu)Zipper：分開(kāi)訓(xùn)練再「壓縮」

輕薄滴假象 ? 2973瀏覽 ? 0回復(fù)
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3783瀏覽 ? 0回復(fù)
谷歌推出V2A，可為視頻大模型自動(dòng)匹配語(yǔ)音

Aceryt ? 4302瀏覽 ? 0回復(fù)
谷歌推出全新模型，將Transformer與NAR相結(jié)合

Aceryt ? 2900瀏覽 ? 0回復(fù)
我們一起聊聊Google DeepMind推出Gemma 2 技術(shù)報(bào)告

AI論文解讀 ? 3885瀏覽 ? 0回復(fù)
亞馬遜、微軟、谷歌DeepMind 聯(lián)合團(tuán)隊(duì)的杰作，POLYMATH 引領(lǐng)MLLMs多模態(tài)推理新基準(zhǔn)

xuxiangda ? 2965瀏覽 ? 0回復(fù)
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡(luò)更高效的革命性架構(gòu)

Halo咯咯 ? 3583瀏覽 ? 0回復(fù)
顛覆性語(yǔ)音合成：Fish Agent v0.1 3B 引領(lǐng)多語(yǔ)言語(yǔ)音合成新高度

Halo咯咯 ? 3208瀏覽 ? 0回復(fù)
15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 3411瀏覽 ? 0回復(fù)
【PaperDaily】谷歌推出AlphaGeometry2，超過(guò)金牌選手，稱霸IMO

AIPaperDaily ? 2377瀏覽 ? 0回復(fù)
RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒

angel ? 2491瀏覽 ? 0回復(fù)
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1786瀏覽 ? 0回復(fù)
谷歌 A2A （Agent2Agent）架構(gòu)設(shè)計(jì)深度剖析

玄姐聊AGI ? 2591瀏覽 ? 0回復(fù)
85倍速的視覺(jué)革命：蘋果發(fā)布 FastVLM，讓你的 iPhone ‘看圖說(shuō)話’，快到飛起！

墨風(fēng)如雪小站 ? 1593瀏覽 ? 0回復(fù)

算家計(jì)算

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

今天，OpenAI徹底顛覆AI助手！ChatGPT智能體上線，融合三大AI 24分鐘前發(fā)布
硅谷規(guī)模最大種子輪！OpenAI 前 CTO 初創(chuàng)企業(yè)獲20億美元融資，英偉達(dá)、AMD聯(lián)投 2天前發(fā)布

熱門推薦

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對(duì)華銷售，并計(jì)劃推出全新GPU 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開(kāi)源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

全球最聰明AI誕生！Grok 4 擊潰所有模型，馬斯克20萬(wàn)GPU訓(xùn)練出最貴AI 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

RAG：7個(gè)檢索增強(qiáng)生成技術(shù)的解析（含實(shí)現(xiàn)代碼） 0回復(fù)

上一篇：硅谷規(guī)模最大種子輪！OpenAI 前 CTO 初創(chuàng)企業(yè)獲20億美元融資，英偉達(dá)、AMD聯(lián)投

下一篇：今天，OpenAI徹底顛覆AI助手！ChatGPT智能體上線，融合三大AI

社區(qū)精華內(nèi)容

目錄