偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="jb6tw"><span id="jb6tw"></span></blockquote><tfoot id="jb6tw"><tbody id="jb6tw"></tbody></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

思維鏈可無限延伸了，MIT等打破大模型上下文天花板

2025-08-20 09:20:36

TIM配上專用推理引擎TIMRUN，把推理過程變成類似樹狀的遞歸子任務(wù)結(jié)構(gòu)，并動態(tài)修剪掉不再需要的子任務(wù)，就能讓模型在輸出窗口有限的情況下實(shí)現(xiàn)幾乎無限制的長程推理。

大模型的記憶墻，被MIT撬開了一道口子。

MIT等機(jī)構(gòu)最新提出了一種新架構(gòu)，讓推理大模型的思考長度突破物理限制，理論上可以無限延伸。

這個新架構(gòu)名叫Thread Inference Model，簡稱TIM。

TIM配上專用推理引擎TIMRUN，把推理過程變成類似樹狀的遞歸子任務(wù)結(jié)構(gòu)，并動態(tài)修剪掉不再需要的子任務(wù)，就能讓模型在輸出窗口有限的情況下實(shí)現(xiàn)幾乎無限制的長程推理。

當(dāng)前所有頂尖大模型都面臨一個尷尬的困境：上下文窗口限制。

但現(xiàn)實(shí)應(yīng)用經(jīng)常需要更長的推理鏈條，特別是當(dāng)模型需要調(diào)用外部工具、處理復(fù)雜多步驟任務(wù)時，這個限制就成了致命短板。

傳統(tǒng)解決方案要么是把任務(wù)切分給多個模型處理，要么是壓縮歷史信息，但這兩種方法都會損失信息完整性。

TIM團(tuán)隊提出了一個巧妙的洞察：

推理過程并不是線性的，而是像編程時一樣具有遞歸結(jié)構(gòu)。

例如當(dāng)我們寫代碼時，通常只關(guān)注光標(biāo)附近的代碼、已完成函數(shù)的輸入輸出，以及待辦事項，而不會記住每個函數(shù)的所有實(shí)現(xiàn)細(xì)節(jié)。

這種“潛意識”的信息過濾機(jī)制，正是TIM系統(tǒng)的核心靈感來源。

把推理過程“解剖”成任務(wù)樹

TIM最大的創(chuàng)新在于將推理軌跡建模為遞歸的子任務(wù)樹，而不是傳統(tǒng)的線性token序列。

每個任務(wù)單元包含四個關(guān)鍵組件：

思考過程（thought）
工具使用（tooluse）
子任務(wù)列表（subtasks）
結(jié)論（conclusion）

當(dāng)模型處理復(fù)雜問題時，會自動將其分解為更簡單的子任務(wù)，直到達(dá)到可以一步完成的葉節(jié)點(diǎn)任務(wù)。

再配合子任務(wù)剪枝機(jī)制，當(dāng)一個子任務(wù)完成后，模型只保留其結(jié)論，而將具體的執(zhí)行細(xì)節(jié)從工作內(nèi)存中移除。

研究團(tuán)隊使用了一個固定大小的子任務(wù)棧來管理這個過程，當(dāng)棧滿時會彈出最早的子任務(wù)并將其從內(nèi)存中剪除。

實(shí)驗表明，這種機(jī)制可以減少超過50%的KV緩存使用，在AIME 2024數(shù)學(xué)競賽任務(wù)上甚至達(dá)到了64.1%的剪枝率。

更重要的是，TIM采用了結(jié)構(gòu)化生成方式，整個推理過程被編碼為一個JSON字典，通過約束解碼確保輸出格式的正確性。

這使得模型可以在一次推理中完成多次工具調(diào)用，避免了傳統(tǒng)方法中反復(fù)提交消息列表的開銷。

為結(jié)構(gòu)化推理量身定制推理引擎

專門設(shè)計的推理引擎解決了TIM部署中的關(guān)鍵挑戰(zhàn)——如何在有限的GPU內(nèi)存和位置編碼范圍內(nèi)實(shí)現(xiàn)”無限”推理。

TIMRUN的核心技術(shù)突破在于動態(tài)內(nèi)存管理和位置編碼重用。

當(dāng)子任務(wù)被剪枝后，系統(tǒng)不僅回收了GPU內(nèi)存頁，還重新分配了位置編碼。

具體來說，被剪枝的token占用的位置會被后續(xù)的token重新使用，這樣模型就能在固定的輸出窗口限制下持續(xù)生成新內(nèi)容。

在工具調(diào)用方面，TIMRUN直接在運(yùn)行時內(nèi)部發(fā)起調(diào)用，而不是將參數(shù)發(fā)送回客戶端。

當(dāng)模型輸出”tool_result:”時，TIMRUN會自動提取參數(shù)、調(diào)用外部工具，并將響應(yīng)直接添加到推理序列中。

這種設(shè)計將傳統(tǒng)多智能體系統(tǒng)中O(n2)的token成本復(fù)雜度降低到了O(n)，其中n是推理步驟數(shù)。

實(shí)驗數(shù)據(jù)顯示，即使進(jìn)行30多次工具調(diào)用，TIMRUN仍能保持穩(wěn)定的吞吐量。

實(shí)驗結(jié)果

研究團(tuán)隊在多個基準(zhǔn)測試上驗證了系統(tǒng)性能。

在MATH500數(shù)學(xué)推理任務(wù)上，TIM-8b模型達(dá)到了69%的準(zhǔn)確率，而在更具挑戰(zhàn)性的AIME 2024上也取得了46.7%的成績。

值得注意的是，使用子任務(wù)剪枝不僅沒有降低性能，在某些任務(wù)上反而有所提升——這證明了保持精簡的工作內(nèi)存有助于模型聚焦于相關(guān)信息。

在需要多跳推理和工具使用的研究型任務(wù)上，Datacommons QA基準(zhǔn)測試TIM達(dá)到了67.9%的準(zhǔn)確率，與使用4000多token任務(wù)特定提示的Thread方法持平，但TIM只需要簡潔的系統(tǒng)消息和工具描述。

在更具挑戰(zhàn)性的BrowseComp深度研究任務(wù)上，TIM-large的成功率達(dá)到7.8%，顯著超過了GPT-4o的1.9%。

效率方面，TIMRUN在批量大小為30的情況下，吞吐量比基線系統(tǒng)SGLang提高了約20%。

更重要的是，隨著工具調(diào)用次數(shù)的增加，SGLang的吞吐量急劇下降，而TIMRUN始終保持穩(wěn)定，這要?dú)w功于其自動的上下文管理機(jī)制。

TIM和TIMRUN的組合解決了技術(shù)難題，推理這件事，終于不再被窗口框死

論文地址：https://arxiv.org/abs/2507.16784

責(zé)任編輯：武曉燕來源：量子位

MIT 大模型結(jié)構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="dxgny"></blockquote>