偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

思維鏈可無限延伸了,MIT等打破大模型上下文天花板

人工智能
TIM配上專用推理引擎TIMRUN,把推理過程變成類似樹狀的遞歸子任務(wù)結(jié)構(gòu),并動態(tài)修剪掉不再需要的子任務(wù),就能讓模型在輸出窗口有限的情況下實(shí)現(xiàn)幾乎無限制的長程推理。

大模型的記憶墻,被MIT撬開了一道口子。

MIT等機(jī)構(gòu)最新提出了一種新架構(gòu),讓推理大模型的思考長度突破物理限制,理論上可以無限延伸。

這個新架構(gòu)名叫Thread Inference Model,簡稱TIM。

TIM配上專用推理引擎TIMRUN,把推理過程變成類似樹狀的遞歸子任務(wù)結(jié)構(gòu),并動態(tài)修剪掉不再需要的子任務(wù),就能讓模型在輸出窗口有限的情況下實(shí)現(xiàn)幾乎無限制的長程推理。

圖片

當(dāng)前所有頂尖大模型都面臨一個尷尬的困境:上下文窗口限制。

但現(xiàn)實(shí)應(yīng)用經(jīng)常需要更長的推理鏈條,特別是當(dāng)模型需要調(diào)用外部工具、處理復(fù)雜多步驟任務(wù)時,這個限制就成了致命短板。

傳統(tǒng)解決方案要么是把任務(wù)切分給多個模型處理,要么是壓縮歷史信息,但這兩種方法都會損失信息完整性。

TIM團(tuán)隊提出了一個巧妙的洞察:

推理過程并不是線性的,而是像編程時一樣具有遞歸結(jié)構(gòu)。

例如當(dāng)我們寫代碼時,通常只關(guān)注光標(biāo)附近的代碼、已完成函數(shù)的輸入輸出,以及待辦事項,而不會記住每個函數(shù)的所有實(shí)現(xiàn)細(xì)節(jié)。

這種“潛意識”的信息過濾機(jī)制,正是TIM系統(tǒng)的核心靈感來源。

把推理過程“解剖”成任務(wù)樹

TIM最大的創(chuàng)新在于將推理軌跡建模為遞歸的子任務(wù)樹,而不是傳統(tǒng)的線性token序列。

每個任務(wù)單元包含四個關(guān)鍵組件:

  • 思考過程(thought)
  • 工具使用(tooluse)
  • 子任務(wù)列表(subtasks)
  • 結(jié)論(conclusion)

當(dāng)模型處理復(fù)雜問題時,會自動將其分解為更簡單的子任務(wù),直到達(dá)到可以一步完成的葉節(jié)點(diǎn)任務(wù)。

再配合子任務(wù)剪枝機(jī)制,當(dāng)一個子任務(wù)完成后,模型只保留其結(jié)論,而將具體的執(zhí)行細(xì)節(jié)從工作內(nèi)存中移除。

研究團(tuán)隊使用了一個固定大小的子任務(wù)棧來管理這個過程,當(dāng)棧滿時會彈出最早的子任務(wù)并將其從內(nèi)存中剪除。

實(shí)驗表明,這種機(jī)制可以減少超過50%的KV緩存使用,在AIME 2024數(shù)學(xué)競賽任務(wù)上甚至達(dá)到了64.1%的剪枝率。

更重要的是,TIM采用了結(jié)構(gòu)化生成方式,整個推理過程被編碼為一個JSON字典,通過約束解碼確保輸出格式的正確性。

這使得模型可以在一次推理中完成多次工具調(diào)用,避免了傳統(tǒng)方法中反復(fù)提交消息列表的開銷。

圖片

為結(jié)構(gòu)化推理量身定制推理引擎

專門設(shè)計的推理引擎解決了TIM部署中的關(guān)鍵挑戰(zhàn)——如何在有限的GPU內(nèi)存和位置編碼范圍內(nèi)實(shí)現(xiàn)”無限”推理。

TIMRUN的核心技術(shù)突破在于動態(tài)內(nèi)存管理和位置編碼重用。

當(dāng)子任務(wù)被剪枝后,系統(tǒng)不僅回收了GPU內(nèi)存頁,還重新分配了位置編碼。

具體來說,被剪枝的token占用的位置會被后續(xù)的token重新使用,這樣模型就能在固定的輸出窗口限制下持續(xù)生成新內(nèi)容。

圖片

在工具調(diào)用方面,TIMRUN直接在運(yùn)行時內(nèi)部發(fā)起調(diào)用,而不是將參數(shù)發(fā)送回客戶端。

當(dāng)模型輸出”tool_result:”時,TIMRUN會自動提取參數(shù)、調(diào)用外部工具,并將響應(yīng)直接添加到推理序列中。

這種設(shè)計將傳統(tǒng)多智能體系統(tǒng)中O(n2)的token成本復(fù)雜度降低到了O(n),其中n是推理步驟數(shù)。

實(shí)驗數(shù)據(jù)顯示,即使進(jìn)行30多次工具調(diào)用,TIMRUN仍能保持穩(wěn)定的吞吐量。

圖片

實(shí)驗結(jié)果

研究團(tuán)隊在多個基準(zhǔn)測試上驗證了系統(tǒng)性能。

在MATH500數(shù)學(xué)推理任務(wù)上,TIM-8b模型達(dá)到了69%的準(zhǔn)確率,而在更具挑戰(zhàn)性的AIME 2024上也取得了46.7%的成績。

值得注意的是,使用子任務(wù)剪枝不僅沒有降低性能,在某些任務(wù)上反而有所提升——這證明了保持精簡的工作內(nèi)存有助于模型聚焦于相關(guān)信息。

圖片

在需要多跳推理和工具使用的研究型任務(wù)上,Datacommons QA基準(zhǔn)測試TIM達(dá)到了67.9%的準(zhǔn)確率,與使用4000多token任務(wù)特定提示的Thread方法持平,但TIM只需要簡潔的系統(tǒng)消息和工具描述。

圖片

在更具挑戰(zhàn)性的BrowseComp深度研究任務(wù)上,TIM-large的成功率達(dá)到7.8%,顯著超過了GPT-4o的1.9%。

圖片

效率方面,TIMRUN在批量大小為30的情況下,吞吐量比基線系統(tǒng)SGLang提高了約20%。

更重要的是,隨著工具調(diào)用次數(shù)的增加,SGLang的吞吐量急劇下降,而TIMRUN始終保持穩(wěn)定,這要?dú)w功于其自動的上下文管理機(jī)制。

圖片

TIM和TIMRUN的組合解決了技術(shù)難題,推理這件事,終于不再被窗口框死

論文地址:https://arxiv.org/abs/2507.16784

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-08-21 16:01:58

2023-03-09 13:56:00

商業(yè)分析模型Revnue

2025-01-02 14:03:04

2021-11-01 07:11:03

程序員職場公司

2024-03-14 08:11:45

模型RoPELlama

2016-12-29 17:43:58

GrubMarket

2021-12-20 07:03:54

秒殺系統(tǒng)擴(kuò)容

2023-07-11 10:02:23

2025-03-18 08:14:05

2019-01-17 05:14:07

深度學(xué)習(xí)人工智能AI

2015-08-27 09:16:53

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-10-17 09:13:36

2023-07-28 12:13:28

模型語言性能

2025-09-28 07:00:00

2012-12-31 10:01:34

SELinuxSELinux安全

2025-08-07 08:00:00

2022-09-14 13:13:51

JavaScript上下文

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號