思維鏈可無限延伸了,MIT等打破大模型上下文天花板
大模型的記憶墻,被MIT撬開了一道口子。
MIT等機(jī)構(gòu)最新提出了一種新架構(gòu),讓推理大模型的思考長度突破物理限制,理論上可以無限延伸。
這個新架構(gòu)名叫Thread Inference Model,簡稱TIM。
TIM配上專用推理引擎TIMRUN,把推理過程變成類似樹狀的遞歸子任務(wù)結(jié)構(gòu),并動態(tài)修剪掉不再需要的子任務(wù),就能讓模型在輸出窗口有限的情況下實(shí)現(xiàn)幾乎無限制的長程推理。

當(dāng)前所有頂尖大模型都面臨一個尷尬的困境:上下文窗口限制。
但現(xiàn)實(shí)應(yīng)用經(jīng)常需要更長的推理鏈條,特別是當(dāng)模型需要調(diào)用外部工具、處理復(fù)雜多步驟任務(wù)時,這個限制就成了致命短板。
傳統(tǒng)解決方案要么是把任務(wù)切分給多個模型處理,要么是壓縮歷史信息,但這兩種方法都會損失信息完整性。
TIM團(tuán)隊提出了一個巧妙的洞察:
推理過程并不是線性的,而是像編程時一樣具有遞歸結(jié)構(gòu)。
例如當(dāng)我們寫代碼時,通常只關(guān)注光標(biāo)附近的代碼、已完成函數(shù)的輸入輸出,以及待辦事項,而不會記住每個函數(shù)的所有實(shí)現(xiàn)細(xì)節(jié)。
這種“潛意識”的信息過濾機(jī)制,正是TIM系統(tǒng)的核心靈感來源。
把推理過程“解剖”成任務(wù)樹
TIM最大的創(chuàng)新在于將推理軌跡建模為遞歸的子任務(wù)樹,而不是傳統(tǒng)的線性token序列。
每個任務(wù)單元包含四個關(guān)鍵組件:
- 思考過程(thought)
 - 工具使用(tooluse)
 - 子任務(wù)列表(subtasks)
 - 結(jié)論(conclusion)
 
當(dāng)模型處理復(fù)雜問題時,會自動將其分解為更簡單的子任務(wù),直到達(dá)到可以一步完成的葉節(jié)點(diǎn)任務(wù)。
再配合子任務(wù)剪枝機(jī)制,當(dāng)一個子任務(wù)完成后,模型只保留其結(jié)論,而將具體的執(zhí)行細(xì)節(jié)從工作內(nèi)存中移除。
研究團(tuán)隊使用了一個固定大小的子任務(wù)棧來管理這個過程,當(dāng)棧滿時會彈出最早的子任務(wù)并將其從內(nèi)存中剪除。
實(shí)驗表明,這種機(jī)制可以減少超過50%的KV緩存使用,在AIME 2024數(shù)學(xué)競賽任務(wù)上甚至達(dá)到了64.1%的剪枝率。
更重要的是,TIM采用了結(jié)構(gòu)化生成方式,整個推理過程被編碼為一個JSON字典,通過約束解碼確保輸出格式的正確性。
這使得模型可以在一次推理中完成多次工具調(diào)用,避免了傳統(tǒng)方法中反復(fù)提交消息列表的開銷。

為結(jié)構(gòu)化推理量身定制推理引擎
專門設(shè)計的推理引擎解決了TIM部署中的關(guān)鍵挑戰(zhàn)——如何在有限的GPU內(nèi)存和位置編碼范圍內(nèi)實(shí)現(xiàn)”無限”推理。
TIMRUN的核心技術(shù)突破在于動態(tài)內(nèi)存管理和位置編碼重用。
當(dāng)子任務(wù)被剪枝后,系統(tǒng)不僅回收了GPU內(nèi)存頁,還重新分配了位置編碼。
具體來說,被剪枝的token占用的位置會被后續(xù)的token重新使用,這樣模型就能在固定的輸出窗口限制下持續(xù)生成新內(nèi)容。

在工具調(diào)用方面,TIMRUN直接在運(yùn)行時內(nèi)部發(fā)起調(diào)用,而不是將參數(shù)發(fā)送回客戶端。
當(dāng)模型輸出”tool_result:”時,TIMRUN會自動提取參數(shù)、調(diào)用外部工具,并將響應(yīng)直接添加到推理序列中。
這種設(shè)計將傳統(tǒng)多智能體系統(tǒng)中O(n2)的token成本復(fù)雜度降低到了O(n),其中n是推理步驟數(shù)。
實(shí)驗數(shù)據(jù)顯示,即使進(jìn)行30多次工具調(diào)用,TIMRUN仍能保持穩(wěn)定的吞吐量。

實(shí)驗結(jié)果
研究團(tuán)隊在多個基準(zhǔn)測試上驗證了系統(tǒng)性能。
在MATH500數(shù)學(xué)推理任務(wù)上,TIM-8b模型達(dá)到了69%的準(zhǔn)確率,而在更具挑戰(zhàn)性的AIME 2024上也取得了46.7%的成績。
值得注意的是,使用子任務(wù)剪枝不僅沒有降低性能,在某些任務(wù)上反而有所提升——這證明了保持精簡的工作內(nèi)存有助于模型聚焦于相關(guān)信息。

在需要多跳推理和工具使用的研究型任務(wù)上,Datacommons QA基準(zhǔn)測試TIM達(dá)到了67.9%的準(zhǔn)確率,與使用4000多token任務(wù)特定提示的Thread方法持平,但TIM只需要簡潔的系統(tǒng)消息和工具描述。

在更具挑戰(zhàn)性的BrowseComp深度研究任務(wù)上,TIM-large的成功率達(dá)到7.8%,顯著超過了GPT-4o的1.9%。

效率方面,TIMRUN在批量大小為30的情況下,吞吐量比基線系統(tǒng)SGLang提高了約20%。
更重要的是,隨著工具調(diào)用次數(shù)的增加,SGLang的吞吐量急劇下降,而TIMRUN始終保持穩(wěn)定,這要?dú)w功于其自動的上下文管理機(jī)制。

TIM和TIMRUN的組合解決了技術(shù)難題,推理這件事,終于不再被窗口框死















 
 
 












 
 
 
 