首篇潛空間推理綜述!模型思考不必依賴Token,帶寬暴增2700+倍
大模型在潛空間中推理,帶寬能達(dá)到普通(顯式)思維鏈(CoT)的2700多倍?
史上首篇潛空間推理綜述,對(duì)這種新興的推理范式進(jìn)行了全面總結(jié)。
這篇綜述當(dāng)中,作者分析了循環(huán)、遞歸、連續(xù)思維等潛空間推理的形式,并將這些方法總結(jié)成了一個(gè)框架。
這個(gè)統(tǒng)一框架不是強(qiáng)行整合,而是建立在機(jī)械可解釋性的基礎(chǔ)之上,能夠與模型的內(nèi)部運(yùn)作進(jìn)行聯(lián)系。
作者表示,這一框架還將有助于未來的路線探索,例如研究通過擴(kuò)散模型進(jìn)行無(wú)限深度推理等高級(jí)范式。
這篇綜述共同一作有四人,其中字節(jié)SEED實(shí)習(xí)生、加州大學(xué)圣克魯茲分校博士生Ruijie Zhu同時(shí)是通訊作者。
什么是潛空間推理?
潛空間推理是一個(gè)新興領(lǐng)域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大學(xué)學(xué)者M(jìn)ostafa Dehghani與谷歌大腦和DeepMind(后兩者當(dāng)時(shí)處于獨(dú)立狀態(tài))共同發(fā)表的《Universal Transformers》。
這篇文章引入了自適應(yīng)計(jì)算時(shí)間(ACT)機(jī)制,首次實(shí)現(xiàn)了層級(jí)間的動(dòng)態(tài)遞歸,為后續(xù)的潛空間推理研究奠定了基礎(chǔ)。
此外比較著名的研究還包括Meta的Coconut,入選了今年的頂會(huì)COML。
今年年初,在潛空間推理這個(gè)方向上也有不少新作發(fā)表,表明這極有可能是一個(gè)待挖掘的新方向。
那么,潛空間推理到底是個(gè)什么概念?
與顯式推理相同,潛空間推理也要用到思維鏈,但不同的是其中的思維鏈?zhǔn)菨撌剿季S鏈(Latent Chain-of-Thought)。
這種潛式思維鏈以內(nèi)部連續(xù)的形式表示推理,構(gòu)成一個(gè)抽象的推理軌跡,而不用離散的自然語(yǔ)言(Token)表示推理過程。
這樣一來人類會(huì)無(wú)法看懂大模型的推理過程,但帶來的好處是帶寬的巨額提升。
顯式CoT當(dāng)中每個(gè)token約為15bits,而潛式CoT操作的高維隱藏狀態(tài),例如在2560維FP16當(dāng)中,每步大約相當(dāng)于40960bits,帶寬比顯式CoT提升了2700多倍。
并且由于推理中不使用Token,這種方法中模型不受有限詞匯表的限制,可以探索沒有直接語(yǔ)言對(duì)應(yīng)物的推理軌跡,帶來了更豐富的表達(dá)能力。
而在具體處理過程上,潛空間推理主要有兩種模式——垂直循環(huán)和水平循環(huán)。
垂直循環(huán)是一類基于激活的方法(Activation-based Methods),這類方法通過擴(kuò)展計(jì)算深度來實(shí)現(xiàn)推理。
具體來說是在固定的時(shí)間步內(nèi),通過重復(fù)處理同一組層來增加計(jì)算深度,說得再通俗一些,就是讓模型反復(fù)思考同一個(gè)問題。
這種方式可以從架構(gòu)、訓(xùn)練等不同層面實(shí)現(xiàn),因此包含有多種變體。
- 架構(gòu)層面的實(shí)現(xiàn)(如Universal Transformer)采用自適應(yīng)計(jì)算時(shí)間機(jī)制,將網(wǎng)絡(luò)深度視為動(dòng)態(tài)計(jì)算資源而非靜態(tài)超參數(shù);
- 訓(xùn)練層面的實(shí)現(xiàn)(如Coconut)將連續(xù)思維向量插入當(dāng)前token之前,使推理在潛空間進(jìn)行;
- 其他方法如CoTFormer將隱藏激活交錯(cuò)回輸入序列,讓早期退出的token能夠關(guān)注到自身表示的更深層優(yōu)化。
垂直循環(huán)的優(yōu)勢(shì)在于能夠?yàn)閺?fù)雜問題分配更多計(jì)算資源,通過增加迭代次數(shù)來處理需要多步推理的任務(wù)。
但其局限性在于需要在固定的層數(shù)約束下工作,當(dāng)推理鏈變得非常長(zhǎng)時(shí),可能會(huì)遇到梯度消失或爆炸的問題。
水平循環(huán)則基于隱藏狀態(tài),專注于沿時(shí)間維度擴(kuò)展模型的記憶和推理能力,基本思路是維護(hù)一個(gè)壓縮的隱藏狀態(tài),該狀態(tài)能夠聚合來自多個(gè)時(shí)間步或空間上下文的信息。
這種方法可以利用歷史表示來指導(dǎo)當(dāng)前的計(jì)算,有效創(chuàng)建了一個(gè)跨越多層或時(shí)間步的記憶庫(kù)。
其實(shí)現(xiàn)方式,主要包括線性狀態(tài)循環(huán)(對(duì)隱藏狀態(tài)應(yīng)用更新和衰減規(guī)則)和梯度狀態(tài)循環(huán)(將隱藏狀態(tài)視為在線學(xué)習(xí)參數(shù)并進(jìn)行優(yōu)化)。
那么,無(wú)論垂直還是水平,這樣的層堆疊是否真的構(gòu)成了一種潛在的推理鏈呢?作者對(duì)其機(jī)械可解釋性進(jìn)行了分析。
潛空間真的能表示思維鏈嗎?
綜合多份文獻(xiàn),作者發(fā)現(xiàn)層深度與模型推理能力之間存在著緊密的關(guān)聯(lián)關(guān)系。
去年,清華大學(xué)碩士生俞一炅的一篇題為《Do LLMs Really Think Step-by-step In Implicit Reasoning?》的論文(2411.15862)表明,模型的隱式思維鏈能力嚴(yán)格受到網(wǎng)絡(luò)層數(shù)的限制。
在一個(gè)需要5步推理的任務(wù)中,雖然中間結(jié)果會(huì)在某些層中出現(xiàn),但由于層數(shù)不足,最終的推理結(jié)果無(wú)法涌現(xiàn)。
這就像建造一座需要10層樓高度的建筑,但只有8層樓的材料,無(wú)論如何優(yōu)化設(shè)計(jì),都無(wú)法達(dá)到預(yù)定的高度。
今年,UC伯克利Tianyu Guo等人的發(fā)現(xiàn)(2502.13913)進(jìn)一步支持了這個(gè)觀點(diǎn)——至少需要2-3層,才能在模型內(nèi)部形成完整的兩步推理鏈。
如果層數(shù)不足或后續(xù)層的深度不夠,就會(huì)阻礙執(zhí)行多跳推理的能力。
這表明層深度不僅影響推理的復(fù)雜程度,更是推理能力實(shí)現(xiàn)的基礎(chǔ)門檻。
進(jìn)一步地,谷歌研究院的Nikunj Saunshi等人在今年ICLR上發(fā)布的論文中正式建立了一個(gè)重要定理(2502.17416):
任何執(zhí)行m步思維鏈推理的K層transformer都可以通過m次迭代前向傳播被(L+O(1))層transformer模擬。
這個(gè)定理從根本上確立了層深度作為潛在推理容量主要瓶頸的地位,其中可實(shí)現(xiàn)的思維鏈步長(zhǎng)與層數(shù)呈線性關(guān)系。
繼續(xù)進(jìn)行深入,不同深度的層在推理過程中展現(xiàn)出了明確的功能分化,類似于流水線作業(yè)中不同工位的專門化分工。
- 淺層主要負(fù)責(zé)處理基礎(chǔ)信息,例如局部信息、句法結(jié)構(gòu)和表面模式,執(zhí)行初始數(shù)據(jù)轉(zhuǎn)換。更重要的是,淺層負(fù)責(zé)存儲(chǔ)和回憶事實(shí)知識(shí),在多層推理任務(wù)中建立實(shí)體解析的橋梁;
- 中間層構(gòu)成了推理的核心引擎,包含專門用于推理功能的算法,涉及注意力頭和MLP模塊之間的協(xié)調(diào)交互;
- 深層則負(fù)責(zé)輸出優(yōu)化和決策制定,接收來自中間層的表示信息,執(zhí)行針對(duì)特定下游任務(wù)的語(yǔ)義轉(zhuǎn)換,進(jìn)行更復(fù)雜的邏輯整合并確定最終答案。
理解了層的特化分工后,信息如何在這些專門化層之間流動(dòng)就成為了新的問題。
蘇黎世聯(lián)邦理工學(xué)院的Stolfo等人通過量化MLP和注意力模塊的間接貢獻(xiàn)(2305.15054),闡明了大模型在算術(shù)任務(wù)中的內(nèi)部信息流路徑。
結(jié)果突出了注意力機(jī)制在推理過程中層間信息流的關(guān)鍵作用——將計(jì)算信息從早期處理層傳輸?shù)阶罱Ktoken。
更多研究表明,這種信息流動(dòng)并非單向的線性傳遞,還包含跨層信息流,甚至“反向注意力”機(jī)制表明,隱藏信息可以有效地從較高層傳輸?shù)捷^低層,增強(qiáng)模型的推理能力。
這種雙向的信息流動(dòng)機(jī)制確保了推理過程中信息的充分整合和利用。
無(wú)限深度推理
此外,研究者提出了“無(wú)限深度推理”的假想,也就是讓AI能夠投入無(wú)限的“思考時(shí)間”來完善解決方案,不受輸出長(zhǎng)度限制,并能根據(jù)問題復(fù)雜度動(dòng)態(tài)分配計(jì)算資源。
這個(gè)概念通過兩種主要途徑實(shí)現(xiàn)——空間無(wú)限推理和時(shí)間無(wú)限推理。
空間無(wú)限推理通過文本擴(kuò)散模型實(shí)現(xiàn),從完全遮蔽或含噪聲的整個(gè)輸出序列開始,通過迭代去噪并行處理所有位置。每次迭代都能訪問完整的雙向上下文,優(yōu)化步數(shù)可在推理時(shí)調(diào)整。
作者在綜述中具體介紹了三種文本擴(kuò)散模型。
- 遮蔽(masked)擴(kuò)散模型:在完整文本序列上操作,初始時(shí)token被遮蔽,模型基于雙向上下文同時(shí)預(yù)測(cè)所有缺失token。更新機(jī)制為逐步取消遮蔽高置信度的token,同時(shí)保持低置信度token繼續(xù)優(yōu)化;
- 嵌入(embedding based)擴(kuò)散模型:先將離散token序列映射到連續(xù)嵌入空間,然后對(duì)這些嵌入進(jìn)行高斯噪聲擾動(dòng)并去噪。這種方法在連續(xù)空間操作,為模型提供了更大的表達(dá)自由度;
- 混合AR-擴(kuò)散(Hybrid AR-Diffusion)模型:結(jié)合擴(kuò)散和自回歸范式的優(yōu)勢(shì),使用自回歸前綴緩存機(jī)制,將已生成的穩(wěn)定文本部分固定,只對(duì)不確定部分使用擴(kuò)散優(yōu)化。
時(shí)間無(wú)限推理則是基于一個(gè)核心洞察——時(shí)間可以交換網(wǎng)絡(luò)深度。
當(dāng)隱藏狀態(tài)通過梯度類規(guī)則更新時(shí),每個(gè)額外token執(zhí)行一個(gè)優(yōu)化步驟來優(yōu)化隱式層。處理更長(zhǎng)序列等價(jià)于讓同一層運(yùn)行更多優(yōu)化迭代,在不增加參數(shù)情況下產(chǎn)生更大推理深度。
作者同樣介紹了三種具體方法:
- 無(wú)限注意力:為每個(gè)Transformer塊附加壓縮記憶,通過線性-增量規(guī)則更新記憶狀態(tài),漸近逼近關(guān)聯(lián)數(shù)組的不動(dòng)點(diǎn)。
- 測(cè)試時(shí)訓(xùn)練:在推理期間對(duì)隱藏狀態(tài)執(zhí)行SGD步驟,通過分塊并行化處理長(zhǎng)序列;
- 隱式不動(dòng)點(diǎn)RNN:通過迭代狀態(tài)空間塊直到收斂,產(chǎn)生非線性、非對(duì)角轉(zhuǎn)換,在保持訓(xùn)練并行性的同時(shí)恢復(fù)通用RNN的表達(dá)能力。
總之作者認(rèn)為,這些高級(jí)范式,也可以通過與潛空間推理同樣的統(tǒng)一視角來理解。
作者希望,這篇綜述能夠清晰地闡明潛空間推理這一領(lǐng)域,并激發(fā)新的、更具整合性的研究方向。
論文地址:https://arxiv.org/abs/2507.06203