打破思維鏈推理瓶頸!“軟推理”讓大模型學(xué)會(huì)人類抽象能力,token使用量還更少了
不再像CoT(“思維鏈”)一樣“一個(gè)字一個(gè)字往外蹦”,加上“軟思維”就能讓大模型像人類一樣進(jìn)行抽象思考。
來(lái)自SimularAI和微軟DeepSpeed的研究員聯(lián)合提出了Soft Thinking,讓模型在連續(xù)的概念空間中進(jìn)行 “軟推理”,而非局限于離散的語(yǔ)言符號(hào),打破了基于離散token的推理瓶頸。
相比標(biāo)準(zhǔn)CoT,Soft Thinking最高提升Pass@1平均準(zhǔn)確率2.48%、減少token使用量22.4%。
并且,Soft Thinking是一種即插即用的推理策略,無(wú)需額外訓(xùn)練即可應(yīng)用于現(xiàn)有模型(如Llama、Qwen)。

目前主流的語(yǔ)言模型推理方法存在一個(gè)關(guān)鍵問(wèn)題:只能逐字生成離散的語(yǔ)言符號(hào)(如單詞或子詞)。
這就好比思考時(shí)只能一個(gè)字一個(gè)字的蹦出來(lái),不僅限制了模型表達(dá)抽象概念的能力,還容易在復(fù)雜問(wèn)題中因“單一路徑選擇”而犯錯(cuò)。
人類大腦思考時(shí)并非依賴明確的語(yǔ)言符號(hào),而是通過(guò)抽象概念的靈活整合進(jìn)行推理。

Soft Thinking正是受此啟發(fā),將語(yǔ)言模型的推理從“離散符號(hào)空間”拓展到“連續(xù)概念空間”。
這樣,模型就可以捕捉到介于僅有細(xì)微差別的語(yǔ)義之間的概念,能夠更靈活地探索多種解題路徑,同時(shí)保持高效和可解釋性。
有網(wǎng)友表示:這種方法解決了自回歸“貪婪”的next token搜索問(wèn)題。

如何讓模型像人類一樣進(jìn)行抽象思考
推理流程:在連續(xù)概念空間中 “軟推理”
Soft Thinking僅修改傳統(tǒng)CoT的中間推理階段,保留最終答案的離散生成(如數(shù)學(xué)題的數(shù)字答案或代碼的具體語(yǔ)句)。
Soft Thinking的理論本質(zhì)是線性近似替代路徑枚舉。
解復(fù)雜問(wèn)題時(shí),傳統(tǒng)CoT的推理路徑數(shù)量隨步驟呈指數(shù)級(jí)增長(zhǎng)(如每步選1000個(gè)token,3步就有1000^3種路徑),無(wú)法顯式枚舉。
Soft Thinking通過(guò)線性化近似,將指數(shù)級(jí)路徑求和簡(jiǎn)化為概念token的加權(quán)計(jì)算。
用 概率加權(quán) 替代離散采樣,通過(guò)連續(xù)概念空間中的線性變換,隱式聚合多條路徑的信息,避免顯式枚舉的計(jì)算爆炸。

概念token:用概率分布代替單一符號(hào)
傳統(tǒng)方法每次生成一個(gè)確定的token(如 “30”“加”),而Soft Thinking生成一個(gè)概率分布(如 “30” 的概率40%,“乘以” 的概率30%,“分解” 的概率20%等),這個(gè)分布被稱為 “概念token”。
每個(gè)概念token相當(dāng)于多個(gè)可能符號(hào)的 “混合體”,允許模型同時(shí)保留多種推理可能性。
如下圖中的例子,在計(jì)算“43×34”時(shí),模型可能同時(shí)考慮“分解34為30+4”和“直接相乘”兩種路徑的概率,而非只選其一。

連續(xù)概念空間:在 “模糊” 的語(yǔ)義空間中推理
通過(guò)將概念token的概率分布與模型的詞向量(Token Embedding)加權(quán)結(jié)合,形成連續(xù)的概念空間。
這里的 “連續(xù)” 意味著模型可以在不同概念之間平滑過(guò)渡,例如從“分解數(shù)字”自然過(guò)渡到“乘法運(yùn)算”,而無(wú)需用明確的語(yǔ)言符號(hào)分隔步驟。

Cold Stop機(jī)制:避免無(wú)效循環(huán)
由于模型在訓(xùn)練中沒(méi)見(jiàn)過(guò)概念token(屬于 “分布外” 輸入),長(zhǎng)時(shí)間推理可能導(dǎo)致陷入重復(fù)或混亂(類似人類思維的 “卡殼”)。
Soft Thinking引入了一個(gè) “Cold Stop”機(jī)制:通過(guò)監(jiān)測(cè)概率分布的熵值判斷模型的 “自信程度”。
當(dāng)熵值持續(xù)較低時(shí)(表明模型對(duì)當(dāng)前推理路徑很確定),提前終止中間步驟,直接生成答案,避免浪費(fèi)計(jì)算資源。
測(cè)試結(jié)果及對(duì)比
在基準(zhǔn)測(cè)試?yán)?,QwQ - 32B模型的平均Pass@1準(zhǔn)確率從標(biāo)準(zhǔn)CoT的83.84%提升至86.32%,最高提升2.48%,其中在AIME 2024數(shù)據(jù)集上提升6.45%。
推理效率方面,DeepSeek-R1-Distill-Qwen-32B在數(shù)學(xué)任務(wù)中token使用量減少22.4%。

與其他方法的對(duì)比
- COCONUT-TF(無(wú)訓(xùn)練):直接使用隱藏狀態(tài)作為輸入,完全失敗,生成長(zhǎng)度達(dá)最大值且無(wú)正確解。
 - 平均嵌入策略:僅計(jì)算top-5 token均值,準(zhǔn)確率低且生成長(zhǎng)度長(zhǎng)(如AIME 2024僅6.66%正確)。
 

Soft Thinking通過(guò)連續(xù)概念空間推理和Cold Stop機(jī)制智能平衡了效率與準(zhǔn)確性,為大模型優(yōu)化提供了新思路。
感興趣的朋友可以到官方了解更多細(xì)節(jié)。
官方網(wǎng)站:https://soft-thinking.github.io/
論文地址:https://arxiv.org/abs/2505.15778















 
 
 


















 
 
 
 