讓AI學(xué)著“看菜下碟”!港中大等新框架讓推理長(zhǎng)度減少90%,準(zhǔn)確率反增17%
人類在面對(duì)簡(jiǎn)單提問時(shí)常常不假思索直接回答,只有遇到復(fù)雜難題才會(huì)認(rèn)真推理。
如果AI模型也能像人一樣決定“要不要思考”,效率是否會(huì)大大提升?
近日,香港中文大學(xué)聯(lián)合新加坡國(guó)立大學(xué)Show Lab的研究者提出了一種名為TON(Think Or Not)的新穎選擇性推理框架,讓視覺語(yǔ)言模型(VLM)可以自主判斷是否需要顯式推理。
實(shí)驗(yàn)表明,在不犧牲準(zhǔn)確率的前提下,該方法顯著減少了生成的思考鏈長(zhǎng)度,使模型推理過程更高效。
△圖1:“要不要思考”的示意
左側(cè)示例問題簡(jiǎn)單,無需完整推理即可直接得出答案;而傳統(tǒng)方法如GRPO仍然生成了冗長(zhǎng)的推理過程。右側(cè)示例問題復(fù)雜,需要逐步推理才能得到正確答案。
TON框架令模型能夠像人類一樣,對(duì)簡(jiǎn)單問題直接作答(跳過冗余思考),對(duì)困難問題則給出詳盡的推理過程。
核心創(chuàng)新:引入“是否思考”的決策
TON框架的靈感源自人類決策過程:并非逢問必細(xì)想,而是視問題難易選擇思考或不思考。
現(xiàn)有強(qiáng)化學(xué)習(xí)方法(如GRPO,Group Relative Policy Optimization)強(qiáng)調(diào)讓模型在回答前生成完整的推理鏈。這種“一刀切”的做法雖然提高了復(fù)雜任務(wù)的推理能力,但也導(dǎo)致對(duì)簡(jiǎn)單任務(wù)的計(jì)算浪費(fèi)——模型無論易題難題都冗長(zhǎng)“自言自語(yǔ)”一番。
相比之下,TON的創(chuàng)新之處在于讓模型首先判斷“要不要思考”。這一選擇性推理策略意味著模型將推理與否視作一項(xiàng)獨(dú)立技能來學(xué)習(xí),而非默認(rèn)總是執(zhí)行推理。
正如作者所言,他們關(guān)注的是“When to think”而非傳統(tǒng)方法研究的“How to think”。
△圖2: GRPO與TON的采樣過程對(duì)比示意圖
其中,q_1表示問題,{o_1, …, o_5}為生成的響應(yīng)集合,每個(gè)響應(yīng)包含思維過程T(圓形)和答案S(三角形)。TON方法能夠從空思維T_{\n\n}中進(jìn)行采樣,從而GRPO顯著提升了響應(yīng)多樣性。
為實(shí)現(xiàn)這一目標(biāo),研究者設(shè)計(jì)了兩階段訓(xùn)練機(jī)制使模型掌握選擇性推理的本領(lǐng)。
第一階段是有監(jiān)督微調(diào)(SFT)引入的“思想丟棄(Thought Dropout)”。具體來說,他們將模型訓(xùn)練數(shù)據(jù)中原本的<think>推理過程</think>
隨機(jī)替換為空內(nèi)容<think>\\n\\n</think>
。
換言之,模型有約一半概率看到示例是不包含中間思考步驟的。這一步相當(dāng)于教會(huì)模型輸出一種“不思考”的格式,讓模型知道直接回答也是允許的。
值得一提的是,研究者還用了一個(gè)“反向思考”策略來自行構(gòu)造高質(zhì)量的思考過程數(shù)據(jù),以輔助模型學(xué)習(xí)何時(shí)可以跳過推理。
第二階段是強(qiáng)化學(xué)習(xí)的GRPO優(yōu)化訓(xùn)練。在這一階段,模型被鼓勵(lì)自主探索何時(shí)應(yīng)該思考、何時(shí)跳過,以最大化任務(wù)獎(jiǎng)勵(lì)。
具體做法是:模型針對(duì)同一輸入圖像和問題生成多個(gè)候選響應(yīng),其中有的包含完整思考鏈,有的為空想(即無思考過程直接回答)。
接著通過比較這些候選的結(jié)果正確性和格式,給予獎(jiǎng)勵(lì)并用GRPO算法更新策略,引導(dǎo)模型學(xué)會(huì)在確保正確率的前提下盡量跳過不必要的推理。
經(jīng)過這兩階段訓(xùn)練,VLM模型便掌握了“一題一策”的選擇性思考能力:簡(jiǎn)單題跳過推理,復(fù)雜題老老實(shí)實(shí)推理。
實(shí)驗(yàn)結(jié)果:思考效率大幅提升,準(zhǔn)確率不降反升
作者在多個(gè)具有不同推理難度的視覺-語(yǔ)言任務(wù)上驗(yàn)證了TON的效果,包括CLEVR(簡(jiǎn)單圖形推理)、GeoQA(數(shù)學(xué)幾何問答)以及AITZ(Mobile智能體導(dǎo)航任務(wù))等。
在這些基準(zhǔn)上,TON框架展現(xiàn)出驚人的效率提升——平均推理輸出長(zhǎng)度最多減少了90%!
例如,在CLEVR數(shù)據(jù)集上,TON將模型每次回答所需的生成文本長(zhǎng)度減少了近九成,而在GeoQA上也減少了約65%。
值得注意的是,模型準(zhǔn)確率不僅沒有下降,反而在某些任務(wù)上有所提高。
以問答GeoQA為例,TON模型相比始終思考的GRPO基線,準(zhǔn)確率提升了最高17個(gè)百分點(diǎn)。
這意味著,讓模型學(xué)會(huì)“偷懶”跳過無用思考不僅節(jié)省計(jì)算,還可能帶來性能的“免費(fèi)午餐”。
△圖3:TON和vanilla GRPO在CLEVR和GeoQA上的結(jié)果對(duì)比
TON平均推理長(zhǎng)度最多減少了90%,并且準(zhǔn)確率不降反升。
另外,研究人員對(duì)比了TON在AITZ的分布外數(shù)據(jù)集上面的效果,效果可以和vannila grpo保持一致,但是輸出長(zhǎng)度從3k減少到了900,更加高效。
△圖4: TON在AITZ的不同domain測(cè)試集上面的表現(xiàn)。
由圖4可以看出效果保持一致,但是task level的長(zhǎng)度從3k減少到了900。
研究人員進(jìn)一步測(cè)試了訓(xùn)練過程的更多指標(biāo),發(fā)現(xiàn)訓(xùn)練過程中,TON輸出空內(nèi)容<think>\\n\\n</think>的比例
隨著reward的上升而增加,進(jìn)而進(jìn)一步降低了模型輸出的平均長(zhǎng)度,但是輸出的有內(nèi)容的思考過程的長(zhǎng)度仍然維持不變。
△圖5: TON和vanilla GRPO在訓(xùn)練過程中的reward可視化圖
△圖6: TON和vanilla GRPO在訓(xùn)練過程中的輸出空思考的比例可視化圖
另外發(fā)現(xiàn),簡(jiǎn)單的任務(wù)更容易跳過思考(比如CLEVR),但是難的任務(wù)反而不容易跳過(比如GeoQA),展現(xiàn)出模型在強(qiáng)化學(xué)習(xí)的過程中,自適應(yīng)的針對(duì)問題的難易程度,學(xué)習(xí)何時(shí)該思考合適不思考。
在不降低準(zhǔn)確率的情況下減少將近九成的推理步驟,這對(duì)大型模型的實(shí)際部署帶來了切實(shí)的益處。
一方面,推理效率的提升意味著更快的響應(yīng)速度和更低的算力消耗。這對(duì)于需要實(shí)時(shí)互動(dòng)的多模態(tài)助手、機(jī)器人等應(yīng)用尤為重要。
另一方面,TON 展現(xiàn)的“按需思考”模式讓AI更接近人類的思維習(xí)慣——該思考時(shí)就認(rèn)真思考,該果斷時(shí)則不拖泥帶水。這種人性化的推理策略有望提升模型在推理任務(wù)上的通用性和可靠性。
總的來說,TON提出了一個(gè)值得關(guān)注的方向:并非一味追求更長(zhǎng)的思維鏈,而是先問問自己“要不要思考?”。
未來,這類機(jī)制可能成為提升大模型實(shí)用性的一個(gè)重要途徑。
以下是兩個(gè)代表性的TON系列模型,它們?cè)诓煌蝿?wù)上展示了這一機(jī)制的實(shí)際應(yīng)用效果。
例子1
△圖7: GRPO與TON在GUI agent AITZ上的對(duì)比
TON在多步移動(dòng)導(dǎo)航過程中自適應(yīng)跳過不必要的思考步驟,在保持任務(wù)準(zhǔn)確性的同時(shí)實(shí)現(xiàn)了比GRPO更高的解碼效率(本例中節(jié)省了60%的token消耗)。
例子2
△圖8: CLEVR中思考模式與非思考模式的對(duì)比圖示
TON展示了選擇性激活推理的能力——僅在需要時(shí)啟動(dòng)思考機(jī)制,而GRPO則不加區(qū)分地為所有情況生成推理軌跡。
論文地址:https://arxiv.org/abs/2505.16854代碼地址:https://github.com/kokolerk/TON