比思維鏈準(zhǔn)43%!邏輯腦+大模型直覺,推理可靠性大幅提升
大語言模型(LLMs)已在文本生成、代碼編寫乃至多模態(tài)任務(wù)中展現(xiàn)出驚人的能力,但在涉及嚴(yán)謹(jǐn)邏輯與物理的空間推理任務(wù)上,它們?nèi)燥@得力不從心。
比如,當(dāng)模型需要理解多個(gè)物體之間的相對(duì)位置關(guān)系,并在復(fù)雜語境下進(jìn)行多步驟推理時(shí),往往容易出現(xiàn)「邏輯斷裂」:可能在中間步驟中虛構(gòu)錯(cuò)誤事實(shí),或偏離目標(biāo),最終導(dǎo)致答案不可靠。
這一問題在空間推理任務(wù)中尤為突出。空間推理要求模型能像人一樣,推演出「桌子在椅子左邊,燈在桌子上方,因此燈也在椅子左邊」這樣的復(fù)雜鏈條。
然而,盡管「思維鏈(Chain-of-Thought)」等提示工程方法在一定程度上提升了模型的推理表現(xiàn),但在多步驟、動(dòng)態(tài)變化的場(chǎng)景中,它們依舊難以保證邏輯一致性。
為了彌合神經(jīng)網(wǎng)絡(luò)的模式識(shí)別能力與符號(hào)系統(tǒng)嚴(yán)謹(jǐn)邏輯之間的鴻溝,來自德國(guó)圖賓根大學(xué)、斯圖加特大學(xué)(王榮)和同濟(jì)大學(xué)(孫坤)的科研人員合作研究發(fā)表在著名的人工智能和深度學(xué)期刊《神經(jīng)網(wǎng)絡(luò)》(Neural Networks)上,該研究提出了一種創(chuàng)新的神經(jīng)-符號(hào)(neural-symbolic)框架。

論文鏈接:
https://www.sciencedirect.com/science/article/pii/S0893608025009025
該框架通過一個(gè)精巧的自動(dòng)迭代反饋循環(huán)(而非手動(dòng)),成功地將大語言模型與一種名為「答案集編程」(Answer Set Programming, ASP)的聲明式邏輯編程系統(tǒng)相結(jié)合,顯著提升了機(jī)器的空間推理能力。
研究人員借鑒了認(rèn)知科學(xué)中的「雙過程理論」,該理論認(rèn)為人類思維分為兩個(gè)系統(tǒng):系統(tǒng)1負(fù)責(zé)快速、直觀的聯(lián)想式思考,而系統(tǒng)2則進(jìn)行緩慢、審慎的規(guī)則化推理。
在這套新框架中,LLM強(qiáng)大的語言理解和模式識(shí)別能力扮演了類似「系統(tǒng)1」的角色;而ASP作為符號(hào)推理的主干,則承擔(dān)了「系統(tǒng)2」的職責(zé),負(fù)責(zé)精確、可驗(yàn)證的邏輯推導(dǎo)。
基于DSPy框架的神經(jīng)-符號(hào)管道框架
該框架的工作流程可以概括為一種「翻譯-執(zhí)行-修正」的協(xié)同模式:
1)翻譯 (Semantic Parsing): 首先,LLM接收自然語言形式的上下文和問題,并將其翻譯成ASP能夠理解的、結(jié)構(gòu)化的邏輯事實(shí)與規(guī)則代碼。
2)執(zhí)行 (Logical Reasoning): 接著,ASP求解器接管這些邏輯代碼,利用其強(qiáng)大的非單調(diào)推理能力(即在信息不完整的情況下進(jìn)行推理),計(jì)算出所有滿足約束條件的穩(wěn)定解。
3)修正 (Iterative Feedback): 這是整個(gè)系統(tǒng)的核心創(chuàng)新。以往的神經(jīng)-符號(hào)方法中,LLM生成的邏輯代碼常常因語法或邏輯錯(cuò)誤而導(dǎo)致整個(gè)系統(tǒng)失敗,成功率有時(shí)低至17%
新框架引入了LLM與ASP求解器之間的迭代反饋循環(huán)。如果ASP在執(zhí)行中發(fā)現(xiàn)錯(cuò)誤,系統(tǒng)會(huì)將錯(cuò)誤信息反饋給LLM,指導(dǎo)其對(duì)生成的邏輯程序進(jìn)行多輪修正,直至代碼在語法和語義上都完全正確。
整個(gè)系統(tǒng)基于模塊化的DSPy框架構(gòu)建,它為L(zhǎng)LMs和符號(hào)求解器之間的無縫雙向交互提供了支持,使得這種復(fù)雜的協(xié)同工作流得以實(shí)現(xiàn)。

自然語言查詢轉(zhuǎn)換為ASP表示的過程
在復(fù)雜基準(zhǔn)測(cè)試中表現(xiàn)卓越
研究團(tuán)隊(duì)在兩個(gè)不同類型的基準(zhǔn)任務(wù)上檢驗(yàn)了框架:
StepGame:結(jié)構(gòu)化的合成數(shù)據(jù)集,用于測(cè)試多步推理。
SpartQA:語言與邏輯復(fù)雜度極高,包含 3D 空間關(guān)系、多重量詞(如「所有」「僅僅」)等挑戰(zhàn)。
結(jié)果顯示,該框架在StepGame上的準(zhǔn)確率達(dá)到82–93%,在SpartQA上為71–80%。
相比直接提示和思維鏈方法,準(zhǔn)確率最高分別提升了43%和25%
更重要的是,這一框架使得推理過程透明、可追溯。每一步邏輯都能通過符號(hào)系統(tǒng)進(jìn)行驗(yàn)證和修正,避免了「黑箱式」推理難以解釋的問題。

在測(cè)試數(shù)據(jù)集SpartQA上LLMs與符號(hào)求解器的迭代反饋表現(xiàn)
通往更可靠通用AI的潛力
研究團(tuán)隊(duì)強(qiáng)調(diào),這項(xiàng)成果的意義不僅在于攻克空間推理,更在于提供了一種神經(jīng)網(wǎng)絡(luò)與符號(hào)邏輯深度融合的范式。
這條路徑有望解決 AI 長(zhǎng)期存在的可解釋性、可靠性與泛化性難題。
尤其值得一提的是,該技術(shù)展現(xiàn)出很強(qiáng)的泛化能力:不僅能處理空間推理任務(wù),還可以擴(kuò)展到各種需要嚴(yán)謹(jǐn)邏輯鏈條的復(fù)雜任務(wù)場(chǎng)景,如法律推理、多模態(tài)推理、工程規(guī)劃乃至科學(xué)研究等。
通過為L(zhǎng)LMs配備外部「邏輯腦」,系統(tǒng)可以在語言理解與邏輯推理之間實(shí)現(xiàn)類似人類的「雙系統(tǒng)」協(xié)作,不僅能產(chǎn)出更高質(zhì)量的答案,還能展現(xiàn)出明確的邏輯鏈條。
這種具備自我修正與類人多組件推理能力的混合架構(gòu),這種能自我修正、跨任務(wù)泛化的「人類式推理」新路徑被認(rèn)為是邁向通用人工智能(AGI)的重要一步。
換句話說,這項(xiàng)研究讓大模型從「能說會(huì)道」,真正走向「能想會(huì)推理」,并具備跨任務(wù)遷移與應(yīng)用的潛力。






























