CoT神話破滅,并非LLM標(biāo)配!三大學(xué)府機(jī)構(gòu)聯(lián)手證實,CoT僅在數(shù)學(xué)符號推理有用
谷歌CoT開山之作,再次成為OpenAI o1模型的利器。
LLM復(fù)雜推理能力的實現(xiàn),就離不開一步一步思考,但是這種「思考」究竟對于什么類型的任務(wù)有幫助呢?
來自UT-Austin、霍普金斯、普林斯頓的研究人員,使用CoT對100多篇論文,進(jìn)行了定量元分析。

論文地址:https://arxiv.org/abs/2409.12183
同時,他們還對14個模型的20個數(shù)據(jù)集,進(jìn)行了評估。
結(jié)果顯示,CoT在涉及數(shù)學(xué)、邏輯任務(wù)中,能夠增強(qiáng)LLM性能,但在其他類型任務(wù)上,收益較小。

在MMLU中,除非問題或模型回答中包含“=”(表示符號運算和推理),否則直接生成答案,而不使用CoT,能達(dá)到與使用CoT相同的準(zhǔn)確率。
基于這一發(fā)現(xiàn),作者通過分離「規(guī)劃」和「執(zhí)行」,并工具增強(qiáng)的LLM進(jìn)行比較,來分析CoT在這些任務(wù)中的行為。
結(jié)果證實,CoT的大部分收益,來自于符號執(zhí)行的改進(jìn),但相對于使用符號求解器來說,表現(xiàn)較差。

總而言之,作者希望通過研究告訴我們,CoT并非是萬能的。
「CoT可以有選擇性地應(yīng)用,以平衡性能和推理計算成本」。
另外,未來研究中還需超越基于提示的CoT,轉(zhuǎn)向利用整個LLM中間計算的新范式。
用CoT,還是不用CoT,這是一個問題
o1成為當(dāng)紅炸子雞,一大原因便是采用了CoT架構(gòu)。
但是,千萬不要被OpenAI誤導(dǎo)了。

其實,先前就有研究稱,CoT在數(shù)學(xué)以外的領(lǐng)域,并沒有那么有用,甚至有時會損害模型性能。
最新研究中,作者的目標(biāo)是去評估,基于提示的CoT在哪些領(lǐng)域發(fā)揮作用最大,以及具體的原因。
110篇論文,14大類別
對此,研究人員從機(jī)器學(xué)習(xí)頂會ICLR 2024、兩個NLP頂會EACL 2024和NAACL 2024中,篩選了所有4642篇論文(2259篇來自ICLR 2024,2,382篇來自兩個ACL附屬會議)。
在這些論文中,通過自動篩選出現(xiàn)CoT、chain-of-thought或chain of thought兩次的文章,共得到516個樣本。
然后,下一步通過手動篩選,得到對「CoT提示與直接提示進(jìn)行比較」的論文。
經(jīng)過一系列排除,最終收集了110篇論文樣本,涵蓋了264個數(shù)據(jù)集。
最后,研究人員將所獲得樣本中的不同任務(wù),分成14個類別。


如下圖2所示,在不文獻(xiàn)中,作者發(fā)現(xiàn)CoT在任務(wù)分類中的性能增益。
可見,CoT在符號推理、數(shù)學(xué)、邏輯推理三大類別任務(wù)中,性能最優(yōu),平均提高分別為14.2%、12.3%和6.9%。
使用CoT的前三項任務(wù),平均性能為56.9%,而沒有CoT的性能為45.5%。
對于其他類別任務(wù),使用CoT的平均性能為56.8%,而沒有使用CoT的平均性能為56.1%。

圖2右側(cè)顯示了,在數(shù)學(xué)、符號或邏輯推理以外的任務(wù)實驗中,平均CoT增量較高10個異常值。
雖然這些論文沒有被歸類為數(shù)學(xué)邏輯,但其中一些在某種程度上與邏輯、數(shù)學(xué)或符號推理相關(guān)。
從這個列表中可以看出,從CoT中獲益最多的數(shù)據(jù)集是BIG-bench Hard。還有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本簡單問題的組合。

同時,還有幾個異常值,也隱約遵循這一趨勢。比如,ScienceQ是由一系列自然和社會科學(xué)科學(xué)選擇題組成,但如果不按學(xué)科/問題類型細(xì)分成績,很難解釋其收益。
其次,在一些論文分析中,其他論文評分結(jié)果并未顯示出CoT帶來的改進(jìn)。
實驗結(jié)果
更進(jìn)一步的,團(tuán)隊在零樣本學(xué)習(xí)和少樣本學(xué)習(xí)的設(shè)置下,對14個模型的20個數(shù)據(jù)集進(jìn)行了一系列實驗,以比較性能。
與CoT相比,零樣本CoT有何改進(jìn)?
如下圖3所示,具體顯示了圖1中,每個推理類別的平均CoT性能改進(jìn)。右側(cè)呈現(xiàn)的是,對每個數(shù)據(jù)集使用CoT所帶來的性能增益,這是所有模型和單個模型選擇的平均值。
在非符號推理類別和數(shù)據(jù)集上,特別是那些包含主要涉及常識(CSOA、PIOA、SiOA)、語言理解(WinoGrande)和閱讀理解((AGILSAT、ARC-Easy、ARC-Challenge)問題的數(shù)據(jù)集。
零樣本CoT和零樣本直接回答的性能之間,幾乎沒有區(qū)別。
盡管這些數(shù)據(jù)集中涉及推理,但是CoT并沒有帶來顯著的改進(jìn)。

相較之下,數(shù)學(xué)和符號類別,與符號和許多符號數(shù)據(jù)集一起得到了大幅改進(jìn)。
MATH和GSM8k的增幅分別高達(dá)41.6%和66.9%。對于半符號數(shù)據(jù)集如Mvsteries等,結(jié)果顯示出適度的增幅。
例如,從簡單的自然語言(ContextHub)或更復(fù)雜的常識陳述(MuSR 謀殺之謎)解析出一階邏輯。所有結(jié)果均顯示在附錄 C.1中,表7中還顯示了 CoT 和直接答案提示的完整數(shù)字結(jié)果列表。我們還探索了少數(shù)鏡頭設(shè)置,發(fā)現(xiàn)它對 CoT 何時提供幫助的影響不大;參見附錄 B。
答案形式,是否會影響到CoT幫助的范圍?
答案——不多,預(yù)先規(guī)劃或推理正確反應(yīng),可能會阻礙模型自主反應(yīng)能力。
除了數(shù)學(xué)之外,許多常用的問題數(shù)據(jù)集是多項選擇。
對于兩個非多項選擇,且包含不同級別的非符號推理來回答問題數(shù)據(jù)集,CoT具有與跨模型直接回答相似的性能。
其次,BiGGen Bench使用自由式回答作為問題答案,并使用LLM作為法官,以1-5級來評估這些回答。
得到的答案,本質(zhì)上模糊了CoT和直接答案之間的界限。
為此,研究人員設(shè)置了一個新的CoT提示,要求語言模型生成自由形式響應(yīng)的規(guī)劃,然后要求其在生成完整的響應(yīng)。
知識、軟推理和常識方面,性能提升顯著嗎?
除了MMLU、StrategyQA和MuSR外,大多數(shù)情況下答案是否定的。
作者使用配對引導(dǎo)法在知識、軟推理和常識推理類別的13個數(shù)據(jù)集上,測試了CoT改進(jìn)的顯著性。
結(jié)果得出,大約 38%的數(shù)據(jù)集顯示出,這三個推理類別的效益是顯著的。
MMLU和MMLU PRO
MMLU和MMLU Pro顯示了,使用CoT帶來收益,但由于這些數(shù)據(jù)集非常廣泛,因此無法進(jìn)行簡單的表征。
研究人員探索了MMLU每個類別上的CoT性能,以了解這些領(lǐng)域之間CoT性能的差異。
對此,他們列出了3個類別,其中CoT在MMLU和MMLU Pro上,Llama 3.1 8B和70B最大的誤差減少。

其中,一些任務(wù)類別明顯是數(shù)學(xué)性質(zhì),正如圖8中所呈現(xiàn)的那樣。
此外,我們還可以看到,CoT在商業(yè)任務(wù)上,能夠提供一定的幫助。經(jīng)過仔細(xì)核查,這些任務(wù)也會常常涉及數(shù)學(xué)等一些內(nèi)容。

實驗結(jié)果如下圖4所示,當(dāng)問題或生成結(jié)果匯總包含“=”,以及不包含“=”時,使用CoT時的增益效果。

CoT在公式推理中的優(yōu)缺點
前面主要說明了CoT主要在符號推理任務(wù)發(fā)揮作用,但沒有說明具體原因。
在符號任務(wù)上,研究人員CoT的性能提升歸因于兩個階段:規(guī)劃階段和執(zhí)行階段。

下圖6顯示了,代表性模型選擇的結(jié)果。
將直接答案與Plan+ Direct求解器和Plan+CoT求解器進(jìn)行比較時,可以注意到,對于許多數(shù)據(jù)集和模型,僅有規(guī)劃并不能解決大部分性能增益。
與直接答案相比,需要CoT或Plan+CoT求解器,來獲得強(qiáng)大的性能。
盡管CoT和Plan+CoT求解器,比直接答案和Plan+Direct求解器有優(yōu)勢,但在大多數(shù)設(shè)置中,仍以Plan+Tool求解器為主。
與符號求解器相比,LLM執(zhí)行和追蹤步驟的能力受到限制。

鑒于以上的發(fā)現(xiàn),研究團(tuán)隊認(rèn)為CoT應(yīng)該有選擇性地應(yīng)用,尤其是在需要處理數(shù)學(xué)、邏輯推理的任務(wù)。
而不分青紅皂白地使用CoT,可能會導(dǎo)致推理成本增加。
他們還建議,若想進(jìn)一步提升模型推理能力,還需要超越基于提示的CoT。
總而言之,CoT is not all you need。





































