無(wú)需人工標(biāo)注!AI自生成訓(xùn)練數(shù)據(jù),靠「演繹-歸納-溯因」解鎖推理能力
當(dāng)AI試圖破解數(shù)學(xué)、編程與科學(xué)的難題時(shí),它常常像一位靈感乍現(xiàn)的天才,卻又難以穩(wěn)定發(fā)揮。
新加坡國(guó)立大學(xué)、清華大學(xué)和Salesforce AI Research的研究者,提出了一種革命性的訓(xùn)練框架——元能力對(duì)齊,賦予模型穩(wěn)健的推理能力,讓頓悟成為常態(tài)。

論文鏈接:https://arxiv.org/abs/2505.10554
他們提出了一項(xiàng)使大型推理模型的能力變得更加可控和可靠的訓(xùn)練方法,能夠高效地系統(tǒng)化培養(yǎng)大模型的數(shù)學(xué),編程和科學(xué)問(wèn)題上的基本推理能力。
要理解其突破,需要知道何為啊哈時(shí)刻,這里指的是在使用純強(qiáng)化學(xué)習(xí)訓(xùn)練大模型的時(shí)候,大模型偶然展現(xiàn)出的高級(jí)推理行為,如自我糾正、回溯和驗(yàn)證等。
DeepSeek-R1的成功表明,從預(yù)訓(xùn)練基礎(chǔ)模型或指令微調(diào)模型開(kāi)始,基于規(guī)則的純強(qiáng)化學(xué)習(xí)能夠自發(fā)地涌現(xiàn)出長(zhǎng)鏈?zhǔn)剿季S推理、自我糾正、自我反思等高級(jí)行為。
然而,這些涌現(xiàn)行為的頻率和一致性,卻始終不可預(yù)測(cè)且無(wú)法控制,這就限制了大模型的推理能力的可擴(kuò)展性和可靠性。
實(shí)驗(yàn)方法:模仿心理學(xué),
讓大模型穩(wěn)定地涌現(xiàn)出推理能力
要想做到超越「頓悟時(shí)刻」就需要借助于心理學(xué)家皮爾斯提出的經(jīng)典推理三元組,該理論指出人類的推理能力,可以分為三個(gè)組件間的組合,分別是假設(shè),觀察和規(guī)則,根據(jù)任意兩個(gè),可以得出第三個(gè)。
例如根據(jù)觀察和假設(shè),通過(guò)歸納得到可泛化的規(guī)則;而基于規(guī)則和假設(shè),能根據(jù)演繹推斷出未來(lái)可能的觀察結(jié)果;至于基于規(guī)則和觀察,得到假設(shè)的過(guò)程,稱之為溯因。

圖1:皮爾斯提出的推理元能力三元組
有了這樣的分類,研究者據(jù)此構(gòu)建了一個(gè)程序,能自動(dòng)化生成上述三類推理的實(shí)例,用于大模型的訓(xùn)練,并對(duì)大模型輸出的結(jié)果自動(dòng)進(jìn)行驗(yàn)證,程序生成的任務(wù),是由常見(jiàn)數(shù)據(jù)組合而成,但又不再訓(xùn)練數(shù)據(jù)集中的,由此可訓(xùn)練模型的元推理能力。
例如,在演繹推理(H+R?O)中,模型被給定一組邏輯規(guī)則R和一個(gè)候選真值賦值H作為假設(shè),必須驗(yàn)證整體觀察結(jié)果O(即所有公式為真)是否成立。
而在歸納推理(H+O?R)中,模型被提供可觀察項(xiàng)O和不完整輸入H,必須抽象出底層生成規(guī)則R;在溯因推理(O+R?H)中,模型被給定觀察結(jié)果O和一個(gè)規(guī)則圖R ,必須反向追蹤以恢復(fù)能夠邏輯解釋結(jié)論的最小隱藏假設(shè)集H。
下面是作者給出的一個(gè)訓(xùn)練數(shù)據(jù)的例子,以提示詞及正確回復(fù)的方式出現(xiàn)。
每個(gè)訓(xùn)練實(shí)例由自動(dòng)化生成器產(chǎn)生,并由驗(yàn)證器篩選,從而生成大規(guī)模、自我校驗(yàn)的訓(xùn)練數(shù)據(jù),完全無(wú)需人工標(biāo)注。


圖2:模型訓(xùn)練的三階段流程概述:對(duì)演繹、歸納和溯因?qū)<疫M(jìn)行對(duì)齊,在參數(shù)空間中合并它們,并持續(xù)使用強(qiáng)化學(xué)習(xí)訓(xùn)練統(tǒng)一模型到下游領(lǐng)域
具體來(lái)看,該架構(gòu)下的大模型,可視為一個(gè)類似混合專家模型的架構(gòu),每類專家拿到的訓(xùn)練數(shù)據(jù)后,先各自提升自己的能力,演繹推理的「專家」,會(huì)在訓(xùn)練后產(chǎn)生假設(shè)生成、邏輯推論傳播、經(jīng)驗(yàn)一致性檢測(cè)和糾錯(cuò)。
歸納專家增強(qiáng)了模型在抽象和泛化方面的基本能力;而溯因?qū)<覐哪繕?biāo)開(kāi)始,以假設(shè)最小支持性為前提,對(duì)照已知事實(shí),高效地進(jìn)行目標(biāo)導(dǎo)向的假設(shè)形成、驗(yàn)證和修訂的重復(fù)循環(huán),相當(dāng)于對(duì)因果圖進(jìn)行剪枝。
這些能力是跨領(lǐng)域進(jìn)行穩(wěn)健推理的必要組成部分。
之后研究者會(huì)后通過(guò)參數(shù)空間融合,將這些專家合并,然后在數(shù)學(xué),編程和社交互動(dòng)這三種場(chǎng)景上分別使用強(qiáng)化學(xué)習(xí)訓(xùn)練專家模型(稱之為Domain-RL-Meta特定領(lǐng)域元強(qiáng)化學(xué)習(xí)),之后再對(duì)訓(xùn)練好的模型進(jìn)行融合。
這種訓(xùn)練方法,被稱為元能力對(duì)齊。
實(shí)驗(yàn)結(jié)果
高效且可擴(kuò)展的訓(xùn)練方式
對(duì)于上述三類任務(wù),該研究對(duì)問(wèn)題難度進(jìn)行了分級(jí),并采用循序漸進(jìn)的學(xué)習(xí)策略,從易到難逐級(jí)訓(xùn)練模型。
按照這個(gè)計(jì)劃,7B模型在2級(jí)問(wèn)題時(shí)性能收斂,并且在使用更高級(jí)別的訓(xùn)練數(shù)據(jù)集時(shí),不再提升性能,32B模型偶爾受益于3級(jí)難度的訓(xùn)練數(shù)據(jù),但獎(jiǎng)勵(lì)曲線不穩(wěn)定,因此該研究中也沒(méi)有采用。
研究者在訓(xùn)練過(guò)程中,對(duì)于7B模型,每個(gè)任務(wù)每個(gè)級(jí)別實(shí)驗(yàn)200個(gè)實(shí)例,對(duì)于32B模型,每個(gè)任務(wù)每個(gè)級(jí)別適應(yīng)2000個(gè)實(shí)例。
結(jié)果顯示:相比指令微調(diào)基線(Qwen-2.5),基于元能力對(duì)齊的訓(xùn)練方法使模型在數(shù)學(xué),編程和科學(xué)問(wèn)題的7個(gè)模型從沒(méi)有見(jiàn)過(guò)的基準(zhǔn)測(cè)試上的準(zhǔn)確率提高了10%以上,并通過(guò)特定領(lǐng)域強(qiáng)化學(xué)習(xí)獲得進(jìn)一步增益。
在7B和32B規(guī)模下,元能力對(duì)齊和合并的模型始終優(yōu)于指令微調(diào)的基線模型,合并后的模型取得了最高增益。
在7B規(guī)模模型上,數(shù)學(xué)問(wèn)題的平均分從基準(zhǔn)的38.8%提升到Domain-RL-Meta的43.0%;而沒(méi)有經(jīng)過(guò)元能力對(duì)齊,只是進(jìn)行特定領(lǐng)域的強(qiáng)化學(xué)習(xí),訓(xùn)練后的表現(xiàn)只有41.2%。
參數(shù)量擴(kuò)展至32B時(shí),數(shù)學(xué)問(wèn)題上的表現(xiàn)從46.9升至50.3(特定領(lǐng)域強(qiáng)化學(xué)習(xí))再升至52.3(元能力對(duì)齊+特定領(lǐng)域強(qiáng)化學(xué)習(xí)),整體平均分從44.6升至47.4再升至48.8。
對(duì)比7B和32B參數(shù)量的提升,可看出元能力對(duì)齊帶來(lái)的收益隨模型規(guī)模增加而擴(kuò)展,顯著提升了各項(xiàng)任務(wù)的性能上限,尤其是在數(shù)學(xué)任務(wù)上,合并三種推理模式后,訓(xùn)練好的模型性能提升了11.1%。

表1:不同參數(shù)量下,適應(yīng)元能力對(duì)齊訓(xùn)練的大模型在數(shù)學(xué)和編程問(wèn)題上的性能
這說(shuō)明該框架為在數(shù)學(xué)、編程和科學(xué)領(lǐng)域提升推理能力提供了一種可擴(kuò)展、可推廣且可控的方法,有助于構(gòu)建可解釋且魯棒的推理模型。
這種模塊化的訓(xùn)練方式,借鑒了混合專家模型,同時(shí)使用來(lái)自心理學(xué)對(duì)人類推理本質(zhì)的洞見(jiàn),讓大模型的每個(gè)專家進(jìn)行專業(yè)分工,擅長(zhǎng)一種推理方式,從而能夠用小數(shù)據(jù)集完成快速的性能提升。
這就如同學(xué)生學(xué)到了能駕馭各家功夫的小無(wú)相功后,能夠在各種問(wèn)題上游刃有余。















 
 
 



















 
 
 
 