無需外部數(shù)據(jù)!AI自問自答實(shí)現(xiàn)推理能力進(jìn)化
AI通過自問自答就能提升推理能力?!
這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

該框架包含提問者(proposer)和解答者(solver)兩個(gè)角色,提問者生成與給定主題相關(guān)的問題,解答者旨在解決問題。
網(wǎng)友們神評,“簡直是帶有RL的GAN”。

值得一提的是,此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影~
通過強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)
當(dāng)前大語言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集,堪稱費(fèi)時(shí)費(fèi)力。
為了減輕這一負(fù)擔(dān),研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而,這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。
因此,問題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問題”。
這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足:
缺乏一種可擴(kuò)展且自我維持的流程,能夠在無人干預(yù)的情況下自動(dòng)生成有意義的問題和答案。

為此,研究者提出了SQLM框架,一種非對稱的自我博弈框架,其中提問者
,解答者
回答該問題,兩者均通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以最大化期望獎(jiǎng)勵(lì)。

其中,提問者生成問題會(huì)對解答者形成條件影響,而解答者的表現(xiàn)又反過來為提問者提供獎(jiǎng)勵(lì),從而不斷優(yōu)化提問者。
由于缺乏真實(shí)答案,研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。
若生成器-驗(yàn)證器差距?。ɡ缢銛?shù)問題),則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。

若生成器-驗(yàn)證器差距大(例如編程問題),先由提問者生成測試用例,獎(jiǎng)勵(lì)則基于通過測試的比例。


這種極小極大式的訓(xùn)練框架通過自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練,并使獎(jiǎng)勵(lì)機(jī)制能夠針對具體問題進(jìn)行自適應(yīng)調(diào)整。
為了評估模型的不同能力,研究者進(jìn)行了三部分任務(wù),并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。
算術(shù)任務(wù)
研究人員讓提問者生成一個(gè)三位數(shù)的算數(shù)問題,并將其作為解答器的輸入。他們按照TinyZero的設(shè)置,構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問題的測試集。
代數(shù)任務(wù)
研究者讓模型生成最多包含兩個(gè)變量的線性方程,并在OMEGA基準(zhǔn)中的100道線性方程測試題上進(jìn)行評估。
編程問題
他們讓模型生成類似LeetCode中簡單題的問題,輸入為整數(shù)列表,輸出為單個(gè)整數(shù)或另一個(gè)列表,并在Codeforces測試集的一個(gè)子集上進(jìn)行評估。

實(shí)驗(yàn)結(jié)果顯示,SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%,在代數(shù)任務(wù)上提高了16%;在編程任務(wù)上的準(zhǔn)確率提高了7%。
此外,上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線(用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值),表明推理能力的真正提升。
團(tuán)隊(duì)介紹

Lili Chen,本科畢業(yè)于加州大學(xué)伯克利分校,現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。

Katerina Fragkiadaki,卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授,博士畢業(yè)于賓夕法尼亞大,曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員,并于谷歌研究院工作。

Hao Liu,博士畢業(yè)于加州大學(xué)伯克利分校,曾任谷歌DeepMind研究員,即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。

Deepak Pathak,Skild AI創(chuàng)始人,本科就讀于印度理工學(xué)院坎普爾分校,博士畢業(yè)于加州大學(xué)伯克利分校,曾在Meta擔(dān)任了一年的研究員,現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。


































