偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="572sp"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

無需外部數(shù)據(jù)！AI自問自答實(shí)現(xiàn)推理能力進(jìn)化

2025-08-11 08:38:00

人工智能新聞

卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

AI通過自問自答就能提升推理能力？！

這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

該框架包含提問者（proposer）和解答者（solver）兩個(gè)角色，提問者生成與給定主題相關(guān)的問題，解答者旨在解決問題。

網(wǎng)友們神評，“簡直是帶有RL的GAN”。

值得一提的是，此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影～

通過強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)

當(dāng)前大語言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集，堪稱費(fèi)時(shí)費(fèi)力。

為了減輕這一負(fù)擔(dān)，研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而，這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。

因此，問題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問題”。

這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足：

缺乏一種可擴(kuò)展且自我維持的流程，能夠在無人干預(yù)的情況下自動(dòng)生成有意義的問題和答案。

為此，研究者提出了SQLM框架，一種非對稱的自我博弈框架，其中提問者，解答者回答該問題，兩者均通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，以最大化期望獎(jiǎng)勵(lì)。

其中，提問者生成問題會(huì)對解答者形成條件影響，而解答者的表現(xiàn)又反過來為提問者提供獎(jiǎng)勵(lì)，從而不斷優(yōu)化提問者。

由于缺乏真實(shí)答案，研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。

若生成器-驗(yàn)證器差距?。ɡ缢銛?shù)問題），則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。

若生成器-驗(yàn)證器差距大（例如編程問題），先由提問者生成測試用例，獎(jiǎng)勵(lì)則基于通過測試的比例。

這種極小極大式的訓(xùn)練框架通過自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練，并使獎(jiǎng)勵(lì)機(jī)制能夠針對具體問題進(jìn)行自適應(yīng)調(diào)整。

為了評估模型的不同能力，研究者進(jìn)行了三部分任務(wù)，并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。

算術(shù)任務(wù)

研究人員讓提問者生成一個(gè)三位數(shù)的算數(shù)問題，并將其作為解答器的輸入。他們按照TinyZero的設(shè)置，構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問題的測試集。

代數(shù)任務(wù)

研究者讓模型生成最多包含兩個(gè)變量的線性方程，并在OMEGA基準(zhǔn)中的100道線性方程測試題上進(jìn)行評估。

編程問題

他們讓模型生成類似LeetCode中簡單題的問題，輸入為整數(shù)列表，輸出為單個(gè)整數(shù)或另一個(gè)列表，并在Codeforces測試集的一個(gè)子集上進(jìn)行評估。

實(shí)驗(yàn)結(jié)果顯示，SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%，在代數(shù)任務(wù)上提高了16%；在編程任務(wù)上的準(zhǔn)確率提高了7%。

此外，上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線（用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值），表明推理能力的真正提升。

團(tuán)隊(duì)介紹

Lili Chen，本科畢業(yè)于加州大學(xué)伯克利分校，現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。

Katerina Fragkiadaki，卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授，博士畢業(yè)于賓夕法尼亞大，曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員，并于谷歌研究院工作。

Hao Liu，博士畢業(yè)于加州大學(xué)伯克利分校，曾任谷歌DeepMind研究員，即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。

Deepak Pathak，Skild AI創(chuàng)始人，本科就讀于印度理工學(xué)院坎普爾分校，博士畢業(yè)于加州大學(xué)伯克利分校，曾在Meta擔(dān)任了一年的研究員，現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。

責(zé)任編輯：張燕妮來源：量子位

模型 AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營