偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需外部數(shù)據(jù)!AI自問自答實(shí)現(xiàn)推理能力進(jìn)化

人工智能 新聞
卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

AI通過自問自答就能提升推理能力?!

這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

圖片

該框架包含提問者(proposer)和解答者(solver)兩個(gè)角色,提問者生成與給定主題相關(guān)的問題,解答者旨在解決問題。

網(wǎng)友們神評,“簡直是帶有RL的GAN”。

圖片

值得一提的是,此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影~

通過強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)

當(dāng)前大語言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集,堪稱費(fèi)時(shí)費(fèi)力。

為了減輕這一負(fù)擔(dān),研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而,這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。

因此,問題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問題”。

這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足:

缺乏一種可擴(kuò)展且自我維持的流程,能夠在無人干預(yù)的情況下自動(dòng)生成有意義的問題和答案。

圖片

為此,研究者提出了SQLM框架,一種非對稱的自我博弈框架,其中提問者圖片,解答者圖片回答該問題,兩者均通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以最大化期望獎(jiǎng)勵(lì)。

圖片

其中,提問者生成問題會(huì)對解答者形成條件影響,而解答者的表現(xiàn)又反過來為提問者提供獎(jiǎng)勵(lì),從而不斷優(yōu)化提問者。

由于缺乏真實(shí)答案,研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。

若生成器-驗(yàn)證器差距?。ɡ缢銛?shù)問題),則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。

圖片

若生成器-驗(yàn)證器差距大(例如編程問題),先由提問者生成測試用例,獎(jiǎng)勵(lì)則基于通過測試的比例。

圖片圖片

這種極小極大式的訓(xùn)練框架通過自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練,并使獎(jiǎng)勵(lì)機(jī)制能夠針對具體問題進(jìn)行自適應(yīng)調(diào)整。

為了評估模型的不同能力,研究者進(jìn)行了三部分任務(wù),并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。

算術(shù)任務(wù)

研究人員讓提問者生成一個(gè)三位數(shù)的算數(shù)問題,并將其作為解答器的輸入。他們按照TinyZero的設(shè)置,構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問題的測試集。

代數(shù)任務(wù)

研究者讓模型生成最多包含兩個(gè)變量的線性方程,并在OMEGA基準(zhǔn)中的100道線性方程測試題上進(jìn)行評估。

編程問題

他們讓模型生成類似LeetCode中簡單題的問題,輸入為整數(shù)列表,輸出為單個(gè)整數(shù)或另一個(gè)列表,并在Codeforces測試集的一個(gè)子集上進(jìn)行評估。

圖片

實(shí)驗(yàn)結(jié)果顯示,SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%,在代數(shù)任務(wù)上提高了16%;在編程任務(wù)上的準(zhǔn)確率提高了7%。

此外,上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線(用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值),表明推理能力的真正提升。

團(tuán)隊(duì)介紹

圖片

Lili Chen,本科畢業(yè)于加州大學(xué)伯克利分校,現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。

圖片

Katerina Fragkiadaki,卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授,博士畢業(yè)于賓夕法尼亞大,曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員,并于谷歌研究院工作。

圖片

Hao Liu,博士畢業(yè)于加州大學(xué)伯克利分校,曾任谷歌DeepMind研究員,即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。

圖片

Deepak Pathak,Skild AI創(chuàng)始人,本科就讀于印度理工學(xué)院坎普爾分校,博士畢業(yè)于加州大學(xué)伯克利分校,曾在Meta擔(dān)任了一年的研究員,現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-03 09:05:00

2025-09-01 09:09:00

2025-06-03 08:51:00

2025-06-03 08:38:00

2020-12-07 13:05:10

AI

2025-02-24 10:07:04

2022-11-01 08:02:04

2020-03-16 13:27:47

開發(fā)者產(chǎn)品化系統(tǒng)

2020-12-11 07:10:03

程序員

2025-02-10 13:00:00

模型訓(xùn)練AI

2025-05-30 09:05:00

AI大模型推理

2025-03-07 09:34:14

2025-10-08 11:22:01

2018-07-23 16:18:01

2025-06-10 09:25:27

2025-05-19 08:54:00

2020-04-22 15:25:10

華為AI安全態(tài)勢感知

2025-06-17 17:19:31

AIOpenAIGoogle

2025-05-12 14:29:16

絕對零外部數(shù)據(jù)訓(xùn)練法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)