偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR 2025 | 真正「Deep」的「Research」,通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)可自主進(jìn)化的科研智能體來了!

人工智能 新聞
牛津大學(xué)教授 Will MacAskill 最新預(yù)言未來 AI 的增長率足以在不到 10 年的時(shí)間里,推動(dòng)相當(dāng)于 100 年的技術(shù)進(jìn)步。

CycleResearcher 研究團(tuán)隊(duì)成員包括:張?jiān)澜淌冢骱髮W(xué)人工智能系教授,工學(xué)院副院長,其指導(dǎo)的博士生朱敏郡、張鴻博、鮑光勝、訪問學(xué)生翁詣軒;UCL 訪問研究員楊林易博士,25 Fall 入職南方科技大學(xué)擬任獨(dú)立 PI,博士生導(dǎo)師,研究員。

AI 技術(shù)不斷進(jìn)步,科研自動(dòng)化浪潮正在深刻改變學(xué)術(shù)世界!近日,來自西湖大學(xué)、UCL 等機(jī)構(gòu)的研究團(tuán)隊(duì)在自動(dòng)化科研方向發(fā)布了一項(xiàng)突破性的成果:CycleResearcher 。 CycleResearcher 首次實(shí)現(xiàn)了可訓(xùn)練的科研流程的全鏈路端到端訓(xùn)練,覆蓋智能文獻(xiàn)檢索、模型主動(dòng)提問、強(qiáng)化學(xué)習(xí)迭代優(yōu)化論文創(chuàng)新點(diǎn)、方法論架構(gòu)設(shè)計(jì)、實(shí)驗(yàn)設(shè)計(jì)到論文自動(dòng)生成的完整閉環(huán)。 

值得一提的是,同類功能在 OpenAI 商業(yè)化方案中需支付高達(dá) 2 萬美元 / 月的服務(wù)費(fèi)用,而團(tuán)隊(duì)開源了所有代碼、數(shù)據(jù)、和 Demo:

圖片

  • 論文鏈接:https://openreview.net/forum?id=bjcsVLoHYs
  • 網(wǎng)頁鏈接:https://ai-researcher.net/
  • 代碼鏈接:https://github.com/zhu-minjun/Researcher

牛津大學(xué)教授 Will MacAskill 最新預(yù)言未來 AI 的增長率足以在不到 10 年的時(shí)間里,推動(dòng)相當(dāng)于 100 年的技術(shù)進(jìn)步。如何讓 AI 實(shí)現(xiàn)「遞歸自我改進(jìn)」成為了解決這個(gè)問題的關(guān)鍵!然而,現(xiàn)有的一系列工作包括 SakanaAI 公司于去年 8 月發(fā)布的 AI Scientist、香港大學(xué)最近發(fā)布的 AI-Researcher 都是基于調(diào)用 API 構(gòu)建推理的框架去實(shí)現(xiàn)自動(dòng)化科研,而無法被訓(xùn)練優(yōu)化。CycleResearcher(模型上傳于 24 年 8 月)是全球首個(gè)通過強(qiáng)化學(xué)習(xí)迭代優(yōu)化訓(xùn)練實(shí)現(xiàn)的 AI 科研智能體。

圖片

圖 1: AI Researcher 功能展示圖

CycleResearcher 首次實(shí)現(xiàn)了通過強(qiáng)化學(xué)習(xí)進(jìn)行科研過程的自動(dòng)迭代改進(jìn),它能夠模擬完整的科研流程,包括文獻(xiàn)綜述、研究構(gòu)思、論文撰寫,以及模擬實(shí)驗(yàn)結(jié)果。

研究團(tuán)隊(duì)主要干了三件事情:

1)數(shù)據(jù)集: 發(fā)布了兩個(gè)大規(guī)模數(shù)據(jù)集 Review-5k 和 Research-14k,用于評(píng)估和訓(xùn)練學(xué)術(shù)論文評(píng)審和生成模型。

2)CycleResearcher 模型: 可以生成質(zhì)量接近人類撰寫預(yù)印本的論文(評(píng)分 5.36 分),實(shí)現(xiàn) 31.07% 的接受率。

3)CycleReviewer 模型: 一個(gè)做論文評(píng)審的模型,在平均絕對(duì)誤差 (MAE) 方面顯示出令人鼓舞的結(jié)果,與人類評(píng)審員相比,平均絕對(duì)誤差(MAE)降低了 26.89%。

利用商業(yè)大型語言模型(LLMs)作為研究助理或想法生成器已經(jīng)取得了顯著進(jìn)展,但在多達(dá)上萬次模擬同行評(píng)議中通過反饋而自我進(jìn)化的自動(dòng)科研大模型從未實(shí)現(xiàn)過。這項(xiàng)研究的提出旨在解決了這個(gè)領(lǐng)域難題。

圖片

圖 2: CycleResearcher 訓(xùn)練框架圖

創(chuàng)新點(diǎn)詳細(xì)解讀:

1. 高質(zhì)量數(shù)據(jù)集與模型規(guī)?;簽橛?xùn)練 CycleResearcher,研究團(tuán)隊(duì)專門構(gòu)建了包含近 1.5 萬篇高質(zhì)量學(xué)術(shù)論文的數(shù)據(jù)集(Research-14K),數(shù)據(jù)來源覆蓋了 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR 和 ICCV 等頂級(jí)會(huì)議。提供了多個(gè)不同規(guī)模的模型(12B、72B、123B),滿足不同科研需求。

2. 強(qiáng)化學(xué)習(xí)與迭代反饋機(jī)制:如圖二所示,CycleResearcher 的核心技術(shù),在于其采用迭代式偏好優(yōu)化(Iterative SimPO)的訓(xùn)練框架,這一方法使得在線強(qiáng)化學(xué)習(xí)(Online RLHF)成為了可能。這個(gè)框架包含兩個(gè)關(guān)鍵模型:策略模型 (CycleResearcger) 和獎(jiǎng)勵(lì)模型 (DeepReveiwer)。

3. 指令微調(diào)(SFT)熱身階段:策略模型 CycleResearcher 負(fù)責(zé)生成論文的各個(gè)部分,它首先會(huì)進(jìn)行廣泛的文獻(xiàn)綜述,從輸入的 bib 文件中獲取所有參考文獻(xiàn)及其摘要,全面了解研究背景。然后,它會(huì)交替生成論文的大綱和正文,確保邏輯流暢。具體來說,它會(huì)先生成動(dòng)機(jī)和大綱中的主要思想,然后生成標(biāo)題、摘要、引言和方法部分。接下來,概述實(shí)驗(yàn)設(shè)置和結(jié)果,隨后生成實(shí)驗(yàn)設(shè)計(jì)和模擬結(jié)果(注意,這里的實(shí)驗(yàn)結(jié)果是模擬的)。最后,它會(huì)分析實(shí)驗(yàn)結(jié)果并形成結(jié)論。整個(gè)過程就像一位經(jīng)驗(yàn)豐富的科研人員在撰寫論文一樣,有條不紊,邏輯清晰。獎(jiǎng)勵(lì)模型 CycleReviewer 則負(fù)責(zé)模擬同行評(píng)議,對(duì)生成的論文進(jìn)行評(píng)估和反饋。它會(huì)從多個(gè)維度對(duì)論文進(jìn)行打分,并給出具體的評(píng)審意見。

4. 迭代反饋訓(xùn)練階段:研究人員首先通過拒絕采樣獲取樣本,通過 CycleReviewer 的打分構(gòu)成偏好對(duì),兩個(gè)模型相互配合,通過強(qiáng)化學(xué)習(xí)的方式不斷優(yōu)化,CycleResearcher 根據(jù) CycleReviewer 的反饋不斷改進(jìn)自身的論文生成策略,CycleReviewer 則根據(jù) CycleResearcher 生成的論文不斷提高自身的評(píng)審能力。兩個(gè)模型交互反饋,不斷優(yōu)化策略。在 Iterative SimPO 算法中,SimPO 算法雖然可以幫助 AI 區(qū)分 “好” 論文和 “壞” 論文,但它不能保證 AI 生成的文本是流暢的。因此,我們將 SimPO 損失和 NLL 損失結(jié)合起來,讓 AI 模型既能寫出高質(zhì)量的論文,又能保證文本的流暢性。

5. 實(shí)驗(yàn)結(jié)果:CycleResearcher 生成論文的模擬評(píng)審平均得分達(dá)到 5.36 分,超過目前 AI Scientist 的 4.31 分,且十分接近人類真實(shí)預(yù)印本的平均水平(5.24 分)。同時(shí),CycleResearcher 論文的接受率達(dá)到了 35.13%,遠(yuǎn)高于 AI Scientist 的 0%。

總結(jié)

1.這篇工作首次提出了一個(gè)用于自動(dòng)化整個(gè)研究生命周期的迭代強(qiáng)化學(xué)習(xí)框架 通過集成 CycleResearcher(策略模型)和 CycleReviewer(獎(jiǎng)勵(lì)模型),該框架能夠模擬真實(shí)世界的研究 - 評(píng)論 - 改進(jìn)的迭代循環(huán)。

2.團(tuán)隊(duì)發(fā)布了兩個(gè)大規(guī)模數(shù)據(jù)集,用于學(xué)術(shù)論文生成和評(píng)論的評(píng)估與訓(xùn)練 Review-5k 和 Research-14k 數(shù)據(jù)集專為捕捉機(jī)器學(xué)習(xí)中同行評(píng)審和研究論文生成的復(fù)雜性而設(shè)計(jì),為評(píng)估和訓(xùn)練學(xué)術(shù)論文生成和評(píng)審模型提供了寶貴的資源。

3.CycleResearcher 在研究構(gòu)思和實(shí)驗(yàn)設(shè)計(jì)方面表現(xiàn)出一致的性能,可以達(dá)到人類撰寫預(yù)印本的論文質(zhì)量,接近會(huì)議接受論文的質(zhì)量。 這表明 LLM 可以在科學(xué)研究和同行評(píng)審過程中做出有意義的貢獻(xiàn)。

我們堅(jiān)信科研工具應(yīng)當(dāng)開放共享,因此提供了完整的開源資源套件:

pip install ai_researcher

開源套件包含:

1. 不同規(guī)模模型:所有模型均支持本地部署

  • CycleResearcher:提供 12B、72B 和 123B 三種規(guī)模
  • CycleReviewer:提供 8B、70B 和 123B 三種規(guī)模
  • DeepReviewer:提供 7B 和 14B 兩種規(guī)模 

2. 大規(guī)模訓(xùn)練數(shù)據(jù)集: 

  • Review-5K:包含 4,989 篇論文的專業(yè)評(píng)審數(shù)據(jù)
  • Research-14K:包含 14,911 篇高質(zhì)量論文的結(jié)構(gòu)化數(shù)據(jù)
  • DeepReview-13K:包含 13,378 篇論文的多維度深度評(píng)審數(shù)據(jù)

3. 詳盡教程: 

  • CycleResearcher 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_1.ipynb
  • CycleReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_2.ipynb
  • DeepReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_3.ipynb
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-05-30 16:37:29

2023-04-23 10:12:14

算法強(qiáng)化學(xué)習(xí)

2025-08-01 09:05:00

2025-08-12 08:58:03

2025-07-24 09:05:00

2024-07-22 08:30:00

神經(jīng)網(wǎng)絡(luò)AI

2025-03-10 12:09:37

2017-03-28 10:15:07

2023-08-28 06:52:29

2025-10-10 08:33:49

2025-07-01 09:05:28

2017-04-04 19:52:24

強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2025-06-03 06:12:03

2025-10-11 04:00:00

2023-10-19 13:25:00

AI訓(xùn)練

2020-05-06 16:07:05

百度飛槳

2024-07-23 14:10:48

2025-01-06 09:45:00

AI訓(xùn)練數(shù)據(jù)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-06-16 20:50:13

大模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)